Explorations in Multimodal Information Presentations

C.M.J. van Hooijdonk

    Research output: PhD ThesisPhD Thesis - Research VU, graduation external

    Abstract

    Dit proefschrift gaat over multimodale informatiepresentatie en levert een bijdrage aan onze kennis over de productie, verwerking en evaluatie ervan. Er zijn redenen om aan te nemen dat in sommige gevallen het presenteren van informatie met meerdere modaliteiten effectiever is dan het presenteren van informatie met slechts één modaliteit. Echter, het presenteren van multimodale informatie impliceert een gecompliceerde mix van eigenschappen van communicatieve taken en doelen, eigenschappen van zintuiglijke modaliteiten, en kwaliteiten van informatiemodaliteiten zelf. Daarnaast kunnen multimodale informatiepresentaties met verschillende onderzoeksmethodes geëvalueerd worden.
    In dit proefschrift worden vier verkennende studies besproken, waarbij ieder studie een ander onderzoeksgebied belicht, namelijk: mens-computer interactie, website usability, leerpsychologie en spraaktechnologie. Ieder hoofdstuk heeft hierdoor een specifieke kijk op multimodale informatiepresentatie. Daarnaast zijn in de vier studies verschillende onderzoeksmethodes toegepast om multimodale informatiepresentaties te evalueren, variërend van oogbewegingsregistratie tot protocol analyse en van corpus onderzoek tot experimentele evaluatiestudies.

    Hoofdstuk 2 beschrijft een productie-experiment dat werd uitgevoerd om te bepalen welke modaliteiten gebruikers kiezen om verschillende soorten medische vragen te beantwoorden. In het experiment werd aan de proefpersonen gevraagd om (potentieel multimodale) antwoordpresentaties te creëren op algemene medische vragen. In totaal werden er 1775 antwoordpresentaties verzameld. Vervolgens werd het verzamelde corpus geanalyseerd op de aanwezigheid van afbeeldingen (bijv. foto’s, lijntekeningen en animaties) en hun functie. De resultaten toonden aan dat één op de vier antwoorden één of meerdere afbeeldingen bevatte. Daarnaast werd het ontwerp van de antwoordpresentaties beïnvloed door de lengte van het antwoord: afbeeldingen met een hoog informatiegehalte kwamen vaker voor in korte antwoorden terwijl afbeeldingen met een laag informatiegehalte vaker voorkwamen in lange antwoorden. Een verklaring voor dit resultaat kan zijn dat een afbeelding minder informatie toevoegt aan een antwoord naarmate het antwoord zelf meer tekst bevat en vice versa. Ook het vraagtype had een effect op het ontwerp van de antwoordpresentaties: afbeeldingen met een laag informatiegehalte kwamen vaker voor in antwoorden op definitievragen terwijl afbeeldingen met een hoog informatiegehalte vaker voorkwamen in antwoorden op procedurele vragen. Een mogelijke verklaring voor dit resultaat kan zijn dat illustraties in definitievragen vaak niet meer doen dan illustreren wat in tekst al wordt uitgelegd terwijl afbeeldingen in procedurele antwoorden vaak gebruikt worden om de stappen in een proces uit te leggen, waardoor ze informatie toevoegen aan het tekstuele antwoord.
    Vervolgens beschrijft Hoofdstuk 2 een evaluatie-experiment waarin gebruikers unimodale en multimodale antwoordpresentaties beoordeelden. De antwoordpresentaties waren afkomstig uit het productie-experiment en werden gemanipuleerd in antwoordlengte (kort versus lang) en in het type afbeelding dat in het antwoord voorkwam (afbeeldingen met een hoog of laag informatiegehalte). De proefpersonen moesten de informativiteit en aantrekkelijkheid van antwoordpresentaties op verschillende medische vraagtypes beoordelen. Daarnaast moesten ze in een posttest aangeven hoeveel ze zich nog konden herinneren van de gepresenteerde antwoordpresentaties. Uit de resultaten bleek dat antwoordpresentaties met afbeeldingen met een hoog informatiegehalte informatiever en aantrekkelijker werden beoordeeld dan antwoordpresentaties met afbeeldingen met een laag informatiegehalte. De resultaten van de posttest suggereerden verder dat het leren van multimodale antwoordpresentaties tot betere leerresultaten leidde dan het leren van unimodale antwoordpresentaties.

    Hoofdstuk 3 beschrijft een exploratieve hardopdenkstudie die onderzocht hoe gebruikers hun acties verbaliseren wanneer ze in een website navigeren. Bovendien werd onderzocht welke acties in spatiële termen werden uitgedrukt. Tien hardopdenkprotocollen werden verzameld, afkomstig uit twee verschillende usability studies. In beide studies werd aan de proefpersonen gevraagd om eenvoudige zoektaken uit te voeren op een website (d.w.z. het zoeken van antwoorden op feitenvragen) en hierbij hardop te denken. Het verzamelde corpus bestond het 694 gecodeerde segmenten die geanalyseerd werden op het type en het niveau van de acties waarin gebruikers verwikkeld waren tijdens het navigeren op een website. We onderscheidden twee actietypes: uitvoerende en evaluatieve acties. Daarnaast kon iedere actie nader beschreven worden in drie actieniveaus. Daarnaast onderzochten we welke actietypes en actieniveaus werden uigedrukt in spatiële termen (bijv. “Ik ga terug naar de homepage.”). De resultaten van de protocolanalyse toonden aan dat uitingen voornamelijk betrekking hadden op evaluatieve acties (bijv. “Ik kan hierop niet klikken.”). Daarnaast hadden de meeste uitingen betrekking op acties op het eerste niveau (bijv. “Ik dubbelklik hierop.”). Bovendien kwamen spatiële uitdrukkingen het meeste voor wanneer gebruikers uitvoerende acties beschreven op het eerste actieniveau (bijv. “Ik ga terug naar de homepage.”). In het algemeen bevestigden de resultaten dat gebruikers spatiële termen gebruiken wanneer ze navigeren in een website. Echter, het verschil tussen een spatiële en een niet-spatiële uitdrukking was niet altijd eenduidig vast te stellen.

    Hoofdstuk 4 beschrijft eerst een experiment waarin de effecten werden onderzocht van drie modaliteiten (tekst vs. foto vs. filmclip) en de moeilijkheidsgraad (eenvoudig vs. moeilijk) van een speciaal type procedurele instructies, namelijk RSI-preventieoefeningen. In het experiment moesten de proefpersonen tien eenvoudige (eenvoudige symmetrische bewegingen) en tien moeilijke (complexe symmetrische bewegingen of asymmetrische bewegingen) RSI-oefeningen leren en uitvoeren. De effectiviteit van het presenteren van een instructie in een tekst, foto en filmclip werd bepaald met de leertijd, het aantal geoefende bewegingen tijdens de leertijd, de uitvoeringstijd en het aantal correct uitgevoerde oefeningen. De proefpersonen moesten ook hun subjectieve satisfactie aangeven. De resultaten toonden aan dat er geen enkele modaliteit was die de andere modaliteiten overtrof op de afhankelijke variabelen. Ook de resultaten voor de subjectieve satisfactie lieten geen verschil zien tussen de drie modaliteiten.
    In een voorkeurstudie werd verder onderzocht welke modaliteit gebruikers prefereren wanneer men RSI-oefeningen moet leren. Proefpersonen moesten zes RSI-oefeningen bestuderen, waarna ze moesten aangeven welke realisatie (d.w.z. tekst vs. foto vs. filmclip) van de oefeningen hun voorkeur had. Uit de resultaten bleek dat de proefpersonen over het algemeen de voorkeur hadden voor de filmclip. Echter, voor sommige oefeningen (bijv. “Maak van beide handen een vuist.”) gaven de proefpersonen aan dat ze een voorkeur hadden voor een instructie in een tekst.

    Hoofdstuk 5 beschrijft een experiment waarin oogbewegingsregistratie werd gebruikt om de incrementele verwerking van difoonsynthese, unitsynthese en menselijk spraak te bestuderen. In dit experiment, keken we zowel naar de segmentele als naar de suprasegmentele kwaliteit van de spraak. Als stimuli werden dertig Nederlandse zelfstandige naamwoorden gebruikt die uit één syllabe bestonden en konden worden afgebeeld. Daarnaast hadden deze zelfstandige naamwoorden dezelfde eerste fonemen (bijv. vo-rk en vo-s). De instructies werden in drie spraakcondities gerealiseerd: difoonsynthese, unitsynthese en menselijk spraak. De difoonsynthese werd gecreëerd met een Nederlands TTS systeem dat gebaseerd is op het Festival TTS systeem. De unitsynthese werd verkregen via een commercieel beschikbare unitsynthesizer. De stimuli voor de menselijke spraak werden opgenomen door een vrouw die Nederlands als moedertaal had. In het experiment kregen de proefpersonen een scherm te zien waarop vier objecten werden getoond. Bij ieder scherm kregen de proefpersonen twee opeenvolgende gesproken instructies te horen, die verwezen naar een object op het scherm. In de eerste instructie werd de referent genoemd (bijv. roze vork). De eerste instructie had een neutraal accentpatroon (bijv. Kijk naar de roze vork). In de tweede instructie werd het doelobject genoemd (bijv. blauwe vos of blauwe vork). De tweede instructie had een contextueel gepast dubbel accentpatroon (bijv. Kijk nu naar de BLAUWE VOS) of een contextueel ongepast dubbel accentpatroon (bijv. Kijk nu naar de BLAUWE VORK). Daarnaast moesten de proefpersonen een vragenlijst invullen over de begrijpelijkheid en de natuurlijkheid van de drie spraakcondities.
    De resultaten toonden aan de proefpersonen het doelobject het snelst identificeerden in de menselijke spraakconditie. Het doelobject werd het minst snel geïdentificeerd in de difoonsynthese. De resultaten voor de unitsynthese vielen tussen de resultaten van de andere twee spraakcondities in. Daarnaast lieten de resultaten zien dat wanneer de tweede instructie een contextueel gepast dubbel accentpatroon had (bijv. Kijk nu naar de BLAUWE VOS), de fixaties naar het concurrerende object (blauwe vork) toenamen. Blijkbaar interpreteerden de proefpersonen het accent op het adjectief in de tweede instructie (BLAUWE) contrasterend ten opzichte van het adjectief in de eerste instructie (roze). Dit impliceert dat de proefpersonen anticipeerden op het doelobject dat genoemd werd in de tweede instructie. Bovendien bleek dat deze anticipatie moeilijk te corrigeren was voor de difoonsynthese maar gemakkelijker was voor de unitsynthese en menselijke spraak. Tenslotte kwamen de resultaten van de vragenlijst overeen met de oogbewegingsdata: menselijke spraak was begrijpelijker en kwam natuurlijker over dan de unitsynthese en de difoonsynthese.

    Hoofdstuk 6 presenteert de belangrijkste resultaten van de vier studies en eindigt met enkele bevindingen over multimodale informatiepresentatie.
    Wanneer men verschillende modaliteiten met elkaar vergelijkt, is het belangrijk dat ze dezelfde hoeveelheid informatie weergeven. Echter, dit is niet zo eenvoudig als het misschien lijkt. Zo is het bijvoorbeeld mogelijk om uit te drukken hoe een bepaalde beweging voelt in een tekstuele instructie. Maar dit is niet mogelijk in een visuele instructie. Dit impliceert dat sommige informatie niet van de ene naar de andere modaliteit ‘vertaald’ kan worden. Het is daarom misschien een illusie om te denken dan dezelfde hoeveelheid informatie gepresenteerd kan worden in verschillende modaliteiten.
    Wanneer informatie door meerdere modaliteiten wordt gepresenteerd, is de kans aanwezig dat meerdere modaliteiten dezelfde informatie weergeven. Er is dan sprake van redundantie. Echter het weergeven van redundante informatie kan een negatief effect hebben op het leren van de informatie. Het onderzoek dat in Hoofdstuk 2 werd gepresenteerd, gaf aan dat gebruikers informatie op een multimodale manier weergeven (d.w.z. men gebruikte een combinatie van tekst en afbeeldingen). Deze afbeeldingen hadden meerdere functies: ze waren slechts decoratief of ze representeerden een element dat in het tekstuele antwoord werd genoemd of ze voegden informatie toe aan het tekstuele antwoord. Het presenteren van multimodale informatie impliceert dus een zekere mate van redundantie. Het is echter nog onduidelijk hoe de mate van redundantie het leren van multimodale informatie presentaties beïnvloedt.
    Original languageUndefined/Unknown
    QualificationPhD
    Awarding Institution
    • Universiteit van Tilburg
    Supervisors/Advisors
    • Maes, A., Supervisor, External person
    • Krahmer, E., Co-supervisor, External person
    Award date19 Mar 2008
    Print ISBNs9789090228556
    Publication statusPublished - 2008

    Bibliographical note

    Naam instelling promotie: Universiteit van Tilburg
    Naam instelling onderzoek: Universiteit van Tilburg

    Cite this