U bent hier

3.4 Multimodaliteit

Dit artikel is eerder verschenen als Themadossier HR Rendement
Publicatiedatum: maart 2024

combineren

In de tweede helft van 2023 maakte ‘multimodaliteit’ taalmodellen nog interessanter. Bij een zogenoemd ‘unimodaal model’ bestaat de trainingsdata uit één soort vorm, bijvoorbeeld tekst. Het voordeel van multimodale modellen is de mogelijkheid om verschillende data-input te combineren, zodat de input niet alleen bestaat uit tekst, maar ook uit beeld en geluid. AI is daardoor in staat om alles nog beter te verwerken en te combineren.

Context begrijpen

ingewikkeld

Doordat AI zowel de afbeelding als de bijbehorende geschreven beschrijving kan ‘begrijpen’, zal er een nog beter begrip van de context ontstaan. Dat maakt het weer mogelijk voor AI om taken uit te voeren die ingewikkelder zijn, zoals in de gezondheidszorg. Doordat AI een combinatie van geschreven medische dossiers en radiologische beelden weet te analyseren, kan het helpen bij het stellen van diagnoses. AI weet nu complexe vragen te beantwoorden door zowel tekstuele als visuele input te verwerken (en soms ook audio). Naast het beantwoorden van vragen, kan AI nieuwe inzichten opleveren op basis van de input.

Nieuwe mogelijkheden

inspreken

De multimodale AI-modellen creëren een nog groter bereik qua publiek. Het is nu namelijk niet meer nodig om allerlei specifieke commando’s in te typen: een afbeelding invoeren of bericht inspreken kan ook. Dus ook werknemers die minder bezig zijn met computers zullen ermee aan de slag kunnen. Het scheelt ook al dat het mogelijk is om op een manier met AI te praten die heel natuurlijk aanvoelt.

Multimodaliteit zorgt voor veel nieuwe toepassingsmogelijkheden, zoals het creëren van nieuwe content en het dienen als ‘superstagiair’. Door de groeiende mogelijkheden kan dat voor organisaties en werknemers veel nieuwe kansen opleveren.