3.4 Multimodaliteit
combineren
In de tweede helft van 2023 maakte ‘multimodaliteit’ taalmodellen nog interessanter. Bij een zogenoemd ‘unimodaal model’ bestaat de trainingsdata uit één soort vorm, bijvoorbeeld tekst. Het voordeel van multimodale modellen is de mogelijkheid om verschillende data-input te combineren, zodat de input niet alleen bestaat uit tekst, maar ook uit beeld en geluid. AI is daardoor in staat om alles nog beter te verwerken en te combineren.
Context begrijpen
ingewikkeld
Doordat AI zowel de afbeelding als de bijbehorende geschreven beschrijving kan ‘begrijpen’, zal er een nog beter begrip van de context ontstaan. Dat maakt het weer mogelijk voor AI om taken uit te voeren die ingewikkelder zijn, zoals in de gezondheidszorg. Doordat AI een combinatie van geschreven medische dossiers en radiologische beelden weet te analyseren, kan het helpen bij het stellen van diagnoses. AI weet nu complexe vragen te beantwoorden door zowel tekstuele als visuele input te verwerken (en soms ook audio). Naast het beantwoorden van vragen, kan AI nieuwe inzichten opleveren op basis van de input.
Nieuwe mogelijkheden
inspreken
De multimodale AI-modellen creëren een nog groter bereik qua publiek. Het is nu namelijk niet meer nodig om allerlei specifieke commando’s in te typen: een afbeelding invoeren of bericht inspreken kan ook. Dus ook werknemers die minder bezig zijn met computers zullen ermee aan de slag kunnen. Het scheelt ook al dat het mogelijk is om op een manier met AI te praten die heel natuurlijk aanvoelt.
Multimodaliteit zorgt voor veel nieuwe toepassingsmogelijkheden, zoals het creëren van nieuwe content en het dienen als ‘superstagiair’. Door de groeiende mogelijkheden kan dat voor organisaties en werknemers veel nieuwe kansen opleveren.