U bent hier

Onderneming & Fiscus
Werken met AI8. Risico’s, beperkingen en ethische dilemma’s8.2 Hallucinatie en betrouwbaarheid

8.2 Hallucinatie en betrouwbaarheid

Dit artikel is eerder verschenen als Themadossier HR Rendement
Publicatiedatum: maart 2024

Grote taalmodellen zijn getraind om op basis van hun database zeer overtuigende en vrij ‘menselijke’ teksten te maken. Maar ze hebben ook een manco.

8.2.1 Onverwachte verbanden

Door de werking van het algoritme, dat gebaseerd is op wiskunde en statistiek in plaats van op feitelijke kennis, kunnen taalmodellen feit en fictie door elkaar halen. Dat staat bekend als ‘hallucineren’. De gebruiker krijgt dan een antwoord dat niet (helemaal) strookt met de werkelijkheid.

Bevestiging

RAG

patronen

Met zogeheten RAG-technologie (retrieval-augmented generation) valt hallucinatie te voorkomen. Simpel gezegd zorgt RAG ervoor dat het model een menselijke manier van redeneren overneemt en de context van data snapt. Toch moet een organisatie bij het implementeren van generatieve AI-modellen niet onbeslagen ten ijs komen. Een taalmodel baseert zich namelijk op statistiek en patronen in de data, waardoor het ook onverwachte verbanden kan leggen, die een mens waarschijnlijk nooit zou leggen. Ook is het model altijd op zoek naar bevestiging van de aannames die het maakt. Want dat is nu eenmaal hoe statistiek werkt.

Verzonnen rechtszaken

verzinnen

niet gecheckt

Dat taalmodellen ook hun eigen waarheid kunnen verzinnen, heeft ook een Amerikaanse advocaat gemerkt. Hij stond een passagier bij, die gewond zou zijn geraakt doordat hij in het vliegtuig een serveerkarretje tegen zijn knie had gekregen. In de rechtszaal hield de advocaat een vurig pleidooi, waarin hij eerdere rechtszaken aanhaalde waarin andere luchtvaartmaatschappijen in soortgelijke zaken schikkingen hadden getroffen. Alleen had de tegenpartij nog nooit van die zaken gehoord. Dat kon ook wel kloppen: de advocaat had ChatGPT gevraagd om de basis te maken van het pleidooi en de informatie niet meer zelf gecheckt. Zijn verweer was dat hij niet wist dat ChatGPT zelf dingen kon verzinnen. Inmiddels weet hij dus beter.

Temperatuur

creatief

Een beperking waar gebruikers ook tegenaan kunnen lopen, is dat antwoorden op dezelfde vraag kunnen verschillen. Dat kan samenhangen met de instelling van de ‘temperatuur’-parameter van het model, die bepaalt hoe creatief de antwoorden zijn die het model geeft. Bij een hogere ‘temperatuur’ krijgt u creatievere output, maar neemt ook het risico op ongefundeerde aannames toe. En dus ook het risico dat het antwoord niet overeenkomt met de werkelijkheid.

Prompts

tijdrovend

Een andere beperking is dat het schrijven van een goede prompt om tot een goed antwoord te komen, erg tijdrovend kan zijn. De (betaalde) functie ChatGPT Teams, die begin 2024 is geïntroduceerd, kan hier een oplossing voor zijn. ChatGPT Teams maakt het eenvoudiger om prompts en chats te delen binnen teams. Daarnaast gebruikt het de data van uw organisatie niet voor het hertrainen van het model.

8.2.2 Training van modellen

uitleggen

Dat de antwoorden van taalmodellen niet altijd accuraat zijn, of van toepassing voor uw organisatie, komt ook door hoe ze getraind zijn. Want de standaardversie van het model baseert zich niet op gegevens van uw organisatie, maar op informatie die lukraak op internet is gevonden (zie ook paragraaf 8.4). Dit betekent ook dat het model geen kennis heeft over u, uw team of uw organisatie. U moet het model dus veel zaken uitleggen die voor u vanzelfsprekend zijn.

De standaardtaalmodellen zijn one size fits all. Maar als u de techniek op een specifiek bedrijfsprobleem wil toepassen, zijn deze standaardmodellen niet geschikt. Dan moet u het model toesnijden op uw organisatie.

8.2.3 Eigen data

vertrouwen

Hallucinatie van taalmodellen is een probleem voor werkgevers én werknemers. Zij moeten immers kunnen vertrouwen op informatie die het systeem aanlevert. Ook luidt de kritiek dat gebruikers alsnog tijd kwijt zijn aan het controleren van het antwoord van het model. In diezelfde tijd hadden ze misschien zelf een antwoord kunnen formuleren.

op maat

Zoals gezegd gaat RAG-technologie het hallucineren tegen. Maar menselijke controle blijft nodig. Het helpt als het model is getraind op eigen data van uw organisatie. Dan weet u dat er in de database (als het goed is) geen fouten zitten. Wel moet een expert het model dan trainen om te zorgen dat het ook correcte antwoorden geeft. Het op maat maken van een taalmodel is echt een vak apart (zie ook paragraaf 7.4).