U bent hier

4.2 Betrouwbaarheid van assessments

Dit artikel is eerder verschenen als Themadossier HR Rendement
Publicatiedatum: november 2023

kwaliteit

Als u eenmaal weet welke constructen u wilt meten, hoe beoordeelt u dan de kwaliteit van een meetinstrument? Een goed meetinstrument is betrouwbaar, meet wat het beoogt te meten, en geeft duidelijke resultaten. Hiervoor let u op de betrouwbaarheid, validiteit en normgroepen.

4.2.1 Betrouwbaarheid

consistent

U gebruikt assessments voor belangrijke HR-beslissingen, zoals de personeelsselectie. De resultaten van een assessment moeten dus betrouwbaar zijn. Betrouwbaarheid is de mate waarin een meetinstrument consistente en stabiele resultaten oplevert bij herhaalde metingen onder vergelijkbare omstandigheden. Kenmerken zoals het intelligentieniveau en de persoonlijkheid zijn over het algemeen stabiel. Als iemand herhaaldelijk dezelfde test aflegt en steeds verschillende persoonlijkheidsprofielen produceert, geeft dit aan dat de test inconsistent is en minder betrouwbaar.

COTAN

samenhang

waarde

richtlijn

Bij de betrouwbaarheid is het altijd van belang om naar de mate van samenhang te kijken. Dit kan om de samenhang gaan tussen de vragen binnen een test (interne consistentie), tussen een test en een herhalingstest, of tussen verschillende beoordelaars. Deze samenhang heeft een waarde tussen de 0 en 1. Ligt de waarde dichter bij 1, dan is de test betrouwbaarder en levert deze betere resultaten op. In tabel 1 staan de beoordelingen van de COTAN (zie hoofdstuk 1) voor de betrouwbaarheid van instrumenten in verschillende situaties. De r staat daar voor correlatie: de statistische term voor samenhang. Deze kunt u als richtlijn gebruiken voor het evalueren van de betrouwbaarheid van meetinstrumenten. In de meeste gevallen, met name bij kwalitatieve testontwikkelaars, zult u de betrouwbaarheid van het instrument kunnen vinden in de handleiding of documentatie.

Testen voor belangrijke beslissingen op individueel niveau, bijvoorbeeld voor de personeelsselectie
goed:

r ≥ .90
voldoende:

.80 ≤ r < .90
onvoldoende:

r < .80
Testen voor minder belangrijke beslissingen op individueel niveau, bijvoorbeeld voor een voortgangscontrole
goed:

r ≥ .80
voldoende:

.70 ≤ r < .80
onvoldoende:

r < .70
Testen voor onderzoek op groepsniveau, bijvoorbeeld voor de meting van teamtevredenheid
goed:

r ≥ .70
voldoende:

.60 ≤ r < .70
onvoldoende:

r < .60

4.2.2 Validiteit

relevant

systematische fouten

Validiteit verwijst naar de mate waarin het meetinstrument daadwerkelijk meet wat het beoogt te meten. Een valide meetinstrument moet nauwkeurig en relevant zijn voor het kenmerk of de eigenschap waar u meer over wilt weten. Waar het bij betrouwbaarheid gaat om vermindering van toevalligheden en inconsistentie van resultaten, gaat het bij validiteit om vermindering van systematische fouten. Het is mogelijk dat een test heel betrouwbaar is, maar niet valide.

Voorbeeld

rekenvaardigheid

minder taalvaardig

Om dit toe te lichten, vindt u hier een voorbeeld. Een onderzoeker wil de rekenvaardigheid van mensen onderzoeken en heeft daarvoor een test met tien rekensommen gemaakt. Misschien kent u ze nog wel: de rekensommen gegoten in verhaaltjes over pizzapunten verdelen of tegeltjes leggen. De sommen bevatten echter zo veel tekst en ingewikkelde zinsconstructies dat minder taalvaardige kandidaten de som niet uit de tekst kunnen halen en niet tot een goede berekening kunnen komen. De test meet nu niet meer alleen de rekenvaardigheid, maar deels ook de taalvaardigheid van een kandidaat.

Hoewel deze test consistent en dus betrouwbaar kan zijn, is het geen valide test om puur de rekenvaardigheid te meten. De test omvat immers zowel taal- als rekenvaardigheid.

Bepalen

doel

beoordelen

Bovenstaand voorbeeld laat zien dat er een aantal punten zijn waarmee u rekening moet houden om de validiteit van een vragenlijst of test te bepalen:

  • Of een test valide is, hangt af van het doel waarvoor deze is ontwikkeld. Als het doel is om zowel reken- als taalvaardigheden te testen, of om rekensommen uit taal te halen, dan kan de test uit het bovenstaande voorbeeld wel geschikt en valide zijn.
  • De validiteit van een test hangt af van de groep mensen waarop u deze toepast. Bovenstaande verhaaltjessommentest is misschien wel valide als er zekerheid is dat iedereen de tekst begrijpt en daardoor de som kan maken. De test is dus waarschijnlijk meer valide in groep 6 dan in groep 3, en meer bij mensen die al langer de taal spreken dan bij mensen die de taal nog aan het leren zijn.
  • Het beoordelen van validiteit is voor een groot deel ook kritisch nadenken en uw gezonde verstand gebruiken.

Volgens de Sollicitatiecode van de NVP moet u in het wervingsprofiel vermelden of een assessment deel uitmaakt van de procedure. Dat assessment moet gevalideerd zijn.

Beoordelen

onderzoeken

kwaliteit

Er zijn manieren in de psychometrie om te onderzoeken hoe valide een instrument is (zie tabel 2). Validiteit is geen enkelvoudig begrip met één criterium voor wanneer een instrument valide is. Ook is het voor testontwikkelaars niet altijd haalbaar om elk soort validiteit te onderzoeken. Bij het beoordelen van een instrument is het belangrijk om altijd te controleren of er onderzoek is gedaan naar de validiteit.

Soort validiteit Definitie Voorbeeld
Convergente validiteit Samenhang met andere instrumenten die hetzelfde construct meten of constructen die theoretisch verbonden zijn. Hangt de ontwikkelde extraversievragenlijst samen met een vragenlijst over sociale vaardigheden?
Criterium validiteit Samenhang met een extern criterium (zoals gedrag of prestatie) dat verwant is aan het gemeten construct. Hangen hogere scores op de ontwikkelde intelligentietest ook echt samen met hogere studiecijfers?
Predictieve validiteit De voorspellende waarde van een meetinstrument. Hangen hogere scores op de ontwikkelde intelligentietest ook echt samen met een betere werkprestatie in de toekomst?

4.2.3 Normgroep

individu

categoriseren

Een belangrijk aspect van de kwaliteit van een meetinstrument is de aanwezigheid van een normgroep. Zo kunt u zien hoe een individu scoort ten opzichte van andere mensen. Dit geeft meer informatie dan enkel ruwe scores. Stel: een kandidaat scoort een 8/10 op een bepaalde schaal, dan is de eerste interpretatie dat het om een hoge score gaat. Blijkt de gemiddelde score echter 9/10, dan is de score van deze kandidaat dus zelfs iets lager dan gemiddeld. Met een normgroep kunt u de resultaten van kandidaten interpreteren en categoriseren ten opzichte van anderen in de normgroep. De interpretatie verandert dus van ‘kandidaat X scoort hoog (8/10) op contactbehoefte’ naar ‘kandidaat X heeft een iets lager dan gemiddelde contactbehoefte ten opzichte van de normgroep’. Dit is nuttig om conclusies te kunnen trekken over kandidaten ten opzichte van andere mensen.

Het geeft meer leidraad om iemand te beschrijven naar aanleiding van de meest opvallende resultaten: de resultaten die het meeste afwijken van het gemiddelde.

4.2.4 Representatie

steekproef

Het is wel belangrijk dat de normgroep een goede afspiegeling is van de bevolking of de specifieke groep waarvoor u het meetinstrument gebruikt. Bij een vragenlijst over het salaris van vrouwen in Nederland is het bijvoorbeeld niet nodig dat u mannen meeneemt in de steekproef. Het is wel van belang dat de groep vrouwen die u selecteert zo representatief mogelijk is voor alle Nederlandse vrouwen, en niet beperkt is tot een bepaalde leeftijdsgroep, etniciteit of regio. Bij het kiezen van een meetinstrument is het dus verstandig om te onderzoeken of er normgroepen zijn en of er genoeg aandacht is besteed aan de representativiteit daarvan.