Interne Conformiteitsbeoordeling AI Act

Wat is ToetsTester?

ToetsTester is een platform dat docenten ondersteunt bij het nakijken van zowel handgeschreven als digitale toetsen met open en gesloten vragen. De docent levert het correctievoorschrift en de leerlingantwoorden aan, waarna de ToetsTester-AI deze van een score en feedback voorziet. De focus ligt hierbij op het nakijken van open vragen. Daarnaast biedt ToetsTester inzicht door verschillende taxonomische analyses uit te voeren.

Hoe werkt ToetsTester?

Het nakijkproces binnen ToetsTester is ontworpen om de expertise van de docent te combineren met de efficiëntie van kunstmatige intelligentie. Dit proces is onderverdeeld in vier opeenvolgende fasen. Hierbij is het principe van menselijk toezicht leidend: de docent behoudt gedurende het gehele traject de volledige regie en eindverantwoordelijkheid voor de beoordeling. De AI fungeert hierbij uitsluitend als ondersteunend instrument.

Gebruik van ToetsTester

Het proces begint, in het geval van handgeschreven toetsen, met het scannen van de bestanden. Hierbij worden de fysieke toetsen van leerlingen gedigitaliseerd en geupload naar de ToetsTester-omgeving. De AI ondersteunt de docent hierbij door de scans automatisch te analyseren, op te splitsen en toe te wijzen aan de juiste leerlingen.

Zodra de toetsen in het systeem staan, volgt de fase van het correctievoorschrift. De docent voorziet het systeem van de noodzakelijke beoordelingscriteria of antwoordmodellen. De AI leest deze instructies in en gebruikt ze als het kader waarbinnen de leerlingantwoorden beoordeeld moeten worden. De kwaliteit en helderheid van dit voorschrift zijn bepalend voor de nauwkeurigheid van de uiteindelijke AI-beoordeling. Docenten kunnen op voorhand, of achteraf, het correctiemodel aanpassen.

In de derde fase, antwoorden nakijken, vindt de technische verwerking plaats. ToetsTester zet de handgeschreven antwoorden eerst om naar digitale tekst via handschriftherkenning. Vervolgens worden deze antwoorden door de AI gewogen tegen de regels uit het correctievoorschrift. Het resultaat hiervan is een conceptscore en een concept-feedback voor elke vraag.

De laatste fase is het controleren door de docent. De docent valideert de door de AI voorgestelde scores en feedback. Hierbij kunnen transcripties worden gecorrigeerd en scores worden aangepast of overschreven. Pas nadat de docent de resultaten expliciet heeft geaccordeerd, worden deze definitief vastgesteld.

Subverwerkers en Gegevensbescherming

ToetsTester maakt voor de analyse en tekstverwerking gebruik van gespecialiseerde AI-modellen. Als afnemer van ToetsTester heeft de onderwijsinstelling de mogelijkheid om de AI-modellen zelf te configureren. De subverwerkers mogen dus zelf gekozen worden. Ten behoeve van de technische uitvoering (het aanroepen van de modellen) maakt ToetsTester gebruik van subverwerkers, waaronder Gemini en Glama. De gegevensopslag door ToetsTester is strikt beperkt tot de Europese Economische Ruimte (EER), gebruikmakend van de infrastructuur van Microsoft Azure in combinatie met een centrale database in Nederland.

Conform de afgesloten verwerkersovereenkomsten worden de ingevoerde gegevens, waaronder leerlingscans en correctievoorschriften, expliciet niet aangewend voor het (her)trainen van de bovengenoemde AI-modellen. De data blijft te allen tijde eigendom van de onderwijsinstelling.

Impact

De docent wordt gezien als gebruiker. Docenten gebruiken ToetsTester om toetsen van leerlingen na te kijken. Het doel van het gebruik van ToetsTester is het ondersteunen van de docent in zijn / haar nakijkwerk. Hiermee trachten we tijdsbesparing, betere feedback en meer inzicht in de voortgang van leerlingen te realiseren.

Nakijken met AI wordt aangemerkt als een hoog risico toepassing. Naast de bovengenoemde voordelen, zijn er dus ook risico's wanneer er met ToetsTester nagekeken wordt.

Impact op de docent

Het gebruik van ToetsTester heeft de volgende gevolgen voor de werkpraktijk van de docent:

Tijdsbesparing en feedbackkwaliteit. De docent kan de nakijktijd per toets aanzienlijk verkorten en tegelijkertijd uitgebreide, kwalitatieve feedback geven zonder extra tijdsinvestering.
Inzicht in voortgang. Door snellere data-analyse krijgt de docent directer zicht op leerprestaties, waardoor lessen effectiever kunnen worden aangepast op de behoeften van de klas.
Verschuiving van werkdruk. De focus verschuift van het uitvoerende nakijkwerk naar de voorkant van het proces; het opstellen van een nauwkeurig correctievoorschrift is essentieel voor een betrouwbaar AI-resultaat.
Automation bias en cognitive surrender. Er bestaat een risico dat de docent blind vertrouwt op de AI-suggesties of minder scherp wordt bij het controleren, wat de kwaliteit van de beoordeling kan ondermijnen.
Biases in AI-modellen. De modellen kunnen onbedoelde vooroordelen bevatten (bijv. op basis van schrijfstijl) die tot een onterechte beoordeling van een leerling kunnen leiden.

Impact op de leerling

Voor de leerling zien we op de volgende gebieden een impact ontstaan:

Uitlegbaarheid. Leerlingen hebben recht op een transparante onderbouwing van hun resultaten. De betrokkenheid van AI in dit proces moet voor hen navolgbaar zijn.
Snellere resultaten. Door de inzet van ToetsTester ontvangen leerlingen hun cijfer en feedback sneller, wat de directe koppeling tussen hun prestatie en het leermoment versterkt.
Gelijkheid en biases. De leerling kan de gevolgen ervaren van mogelijke biases in de AI-modellen.

Risicobeperking

Systeemmitigaties

ToetsTester beschikt over verschillende waarborgen om risico's te minimaliseren:

Docent-verificatie. Met het gebruik van ToetsTester wordt de docent gestimuleerd om de scores en feedback van de AI te controleren. Scholen kunnen deze menselijke controle als verplichte kwaliteitsstap instellen.
Zekerheidspercentages. De AI van ToetsTester geeft aan wat de zekerheid van een beoordeling is. Dit gebeurt door te werken met verschillende AI-correctoren, die met elkaar overleggen.
Referentie naar bronbestand. In ToetsTester is het mogelijk om de transcriptie van de AI te controleren door deze te vergelijken met de oorspronkelijke tekst van de leerling.
Uitlegbaarheid van de AI. ToetsTester streeft naar het faciliteren van Explainable AI (XAI). De feedback van de AI is hierin een belangrijk middel.
Feedback. In overeenstemming met de verplichting tot post-market monitoring, is in de applicatie een directe feedbackknop geintegreerd. Gebruikers kunnen hiermee incidenten of hallucinaties direct melden.
Training. Gebruikers worden ondersteund in het kritisch valideren van AI-outputs en gewezen op hun rol als eindverantwoordelijke.

Indien er sprake is van ernstige incidenten of structurele hallucinaties, beschikt ToetsTester over een protocol voor handmatige afschakeling. De verwerking kan per direct centraal worden stopgezet.

Menselijke eindverantwoordelijkheid

Het uitgangspunt van ToetsTester is dat de docent in alle stappen van het proces de regie houdt.

Invoer informatie. Het is de verantwoordelijkheid van de docent om zorg te dragen voor de kwaliteit van de ingevoerde informatie, zoals het correctievoorschrift.
Controle van uitkomst. De docent controleert de uitkomst van het systeem. De docent is altijd degene die moet beoordelen of de output van het systeem kloppend is.
Communicatie naar leerlingen. ToetsTester doet voorstellen voor feedback of de beoordeling, maar de docent blijft uiteindelijk verantwoordelijk voor de communicatie over resultaten.

Limitaties en Risico's

Hieronder worden de limitaties en risico’s toegespitst op bovengenoemde vier fases van het werken met ToetsTester. Het gebruik van ToetsTester kent, als AI systeem, daarnaast algemene risico’s:

Biases. AI-modellen kunnen patronen uit hun trainingsdata overnemen die leiden tot onbewuste vooringenomenheid. In de context van nakijken kan dit betekenen dat de AI een leerling onbedoeld anders beoordeelt op basis van bijvoorbeeld taalgebruik, zinsbouw of spelling, zelfs wanneer dit geen onderdeel is van het officiële correctievoorschrift.
Hallucinaties. Het model kan uitspraken doen die feitelijk onjuist zijn, maar wel zeer geloofwaardig en overtuigend klinken. Dit kan resulteren in feedback of een scoreverantwoording die gebaseerd is op informatie die de leerling helemaal niet heeft opgeschreven.

Functies	Omschrijving	Limitaties	Risico's
Scannen & omzetten	Om ToetsTester te gebruiken, moeten docenten de studentantwoorden uploaden. Dit kan bestaan uit één grote PDF, meerdere PDF bestanden per leerling of meerdere afbeeldingen. In het geval van één grote PDF met meerdere leerlingen wordt er gebruik gemaakt van AI om de opsplitsing te maken.	De mogelijkheid om toetsen te scannen en de werking van dat proces verschilt per school. Een gebrekkige scanfaciliteit binnen de schoolorganisatie kan de effectiviteit van het systeem beperken. Daarnaast kunnen er fouten ontstaan in de opsplitsing van één PDF naar meerdere leerlingen.	Bij een slechte organisatie van scanmogelijkheden binnen de school kan deze functie mogelijk extra tijd kosten. Wanneer de opsplitsing van leerlingen niet juist is gedaan, de docent dit niet controleert en/of niet aanpast, zal de beoordeling van de AI niet juist zijn.
Correctievoorschrift	ToetsTester gebruikt het correctievoorschrift van de docent om de leerling antwoorden na te kijken. Er wordt AI gebruikt om dit correctievoorschrift in te lezen.	De nauwkeurigheid van de AI-beoordeling is direct afhankelijk van de kwaliteit van het correctievoorschrift. Dit vereist een ondubbelzinnige formulering van vragen, antwoorden en score-instructies.	Een interpretatiefout van de AI in het correctievoorschrift werkt door in de scores van de gehele klas. Bij aanpassing van het correctievoorschrift kan de kwaliteit van het nakijken beïnvloeden.
Antwoorden nakijken door AI	In deze stap zet ToetsTester eerst de handgeschreven antwoorden om naar digitale tekst. Daarna worden de individuele antwoorden nagekeken door een AI, waarbij het antwoord met het correctievoorschrift vergeleken wordt.	De effectiviteit van de handschriftherkenning kan per leerling verschillen. Daarnaast werkt de AI op basis van waarschijnlijkheden, waardoor een correcte beoordeling niet voor 100% kan worden gegarandeerd.	Hallucinaties of verkeerde interpretatie van slecht leesbaar handschrift.
Controleren door docent	De AI werkt in ToetsTester als een assistent die een voorsortering van de scores maakt. De docent controleert deze scores, feedback en de transcriptie. Daarna worden de resultaten gedeeld met de leerlingen.	ToetsTester kan niet garanderen dat een docent daadwerkelijk alles controleert.	Automation bias kan plaatsvinden: het risico dat de docent blind vertrouwt op AI-suggesties. Daarnaast kan cognitive surrender optreden, met een verminderde kritische blik door gewenning aan het systeem.

Transparantie en Dataverwerking

ToetsTester wordt ingezet voor het herkennen en voorlopig beoordelen van antwoorden. De AI genereert een voorstel, maar deze uitkomsten zijn niet bindend: de docent blijft eindverantwoordelijk. De werking wordt expliciet gemaakt richting gebruikers, inclusief de begrenzing dat de toepassing ondersteunt en geen autonome besluiten neemt.

De dataverwerking is gebaseerd op het Privacy Convenant Onderwijs. Daarbij geldt dat de onderwijsinstelling verwerkingsverantwoordelijke is en ToetsTester als verwerker optreedt. Omdat de werking samenhangt met de actuele mogelijkheden van AI-dienstverlening, wordt de kwaliteit voortdurend gevalideerd.

Technische documentatie

ToetsTester onderhoudt technische documentatie over het ontwerp, de opbouw, de subverwerkers en het risicobeheer. Voor onderwijsinstellingen is deze documentatie opvraagbaar.

Logging en Monitoring

Monitoring vindt plaats via dashboards en logbestanden die tenminste 6 maanden beschikbaar blijven. Logging beperkt zich tot acties zoals inlogfouten en systeemfouten tijdens het nakijkproces.

Benchmarking en Betrouwbaarheid

Voor het evalueren van de AI-prestaties maakt ToetsTester gebruik van optimalisaties op basis van wetenschappelijke literatuur.

Voor de beoordeling van leerresultaten streeft ToetsTester naar een Inter-Rater Reliability (IRR) van minimaal 0.75 (uitgedrukt in Cohen’s Kappa of Quadratic Weighted Kappa). In de wetenschappelijke literatuur over Automated Essay Scoring (AES) en AI-beoordeling wordt een correlatie van 0.70 met menselijke beoordelaars algemeen aanvaard als de standaard voor betrouwbare ondersteunende systemen. Een score van 0.70 positioneert ToetsTester in de categorie "substantiële overeenstemming", wat essentieel is voor hoog-risico toepassingen in het onderwijs.

De nauwkeurigheid van de transcriptie wordt gevalideerd middels een eigen dataset bestaande uit diverse handgeschreven teksten uit de onderwijspraktijk. Deze dataset wordt gebruikt om de robuustheid van de transcriptie-engine te testen tegen verschillende handschriften, zodat transcriptiefouten (en daarmee foutieve beoordelingen) tot een minimum worden beperkt.

Tot slot worden de modellen ingesteld met een lage temperatuur. Dit minimaliseert de variabiliteit van de AI-outputs, waardoor het systeem bij een identiek antwoord en correctievoorschrift nagenoeg altijd dezelfde score en feedback genereert.

Menselijk toezicht

Menselijke eindverantwoordelijkheid is een kernprincipe en een harde eis voor hoog-risico-AI. De AI fungeert uitsluitend als assistent. Docenten hebben altijd de mogelijkheid om de AI-scores aan te passen of te stoppen met het gebruik. Materialen blijven te allen tijde eigendom van de onderwijsinstelling.

Begrippenlijst

Automation Bias: de neiging om een oordeel van AI te snel te vertrouwen, ook als het niet klopt.

Cognitive offloading: het uitbesteden van denkwerk aan AI, zodat je zelf minder hoeft te onthouden of vergelijken.

Cognitive surrender: het moment waarop je je eigen oordeel feitelijk loslaat en de AI volgt zonder nog kritisch mee te denken.

Hallucinaties: fouten van AI waarbij het systeem iets verzint dat aannemelijk klinkt, maar niet klopt.

Benchmarking: het gestructureerd en objectief evalueren en meten van de prestaties van een AI-model door vergelijking met een vaste dataset.

Verantwoord gebruik van AI