Hoe wij meten

Hoe wij de kwaliteit meten

Een assistent voor Burgerzaken moet je kunnen controleren. Daarom meten we bij elke release wat de assistent goed doet en waar hij nog tekortschiet, en zetten we die cijfers hier open neer. Eerlijkheid over de zwakke plekken hoort bij het product.

Hoe de meetlat werkt

We toetsen de assistent tegen een vaste set van ongeveer 69 vakvragen. Die vragen zijn verdeeld over categorieën die de praktijk van Burgerzaken nabootsen: routinevragen, meerstapsvragen die verschillende regels combineren, vragen die eerst een verduidelijking nodig hebben, datumgevoelige vragen met overgangsrecht, en gesproken of rommelig geformuleerde vragen. Een deel van de vragen bevat een bekende valkuil die de assistent niet mag intrappen.

De beoordeling gebeurt op twee manieren. Een tweede taalmodel treedt op als jury en beoordeelt of het antwoord klopt, of de bronnen erbij staan en of de assistent niet te stellig is. Daarnaast rekenen vaste, herhaalbare metingen los van dat oordeel na of de juiste wetsartikelen zijn opgehaald en of het antwoord binnen de aangeleverde bronnen blijft. De belangrijkste metingen draaien we drie keer en we rapporteren het gemiddelde, zodat toeval eruit valt. Een nieuwe versie komt pas door de poort als hij niet slechter scoort dan de vorige.

We letten in het bijzonder op drie dingen: getrouwheid (blijft het antwoord binnen wat de bronnen zeggen), misgronding (schrijft de assistent iets toe aan een bron die het daar niet zegt) en wetsdekking (haalt de assistent de wetsartikelen op die de vraag beslissen).

De cijfers van de laatste meting

Onderstaande cijfers komen uit de meetronde van 17 juni 2026. Ze gelden voor de assistent zoals die op dat moment draaide en worden bij elke release opnieuw gemeten. Bij de metingen waar hoger beter is staat dat er niet apart bij; bij misgronding en te stellige antwoorden is juist lager beter.

Gedrag goed: 0,913 — aandeel vragen waarop de jury het antwoord als correct beoordeelt.
Misgronding (lager is beter): 0,029 — hoe vaak een antwoord iets aan een bron toeschrijft dat er niet staat.
Getrouwheid: 0,9457 — hoezeer het antwoord binnen de aangeleverde bronnen blijft.
Wetsdekking: 0,9302 — aandeel van de vereiste wetsartikelen dat wordt opgehaald.
Bepalende wet opgehaald: 0,6667 — of het ene artikel dat de uitkomst beslist ook echt bovenkomt.
Bronvermelding aanwezig: 0,667 — aandeel antwoorden waarbij de bron zichtbaar in beeld staat.
Te stellig (lager is beter): 0,054 — hoe vaak de assistent hoge zekerheid claimt terwijl het antwoord fout of niet goed onderbouwd is.

Waar we de lat nog niet halen

Twee cijfers staan onder ons doel, en dat verzwijgen we niet.

Bronvermelding aanwezig (0,667). Bij ongeveer een derde van de antwoorden staat de wetsbron nog niet duidelijk genoeg in beeld. Bij een routinevraag met een duidelijke wettelijke grond hoort altijd een verwijzing te staan.
Bepalende wet opgehaald (0,6667). De assistent haalt vaak wel de juiste wet op, maar niet altijd exact het artikel dat de zaak beslist. Bij een enkele samengestelde vraag komt de doorslaggevende bepaling nog niet bovendrijven.

Ook gesproken en rommelig geformuleerde vragen zijn een aandachtspunt. Bij dat soort invoer is de bronlaag meetbaar zwakker en kan de assistent te stellig worden of de verkeerde verduidelijkingsvraag kiezen. Aan het normaliseren van die invoer en het scherper kiezen van één vervolgvraag wordt gewerkt.

Wat de meting niet is

Deze meetlat laat zien waar de assistent staat, niet waar we willen dat hij staat. De cijfers gelden voor een vaste vragenset; echte, onvoorziene vragen kunnen anders uitpakken. De metingen hierboven draaiden voor deze ronde één keer per antwoord; voor een formele releasebeslissing draaien we ze drie keer en toetsen we opnieuw in de app zelf.

Grenzen van het systeem

De assistent werkt op een archief van de Handboek-procedure. Dat archief is een momentopname en is niet gecertificeerd volledig. De getoonde procedure is praktijkrichtlijn; de bindende regel is steeds de onderliggende nationale wet, en die verwijzing komt uit openbare bronnen zoals wetten.overheid.nl.

Wat de assistent bewust niet doet:

Geen besluiten nemen. De assistent onderbouwt; de medewerker beslist en legt vast.
Geen rechtsgeldig advies geven. Het antwoord is een hulpmiddel, geen juridisch oordeel.
Nooit de bronverificatie overnemen. De medewerker controleert de aangehaalde wet of uitspraak zelf.

De cijfers op deze pagina horen bij één meetronde en worden bij elke nieuwe versie opnieuw vastgesteld.

Laatst bijgewerkt: 2 juli 2026. Cijfers uit de meetronde van 17 juni 2026, gemeten met een vaste vragenset en een onafhankelijke jurymeting.