InsureBench
Methodologie
Hoe we AI-modellen objectief en reproduceerbaar testen op het Nederlandse Wft-Basis examen.
Wat meten we?
InsureBench test of AI-modellen slagen voor het Nederlandse Wft-Basis examen — het toelatingsexamen voor assurantieadviseurs onder de Wet op het financieel toezicht (Wft).
Vragenbank
80 meerkeuzevragen, samengesteld uit een gevalideerde oefenvragen-set op basis van de officiële CDFD-eindtermen voor Wft-Basis (editie 2025-2026). De set bestaat uit 3-, 4- en 5-optie multiple choice, stellingen (I/II) en korte casus.
De bank zelf wordt niet gepubliceerd — we respecteren auteursrecht en voorkomen contaminatie van toekomstige modeltrainingen.
Vier vaste principes
Bare exam setting
Het model krijgt alleen de vraag en opties. Geen rol-prompt, geen tools, geen aansporing tot chain-of-thought.
Structured output
Elk antwoord is één letter (a–e). We parsen strikt; ambigue antwoorden tellen als fout.
3 runs per model
Elk model doet het volledige 80-vragen examen drie keer. We rapporteren gemiddelde én standaarddeviatie.
Pinned model-ID’s
Elke score is gekoppeld aan een specifieke modelversie. Oude resultaten blijven staan, zelfs als providers upgraden.
Reproduceerbaarheid
Alle runs gebruiken temperature: 0 en top_p: 1. Seed wordt toegepast waar het model dat ondersteunt. De gerapporteerde standaarddeviatie meet daarom vooral pipeline-stabiliteit (parser, gateway, rate-limiting), niet sampling-variantie.
Scoring
Per vraag: 1 punt correct, 0 punten fout (all-or-nothing). De eindscore is het gemiddelde van de drie run-totalen, gerapporteerd samen met de standaarddeviatie als consistentie-maat. De publieke score wordt weergegeven als een Wft-Basis 40-vragen equivalent met een cesuur van 68%. Deze cesuur volgt de officiële CDFD-norm voor Wft-Basis en is dus niet door InsureBench gekozen.
Contaminatie-risico
De gebruikte oefenvragenbank (CDFD-eindtermen 2025-2026) wordt niet publiek gedeeld, maar vergelijkbare Wft-oefenvragen bestaan op het open web. We kunnen niet uitsluiten dat modellen soortgelijk materiaal tijdens training hebben gezien. In v1.2 plannen we een aparte held-out set om dit risico beter te meten.
Refusal handling
Als een model weigert te antwoorden (bijvoorbeeld: "ik geef geen financieel advies"), telt dat antwoord als 0 punten. Dit wordt gelijk behandeld aan een inhoudelijk fout antwoord.
Download resultaten
Download geaggregeerde, publieke runresultaten voor externe controle en hergebruik.
Run-detail endpoint: /api/public/runs/{run_id}
Citeren
Gebruik onderstaande referentie als je InsureBench opneemt in onderzoek, artikelen of rapportages.
Diks, M. (2026). InsureBench v1.1.0 [Benchmark]. insurebench.nl
@misc{insurebench2026,
author = {Diks, Marc},
title = {InsureBench: AI Proficiency on the Dutch Wft-Basis Exam},
year = {2026},
version = {1.1.0},
url = {https://insurebench.nl},
note = {Independent benchmark}
}AI-transparantie (EU AI Act)
InsureBench gebruikt externe AI-taalmodellen uitsluitend voor benchmarkdoeleinden. De uitkomsten ondersteunen geen geautomatiseerde besluitvorming over personen. We publiceren alleen geaggregeerde modelprestaties.