InsureBench

Methodologie

Een data-gedreven bewijsdossier voor de Wft-Basis benchmark: genoeg context voor journalisten, experts en onderzoekers, zonder de private testset te lekken.

Dataset card

Dataset card
Onderdeel	Inhoud
Datasetnaam	InsureBench Wft-Basis v1.1
Aantal vragen	80
Type vragen	Meerkeuze, stellingen en korte casus
Domein	Wft-Basis
Gebaseerd op	CDFD-eindtermen 2025 t/m 2026
Vraagbronnen	Eigen vragen, herschreven oefenvragen en gevalideerde oefenset op basis van CDFD-eindtermen.
Juridische peildatum	01 jan 2026
Laatste review	Nog niet afgerond
Reviewstatus	externe review in voorbereiding
Reviewerrol	externe review in voorbereiding
Vraagverdeling	Per CDFD-taak, toetsterm, vraagtype en moeilijkheid.
Moeilijkheid	Laag, midden en hoog.
Publicatiebeleid	Vragenbank privé; alleen aggregaties, scores en methodologie worden gepubliceerd.
Contaminatiebeleid	Private set met held-out beleid en canary-vragen; exacte vragen worden niet publiek gedeeld.
Licentie resultaten	CC-BY-4.0

Toetstermverdeling

Deze verdeling laat zien welk deel van de private set op welke CDFD-taak rust. De vraagteksten, opties en juiste antwoorden blijven privé.

Domein	Aantal vragen	Gewicht
Onbekend	80	100%

Vraagtypenverdeling

Type	Aantal vragen	Gewicht
KB	80	100%

Moeilijkheidsverdeling

Moeilijkheid	Aantal vragen	Gewicht
midden	80	100%

Verschil met het officiële CDFD-examen

Bron: CDFD Initieel examen Basis, geldig vanaf 01 apr 2026. https://cdfd.nl/initieel-examen-basis/

Kenmerk	Officieel CDFD-examen Basis	InsureBench Wft-Basis v1.1
Tijdsduur	120 minuten	n.v.t. (LLM)
Aantal vragen	42	80
Aantal punten	63	40 (omgerekend)
Slaaggrens	68%	68%
KB-vragen	21 vragen, 21 punten	Zie vraagtypenverdeling
PG-vragen	2 vragen, 4 punten	Zie vraagtypenverdeling
VC-vragen	19 vragen, 38 punten	Zie vraagtypenverdeling

Modelversiebeleid

Modelnamen kunnen bij providers als alias werken. InsureBench rapporteert daarom de gebruikte API-naam, gatewayroute, testdatum, promptversie en datasetversie. Bij gesloten modellen blijft een beperkte onzekerheid bestaan over interne providerwijzigingen.

Veld	Waarom
Provider	Herkomst
Gateway	Route
Exacte API-modelnaam	Reproduceerbaarheid
Provider release date	Context
Testdatum	Momentopname
Endpointtype	Direct of router
Model alias of snapshot	Belangrijk verschil
Kan provider stil wijzigen	Ja / nee / onbekend
Seed ondersteund	Ja / nee
Tools uitgeschakeld	Ja
System prompt	Leeg of exact vermeld
Parserversie	Controle
Prompt template hash

Modelselectiecriterium

We testen publiek beschikbare tekstmodellen van grote aanbieders die via de gekozen gateway beschikbaar zijn op de testdatum.

Externe validatie

Hoe externe vakexperts deze benchmark kunnen toetsen staat beschreven op de pagina over externe validatie. Externe validatie

Runprotocol

Onderdeel	Waarde
Parserversie	answer-parser-v2
prompt_template_hash	5a732017979c
Benchmarkversie	1.1.0
Datasetversie	InsureBench Wft-Basis v1.1
Retrybeleid	Gateway timeouts en tijdelijke providerfouten worden begrensd opnieuw geprobeerd; blijvende fouten tellen zichtbaar mee.
Timeoutbeleid	Per model kan een request-timeout gelden; de hard cap blijft onder de serverless limiet.
Refusalbeleid	Een weigering telt als 0 punten en wordt als refusal zichtbaar gemaakt.
Rate limit aanpak	Rate limits pauzeren de run waar nodig; publieke API-routes hebben eigen rate limiting.
Loggingbeleid	Alleen geaggregeerde runstatus, foutcategorieën en kostenmetadata worden publiek gemaakt.

Error handling per run

Fouten zijn geen zwakte als je ze goed meet. Daarom publiceren we per run geaggregeerde foutcategorieën.

Model	No letter	Parse fail	Refusal	Timeout	Retry	Failed jobs
GPT-4.1 (OpenAI)	0	0	0	0	0	0
Claude Haiku 4.5 (Anthropic)	0	0	0	0	0	0
Claude Opus 4.7 (Anthropic)	0	0	0	0	0	0
Mistral: Mistral Nemo (Mistralai)	0	0	0	0	0	0
GPT-4o (OpenAI)

Statistische methode

De Wft-score is het gemiddelde van meerdere pogingen, omgerekend naar een 40-puntsschaal met 68% cesuur. De standaarddeviatie op modelpagina’s meet vooral pipeline-stabiliteit bij temperature 0 en top_p 1. Verschillen binnen een kleine marge worden inhoudelijk als “tied within margin” geïnterpreteerd totdat confidence intervals en p-waarden in een aparte statistiekrelease zijn toegevoegd.

Download resultaten

De publieke CSV- en JSON-export bevatten per run ook `includedInLeaderboard`. In deze release loopt die vlag nog één-op-één mee met “gepubliceerd en niet gearchiveerd”, dus alle geëxporteerde runs tellen nu mee voor de publieke ranking.

CSVJSONMethodology JSONData dictionary

Citeren

Diks, M. (2026). InsureBench v1.1.0 [Benchmark]. insurebench.nl

@misc{insurebench2026,
  author       = {Diks, Marc},
  title        = {InsureBench: AI Proficiency on the Dutch Wft-Basis Exam},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://insurebench.nl},
  note         = {Benchmark with private Wft-Basis question set}
}