InsureBench
Methodologie
Een data-gedreven bewijsdossier voor de Wft-Basis benchmark: genoeg context voor journalisten, experts en onderzoekers, zonder de private testset te lekken.
Dataset card
| Onderdeel | Inhoud |
|---|---|
| Datasetnaam | InsureBench Wft-Basis v1.1 |
| Aantal vragen | 80 |
| Type vragen | Meerkeuze, stellingen en korte casus |
| Domein | Wft-Basis |
| Gebaseerd op | CDFD-eindtermen 2025 t/m 2026 |
| Vraagbronnen | Eigen vragen, herschreven oefenvragen en gevalideerde oefenset op basis van CDFD-eindtermen. |
| Juridische peildatum | 01 jan 2026 |
| Laatste review | Nog niet afgerond |
| Reviewstatus | externe review in voorbereiding |
| Reviewerrol | externe review in voorbereiding |
| Vraagverdeling | Per CDFD-taak, toetsterm, vraagtype en moeilijkheid. |
| Moeilijkheid | Laag, midden en hoog. |
| Publicatiebeleid | Vragenbank privé; alleen aggregaties, scores en methodologie worden gepubliceerd. |
| Contaminatiebeleid | Private set met held-out beleid en canary-vragen; exacte vragen worden niet publiek gedeeld. |
| Licentie resultaten | CC-BY-4.0 |
Toetstermverdeling
Deze verdeling laat zien welk deel van de private set op welke CDFD-taak rust. De vraagteksten, opties en juiste antwoorden blijven privé.
| Domein | Aantal vragen | Gewicht |
|---|---|---|
| Onbekend | 80 | 100% |
Vraagtypenverdeling
| Type | Aantal vragen | Gewicht |
|---|---|---|
| KB | 80 | 100% |
Moeilijkheidsverdeling
| Moeilijkheid | Aantal vragen | Gewicht |
|---|---|---|
| midden | 80 | 100% |
Verschil met het officiële CDFD-examen
Bron: CDFD Initieel examen Basis, geldig vanaf 01 apr 2026. https://cdfd.nl/initieel-examen-basis/
| Kenmerk | Officieel CDFD-examen Basis | InsureBench Wft-Basis v1.1 |
|---|---|---|
| Tijdsduur | 120 minuten | n.v.t. (LLM) |
| Aantal vragen | 42 | 80 |
| Aantal punten | 63 | 40 (omgerekend) |
| Slaaggrens | 68% | 68% |
| KB-vragen | 21 vragen, 21 punten | Zie vraagtypenverdeling |
| PG-vragen | 2 vragen, 4 punten | Zie vraagtypenverdeling |
| VC-vragen | 19 vragen, 38 punten | Zie vraagtypenverdeling |
Modelversiebeleid
Modelnamen kunnen bij providers als alias werken. InsureBench rapporteert daarom de gebruikte API-naam, gatewayroute, testdatum, promptversie en datasetversie. Bij gesloten modellen blijft een beperkte onzekerheid bestaan over interne providerwijzigingen.
| Veld | Waarom |
|---|---|
| Provider | Herkomst |
| Gateway | Route |
| Exacte API-modelnaam | Reproduceerbaarheid |
| Provider release date | Context |
| Testdatum | Momentopname |
| Endpointtype | Direct of router |
| Model alias of snapshot | Belangrijk verschil |
| Kan provider stil wijzigen | Ja / nee / onbekend |
| Seed ondersteund | Ja / nee |
| Tools uitgeschakeld | Ja |
| System prompt | Leeg of exact vermeld |
| Parserversie | Controle |
| Prompt template hash |
Modelselectiecriterium
We testen publiek beschikbare tekstmodellen van grote aanbieders die via de gekozen gateway beschikbaar zijn op de testdatum.
Externe validatie
Hoe externe vakexperts deze benchmark kunnen toetsen staat beschreven op de pagina over externe validatie. Externe validatie
Runprotocol
| Onderdeel | Waarde |
|---|---|
| Parserversie | answer-parser-v2 |
| prompt_template_hash | 5a732017979c |
| Benchmarkversie | 1.1.0 |
| Datasetversie | InsureBench Wft-Basis v1.1 |
| Retrybeleid | Gateway timeouts en tijdelijke providerfouten worden begrensd opnieuw geprobeerd; blijvende fouten tellen zichtbaar mee. |
| Timeoutbeleid | Per model kan een request-timeout gelden; de hard cap blijft onder de serverless limiet. |
| Refusalbeleid | Een weigering telt als 0 punten en wordt als refusal zichtbaar gemaakt. |
| Rate limit aanpak | Rate limits pauzeren de run waar nodig; publieke API-routes hebben eigen rate limiting. |
| Loggingbeleid | Alleen geaggregeerde runstatus, foutcategorieën en kostenmetadata worden publiek gemaakt. |
Error handling per run
Fouten zijn geen zwakte als je ze goed meet. Daarom publiceren we per run geaggregeerde foutcategorieën.
| Model | No letter | Parse fail | Refusal | Timeout | Retry | Failed jobs |
|---|---|---|---|---|---|---|
| GPT-4.1 (OpenAI) | 0 | 0 | 0 | 0 | 0 | 0 |
| Claude Haiku 4.5 (Anthropic) | 0 | 0 | 0 | 0 | 0 | 0 |
| Claude Opus 4.7 (Anthropic) | 0 | 0 | 0 | 0 | 0 | 0 |
| Mistral: Mistral Nemo (Mistralai) | 0 | 0 | 0 | 0 | 0 | 0 |
| GPT-4o (OpenAI) |
Statistische methode
De Wft-score is het gemiddelde van meerdere pogingen, omgerekend naar een 40-puntsschaal met 68% cesuur. De standaarddeviatie op modelpagina’s meet vooral pipeline-stabiliteit bij temperature 0 en top_p 1. Verschillen binnen een kleine marge worden inhoudelijk als “tied within margin” geïnterpreteerd totdat confidence intervals en p-waarden in een aparte statistiekrelease zijn toegevoegd.
Download resultaten
De publieke CSV- en JSON-export bevatten per run ook `includedInLeaderboard`. In deze release loopt die vlag nog één-op-één mee met “gepubliceerd en niet gearchiveerd”, dus alle geëxporteerde runs tellen nu mee voor de publieke ranking.
Citeren
Diks, M. (2026). InsureBench v1.1.0 [Benchmark]. insurebench.nl
@misc{insurebench2026,
author = {Diks, Marc},
title = {InsureBench: AI Proficiency on the Dutch Wft-Basis Exam},
year = {2026},
version = {1.1.0},
url = {https://insurebench.nl},
note = {Benchmark with private Wft-Basis question set}
}