InsureBench
Voor journalisten
v1.1.0Deze pagina bundelt de claims, context en bronvermelding die veilig citeerbaar zijn voor vakpers en algemene media.
Wat is InsureBench?
InsureBench is een onafhankelijk benchmarkinitiatief dat meet hoe goed AI-modellen presteren op Nederlandse Wft-Basis kennisvragen. Het project publiceert alleen geaggregeerde uitkomsten en methodologie, niet de private vragenbank zelf.
Wat de benchmark meet
Fase 1 meet Wft-Basis kennis onder strikte examencondities op basis van private oefenvragen en geaggregeerde scoring.
Wat de benchmark niet meet
De huidige score is geen bewijs voor adviesgeschiktheid, compliance-geschiktheid of veilige inzet als zelfstandig AI-adviseur.
Veilig citeerbare claims
- InsureBench meet in fase 1 Wft-Basis kennis van AI-modellen.
- De benchmark gebruikt 80 private oefenvragen op basis van CDFD-eindtermen.
- De score is geen officiële CDFD-uitslag.
- De promptbenchmark voor advieskwaliteit is nog in ontwikkeling.
- InsureBench publiceert geaggregeerde scores en houdt de vragenbank privé om contaminatie te beperken.
Claims die je nu moet vermijden
- Dit model geeft het beste verzekeringsadvies.
- Dit model is geschikt als AI-adviseur.
- Dit model voldoet aan de Wft.
- Deze benchmark is 100% reproduceerbaar.
- Deze score bewijst dat een model veilig kan adviseren.
Top 3 bevindingen
- Claude Opus 4.7 staat #1 met 34/40 (67/80 raw).
- 18 van 21 modellen haalt de CDFD-cesuur van 68% (86%).
- Spreiding blijft zichtbaar: Mistral: Mistral Nemo staat op 22/40, wat de gevoeligheid van deze examenvraagset onderstreept.
Methodologie in 5 regels
- InsureBench test publiek beschikbare tekstmodellen op Wft-Basis kennis.
- Fase 1 gebruikt 80 private oefenvragen die zijn verdeeld over CDFD-taak, vraagtype en moeilijkheid.
- Elke gepubliceerde Wft-score is gebaseerd op meerdere pogingen en omgerekend naar een 40-puntsschaal met 68% cesuur.
- Vraagteksten, antwoordopties en juiste antwoorden blijven privé om contaminatie en auteursrechtrisico’s te beperken.
- Publiek beschikbaar zijn alleen geaggregeerde scores, methodologie, modelmetadata en runmetadata.
Persbeeld en logo
Aanbevolen bronvermelding
Gebruik deze bronregel als standaardvermelding in artikelen, presentaties en linkposts.
Diks, M. (2026). InsureBench v1.1.0. https://www.insurebench.nl/nl/voor-journalisten