Naar hoofdinhoud

InsureBench

Methodologie

Hoe we AI-modellen objectief en reproduceerbaar testen op het Nederlandse Wft-Basis examen.

Wat meten we?

InsureBench test of AI-modellen slagen voor het Nederlandse Wft-Basis examen — het toelatingsexamen voor assurantieadviseurs onder de Wet op het financieel toezicht (Wft).

Vragenbank

80 meerkeuzevragen, samengesteld uit een gevalideerde oefenvragen-set op basis van de officiële CDFD-eindtermen voor Wft-Basis (editie 2025-2026). De set bestaat uit 3-, 4- en 5-optie multiple choice, stellingen (I/II) en korte casus.

De bank zelf wordt niet gepubliceerd — we respecteren auteursrecht en voorkomen contaminatie van toekomstige modeltrainingen.

Vier vaste principes

  • Bare exam setting

    Het model krijgt alleen de vraag en opties. Geen rol-prompt, geen tools, geen aansporing tot chain-of-thought.

  • Structured output

    Elk antwoord is één letter (a–e). We parsen strikt; ambigue antwoorden tellen als fout.

  • 3 runs per model

    Elk model doet het volledige 80-vragen examen drie keer. We rapporteren gemiddelde én standaarddeviatie.

  • Pinned model-ID’s

    Elke score is gekoppeld aan een specifieke modelversie. Oude resultaten blijven staan, zelfs als providers upgraden.

Reproduceerbaarheid

Alle runs gebruiken temperature: 0 en top_p: 1. Seed wordt toegepast waar het model dat ondersteunt. De gerapporteerde standaarddeviatie meet daarom vooral pipeline-stabiliteit (parser, gateway, rate-limiting), niet sampling-variantie.

Scoring

Per vraag: 1 punt correct, 0 punten fout (all-or-nothing). De eindscore is het gemiddelde van de drie run-totalen, gerapporteerd samen met de standaarddeviatie als consistentie-maat. De publieke score wordt weergegeven als een Wft-Basis 40-vragen equivalent met een cesuur van 68%. Deze cesuur volgt de officiële CDFD-norm voor Wft-Basis en is dus niet door InsureBench gekozen.

Contaminatie-risico

De gebruikte oefenvragenbank (CDFD-eindtermen 2025-2026) wordt niet publiek gedeeld, maar vergelijkbare Wft-oefenvragen bestaan op het open web. We kunnen niet uitsluiten dat modellen soortgelijk materiaal tijdens training hebben gezien. In v1.2 plannen we een aparte held-out set om dit risico beter te meten.

Refusal handling

Als een model weigert te antwoorden (bijvoorbeeld: "ik geef geen financieel advies"), telt dat antwoord als 0 punten. Dit wordt gelijk behandeld aan een inhoudelijk fout antwoord.

Download resultaten

Download geaggregeerde, publieke runresultaten voor externe controle en hergebruik.

Run-detail endpoint: /api/public/runs/{run_id}

Citeren

Gebruik onderstaande referentie als je InsureBench opneemt in onderzoek, artikelen of rapportages.

Diks, M. (2026). InsureBench v1.1.0 [Benchmark]. insurebench.nl

@misc{insurebench2026,
  author       = {Diks, Marc},
  title        = {InsureBench: AI Proficiency on the Dutch Wft-Basis Exam},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://insurebench.nl},
  note         = {Independent benchmark}
}

AI-transparantie (EU AI Act)

InsureBench gebruikt externe AI-taalmodellen uitsluitend voor benchmarkdoeleinden. De uitkomsten ondersteunen geen geautomatiseerde besluitvorming over personen. We publiceren alleen geaggregeerde modelprestaties.