Welke AI-modellen beheersen Nederlandse Wft-Basis kennis?

InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.

Hoe we meten Download data Changelog Leaderboard

Kernbevinding

Claude Opus 4.7 staat #1 met 34/40 (67/80 raw).

Belangrijkste beperking

De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.

Nu onderbouwd

Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.

Nog niet onderbouwd

Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.

Later pas toetsbaar

Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.

Wft-vragen: 80
puntsschaal: 40
cesuur: 68%
adviesdomeinen: 6

Leaderboard

Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.

Alles
Wft
Prompt
Combined

Model
Aanbieder

Wft-Basisv1.1

Alles
Wft
Prompt
Combined

Model
Aanbieder

Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.

1Mistral: Mistral Nemo
Mistralai
OS
22 / 4043/80 rawGroep AGezakt -5,2
Wft 22 / 40 · Prompt 19 / 4001 mei 2026
Prijs / M tokens: €0,02 in / €0,03 uit

Leaderboard: AI-modellen gesorteerd op Wft-Basis score (40-punts schaal)
#	Model	Aanbieder	Open source	Score (40)	Wft	Prompt	Prijs / M tokens	Resultaat	Laatst getest
1	Mistral: Mistral Nemo	Mistralai	Open source	22 / 40 43/80 raw Groep A	22 / 40	19 / 40	€0,02 in / €0,03 uit	Gezakt -5,2	01 mei 2026

Toont 21-21 van 21 resultaten

1 2 3

Release-uitleg

Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.

Wat deze ronde zegt

Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.

Wat veranderde sinds de vorige ronde

Publieke run-exports hebben nu een expliciete leaderboard-vlag (`includedInLeaderboard` / `included_in_leaderboard`).
De data dictionary legt per publiek veld betekenis, formaat, voorbeeld en interpretatie vast in NL en EN.
Het leaderboard toont scoregroepen, zodat kleine verschillen zichtbaar als nek-aan-nek worden gelezen.

Plausibel verklaarbare uitschieters

Kleine rangverschillen binnen dezelfde scoregroep kunnen nog steeds zichtbaar zijn als #1, #2 en #3; de groep is daarom inhoudelijk belangrijker dan de exacte plek.
Alle publieke exports tellen in deze release nog mee voor de ranking, omdat `includedInLeaderboard` voorlopig gelijk loopt met “gepubliceerd en niet gearchiveerd”.

Wat je nog niet mag concluderen

Deze ronde bewijst niet dat een model Wft-compliant is of veilig zelfstandig verzekeringsadvies kan geven.
Deze ronde bewijst ook niet dat minieme scoreverschillen tussen modellen statistisch hard zijn; daarvoor is een aparte statistiekrelease nodig.

Snelle datapunten uit de huidige leaderboard

Claude Opus 4.7 staat #1 met 34/40 (67/80 raw).
18 van 21 modellen haalt de CDFD-cesuur van 68% (86%).
Spreiding blijft zichtbaar: Mistral: Mistral Nemo staat op 22/40, wat de gevoeligheid van deze examenvraagset onderstreept.

Data & citeren

Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.

CSV JSON

@online{insurebench_wft_basis_1_1_0,
  title        = {InsureBench: Wft-Basis AI Benchmark},
  author       = {InsureBench},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://www.insurebench.nl/nl/wft-basis},
  urldate      = {2026-04-23},
  note         = {Public leaderboard, 80 questions, 3 runs per model}
}