Leaderboard wordt geladen

Benchmark versie 1.1.0 · Laatste update 23 apr 2026

Resultaten onder CC-BY-4.0. Vragenbank privé.

Methodologie Voor journalisten Validatie Roadmap Over Privacy Changelog

v1.1.0Laatste update 23 apr 2026

Welke AI-modellen beheersen Nederlandse Wft-Basis kennis?

InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.

Hoe we meten Download data Changelog Leaderboard

Kernbevinding

Mistral: Mistral Nemo staat #1 met 21/40 op de gecombineerde Wft- en promptscore.

Belangrijkste beperking

De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.

Nu onderbouwd

Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.

Nog niet onderbouwd

Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.

Later pas toetsbaar

Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.

Wft-vragen: 80
puntsschaal: 40
cesuur: 68%
adviesdomeinen: 6

Leaderboard

Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.

Alles
Wft
Prompt
Combined

Een model kan meerdere rijen hebben — één per benchmark-type. Wft meet kennis (multiple-choice), Prompt meet adviesvaardigheden, Combined meet beide.

Model
Aanbieder

Wft-Basisv1.1

Alles
Wft
Prompt
Combined

Een model kan meerdere rijen hebben — één per benchmark-type. Wft meet kennis (multiple-choice), Prompt meet adviesvaardigheden, Combined meet beide.

Model
Aanbieder

Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.

1Anthropic: Claude Opus 4.8 (Fast)
Anthropic
35 / 4066/80 rawGroep AGeslaagd +7,8
Wft 33 / 40 · Prompt 36 / 4001 jun 2026
Prijs / M tokens: €9,20 in / €46,00 uit

Leaderboard: AI-modellen gesorteerd op Wft-Basis score (40-punts schaal)
#	Model	Aanbieder	Open source	Score (40)	Wft	Prompt	Prijs / M tokens	Resultaat	Laatst getest
1	Anthropic: Claude Opus 4.8 (Fast)	Anthropic	—	35 / 40 66/80 raw Groep A	33 / 40	36 / 40	€9,20 in / €46,00 uit	Geslaagd +7,8	01 jun 2026

Toont 21-21 van 21 resultaten

1 2 3

Release-uitleg

Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.

Wat deze ronde zegt

Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.

Wat veranderde sinds de vorige ronde

Publieke run-exports hebben nu een expliciete leaderboard-vlag (`includedInLeaderboard` / `included_in_leaderboard`).
De data dictionary legt per publiek veld betekenis, formaat, voorbeeld en interpretatie vast in NL en EN.
Het leaderboard toont scoregroepen, zodat kleine verschillen zichtbaar als nek-aan-nek worden gelezen.

Plausibel verklaarbare uitschieters

Kleine rangverschillen binnen dezelfde scoregroep kunnen nog steeds zichtbaar zijn als #1, #2 en #3; de groep is daarom inhoudelijk belangrijker dan de exacte plek.
Alle publieke exports tellen in deze release nog mee voor de ranking, omdat `includedInLeaderboard` voorlopig gelijk loopt met “gepubliceerd en niet gearchiveerd”.

Wat je nog niet mag concluderen

Deze ronde bewijst niet dat een model Wft-compliant is of veilig zelfstandig verzekeringsadvies kan geven.
Deze ronde bewijst ook niet dat minieme scoreverschillen tussen modellen statistisch hard zijn; daarvoor is een aparte statistiekrelease nodig.

Snelle datapunten uit de huidige leaderboard

Mistral: Mistral Nemo staat #1 met 21/40 op de gecombineerde Wft- en promptscore.
17 van 21 modellen haalt de gecombineerde cesuur van 68% (81%).
Combined runs wegen examenkennis en beoordeelde advieskwaliteit even zwaar in de hoofdscore.

Data & citeren

Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.

CSV JSON

@online{insurebench_wft_basis_1_1_0,
  title        = {InsureBench: Wft-Basis AI Benchmark},
  author       = {InsureBench},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://www.insurebench.nl/nl/wft-basis},
  urldate      = {2026-04-23},
  note         = {Public leaderboard, 80 questions, 3 runs per model}
}