Leaderboard wordt geladen

Benchmark versie 1.1.0 · Laatste update 23 apr 2026

Resultaten onder CC-BY-4.0. Vragenbank privé.

Methodologie Voor journalisten Validatie Roadmap Over Privacy Changelog

v1.1.0Laatste update 23 apr 2026

Welke AI-modellen beheersen Nederlandse Wft-Basis kennis?

InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.

Hoe we meten Download data Changelog Leaderboard

Kernbevinding

Anthropic: Claude Opus 4.8 (Fast) staat #1 met 35/40 op de gecombineerde Wft- en promptscore.

Belangrijkste beperking

De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.

Nu onderbouwd

Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.

Nog niet onderbouwd

Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.

Later pas toetsbaar

Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.

Wft-vragen: 80
puntsschaal: 40
cesuur: 68%
adviesdomeinen: 6

Leaderboard

Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.

Alles
Wft
Prompt
Combined

Een model kan meerdere rijen hebben — één per benchmark-type. Wft meet kennis (multiple-choice), Prompt meet adviesvaardigheden, Combined meet beide.

Model
Aanbieder

Wft-Basisv1.1

Alles
Wft
Prompt
Combined

Een model kan meerdere rijen hebben — één per benchmark-type. Wft meet kennis (multiple-choice), Prompt meet adviesvaardigheden, Combined meet beide.

Model
Aanbieder

Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.

1GPT 5.4Combined
OpenAI
31 / 4058/80 rawGroep AGeslaagd +3,8
Wft 29 / 40 · Prompt 33 / 4029 apr 2026
Prijs / M tokens: €2,30 in / €13,80 uit
2GPT-4.1Combined
OpenAI
30 / 4063/80 rawGroep BGeslaagd +2,8
Wft 32 / 40 · Prompt 28 / 4028 apr 2026
Prijs / M tokens: €1,84 in / €7,36 uit
3GPT-4oCombined
OpenAI
30 / 4057/80 rawGroep BGeslaagd +2,8
Wft 29 / 40 · Prompt 31 / 4029 apr 2026
Prijs / M tokens: €2,30 in / €9,20 uit
4DeepSeek V3.2Combined
DeepSeek
OS
28 / 4056/80 rawGroep CGeslaagd +0,8
Wft 28 / 40 · Prompt 27 / 4029 apr 2026
Prijs / M tokens: €0,23 in / €0,35 uit
5DeepSeek: DeepSeek V4 ProCombined
DeepSeek
OS
28 / 4058/80 rawGroep CGeslaagd +0,8
Wft 29 / 40 · Prompt 26 / 4004 mei 2026
Prijs / M tokens: €0,40 in / €0,80 uit
6Grok 4.20 Beta ReasoningWft
xAI
28 / 4057/80 rawGroep CGeslaagd +0,8
Wft 28 / 40 · Prompt —23 apr 2026
Prijs / M tokens: —
7MoonshotAI: Kimi K2.5Combined
Moonshotai
28 / 4060/80 rawGroep CGeslaagd +0,8
Wft 30 / 40 · Prompt 26 / 4006 mei 2026
Prijs / M tokens: €0,40 in / €1,84 uit
8DeepSeek-R1Combined
DeepSeek
OS
26 / 4050/80 rawGroep DGezakt -1,2
Wft 25 / 40 · Prompt 26 / 4029 apr 2026
Prijs / M tokens: €0,64 in / €2,30 uit
9OpenAI: GPT-5.5 ProCombined
OpenAI
26 / 4055/80 rawGroep DGezakt -1,2
Wft 27 / 40 · Prompt 25 / 4002 mei 2026
Prijs / M tokens: €27,60 in / €165,60 uit
10Claude Haiku 4.5Combined
Anthropic
23 / 4055/80 rawGroep EGezakt -4,2
Wft 28 / 40 · Prompt 17 / 4028 apr 2026
Prijs / M tokens: €0,92 in / €4,60 uit

Leaderboard: AI-modellen gesorteerd op Wft-Basis score (40-punts schaal)
#	Model	Aanbieder	Open source	Score (40)	Wft	Prompt	Prijs / M tokens	Resultaat	Laatst getest
1	GPT 5.4Combined	OpenAI	—	31 / 40 58/80 raw Groep A	29 / 40	33 / 40	€2,30 in / €13,80 uit	Geslaagd +3,8	29 apr 2026
2	GPT-4.1Combined

Toont 11-20 van 21 resultaten

1 2 3

Release-uitleg

Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.

Wat deze ronde zegt

Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.

Wat veranderde sinds de vorige ronde

Publieke run-exports hebben nu een expliciete leaderboard-vlag (`includedInLeaderboard` / `included_in_leaderboard`).
De data dictionary legt per publiek veld betekenis, formaat, voorbeeld en interpretatie vast in NL en EN.
Het leaderboard toont scoregroepen, zodat kleine verschillen zichtbaar als nek-aan-nek worden gelezen.

Plausibel verklaarbare uitschieters

Kleine rangverschillen binnen dezelfde scoregroep kunnen nog steeds zichtbaar zijn als #1, #2 en #3; de groep is daarom inhoudelijk belangrijker dan de exacte plek.
Alle publieke exports tellen in deze release nog mee voor de ranking, omdat `includedInLeaderboard` voorlopig gelijk loopt met “gepubliceerd en niet gearchiveerd”.

Wat je nog niet mag concluderen

Deze ronde bewijst niet dat een model Wft-compliant is of veilig zelfstandig verzekeringsadvies kan geven.
Deze ronde bewijst ook niet dat minieme scoreverschillen tussen modellen statistisch hard zijn; daarvoor is een aparte statistiekrelease nodig.

Snelle datapunten uit de huidige leaderboard

Anthropic: Claude Opus 4.8 (Fast) staat #1 met 35/40 op de gecombineerde Wft- en promptscore.
17 van 21 modellen haalt de gecombineerde cesuur van 68% (81%).
Combined runs wegen examenkennis en beoordeelde advieskwaliteit even zwaar in de hoofdscore.

Data & citeren

Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.

CSV JSON

@online{insurebench_wft_basis_1_1_0,
  title        = {InsureBench: Wft-Basis AI Benchmark},
  author       = {InsureBench},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://www.insurebench.nl/nl/wft-basis},
  urldate      = {2026-04-23},
  note         = {Public leaderboard, 80 questions, 3 runs per model}
}

OpenAI

—

30 / 40

63/80 raw

Groep B

32 / 40

28 / 40

€1,84 in / €7,36 uit

Geslaagd +2,8

28 apr 2026

GPT-4oCombined

OpenAI

—

30 / 40

57/80 raw

Groep B

29 / 40

31 / 40

€2,30 in / €9,20 uit

Geslaagd +2,8

29 apr 2026

DeepSeek V3.2Combined

DeepSeek

Open source

28 / 40

56/80 raw

Groep C

28 / 40

27 / 40

€0,23 in / €0,35 uit

Geslaagd +0,8

29 apr 2026

DeepSeek: DeepSeek V4 ProCombined

DeepSeek

Open source

28 / 40

58/80 raw

Groep C

29 / 40

26 / 40

€0,40 in / €0,80 uit

Geslaagd +0,8

04 mei 2026

Grok 4.20 Beta ReasoningWft

xAI

—

28 / 40

57/80 raw

Groep C

28 / 40

—

Geslaagd +0,8

23 apr 2026

MoonshotAI: Kimi K2.5Combined

Moonshotai

—

28 / 40

60/80 raw

Groep C

30 / 40

26 / 40

€0,40 in / €1,84 uit

Geslaagd +0,8

06 mei 2026

DeepSeek-R1Combined

DeepSeek

Open source

26 / 40

50/80 raw

Groep D

25 / 40

26 / 40

€0,64 in / €2,30 uit

Gezakt -1,2

29 apr 2026

OpenAI: GPT-5.5 ProCombined

OpenAI

—

26 / 40

55/80 raw

Groep D

27 / 40

25 / 40

€27,60 in / €165,60 uit

Gezakt -1,2

02 mei 2026

Claude Haiku 4.5Combined

Anthropic

—

23 / 40

55/80 raw

Groep E

28 / 40

17 / 40

€0,92 in / €4,60 uit

Gezakt -4,2

28 apr 2026