Leaderboard wordt geladen

Benchmark versie 1.1.0 · Laatste update 23 apr 2026

Resultaten onder CC-BY-4.0. Vragenbank privé.

Methodologie Voor journalisten Validatie Roadmap Over Privacy Changelog

v1.1.0Laatste update 23 apr 2026

Welke AI-modellen beheersen Nederlandse Wft-Basis kennis?

InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.

Hoe we meten Download data Changelog Leaderboard

Kernbevinding

Anthropic: Claude Opus 4.8 (Fast) staat #1 met 35/40 op de gecombineerde Wft- en promptscore.

Belangrijkste beperking

De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.

Nu onderbouwd

Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.

Nog niet onderbouwd

Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.

Later pas toetsbaar

Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.

Wft-vragen: 80
puntsschaal: 40
cesuur: 68%
adviesdomeinen: 6

Leaderboard

Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.

Alles
Wft
Prompt
Combined

Model
Aanbieder

Wft-Basisv1.1

Alles
Wft
Prompt
Combined

Model
Aanbieder

Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.

1GPT 5.4
OpenAI
31 / 4058/80 rawGroep AGeslaagd +3,8
Wft 29 / 40 · Prompt 33 / 4029 apr 2026
Prijs / M tokens: €2,30 in / €13,80 uit
2GPT-4.1
OpenAI
30 / 4063/80 rawGroep BGeslaagd +2,8
Wft 32 / 40 · Prompt 28 / 4028 apr 2026
Prijs / M tokens: €1,84 in / €7,36 uit
3GPT-4o
OpenAI
30 / 4057/80 rawGroep BGeslaagd +2,8
Wft 29 / 40 · Prompt 31 / 4029 apr 2026
Prijs / M tokens: €2,30 in / €9,20 uit
4DeepSeek V3.2
DeepSeek
OS
28 / 4056/80 rawGroep CGeslaagd +0,8
Wft 28 / 40 · Prompt 27 / 4029 apr 2026
Prijs / M tokens: €0,23 in / €0,35 uit
5DeepSeek: DeepSeek V4 Pro
DeepSeek
OS
28 / 4058/80 rawGroep CGeslaagd +0,8
Wft 29 / 40 · Prompt 26 / 4004 mei 2026
Prijs / M tokens: €0,40 in / €0,80 uit
6MoonshotAI: Kimi K2.5
Moonshotai
28 / 4060/80 rawGroep CGeslaagd +0,8
Wft 30 / 40 · Prompt 26 / 4006 mei 2026
Prijs / M tokens: €0,40 in / €1,84 uit
7DeepSeek-R1
DeepSeek
OS
26 / 4050/80 rawGroep DGezakt -1,2
Wft 25 / 40 · Prompt 26 / 4029 apr 2026
Prijs / M tokens: €0,64 in / €2,30 uit
8OpenAI: GPT-5.5 Pro
OpenAI
26 / 4055/80 rawGroep DGezakt -1,2
Wft 27 / 40 · Prompt 25 / 4002 mei 2026
Prijs / M tokens: €27,60 in / €165,60 uit
9Claude Haiku 4.5
Anthropic
23 / 4055/80 rawGroep EGezakt -4,2
Wft 28 / 40 · Prompt 17 / 4028 apr 2026
Prijs / M tokens: €0,92 in / €4,60 uit
10Mistral: Mistral Nemo
Mistralai
OS
21 / 4043/80 rawGroep FGezakt -6,2
Wft 22 / 40 · Prompt 19 / 4001 mei 2026
Prijs / M tokens: €0,02 in / €0,03 uit

Leaderboard: AI-modellen gesorteerd op Wft-Basis score (40-punts schaal)
#	Model	Aanbieder	Open source	Score (40)	Wft	Prompt	Prijs / M tokens	Resultaat	Laatst getest
1	GPT 5.4	OpenAI	—	31 / 40 58/80 raw Groep A	29 / 40	33 / 40	€2,30 in / €13,80 uit	Geslaagd +3,8	29 apr 2026
2	GPT-4.1	OpenAI	—	30 / 40 63/80 raw Groep B	32 / 40

Toont 11-20 van 20 resultaten

1 2

Release-uitleg

Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.

Wat deze ronde zegt

Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.

Wat veranderde sinds de vorige ronde

Publieke run-exports hebben nu een expliciete leaderboard-vlag (`includedInLeaderboard` / `included_in_leaderboard`).
De data dictionary legt per publiek veld betekenis, formaat, voorbeeld en interpretatie vast in NL en EN.
Het leaderboard toont scoregroepen, zodat kleine verschillen zichtbaar als nek-aan-nek worden gelezen.

Plausibel verklaarbare uitschieters

Kleine rangverschillen binnen dezelfde scoregroep kunnen nog steeds zichtbaar zijn als #1, #2 en #3; de groep is daarom inhoudelijk belangrijker dan de exacte plek.
Alle publieke exports tellen in deze release nog mee voor de ranking, omdat `includedInLeaderboard` voorlopig gelijk loopt met “gepubliceerd en niet gearchiveerd”.

Wat je nog niet mag concluderen

Deze ronde bewijst niet dat een model Wft-compliant is of veilig zelfstandig verzekeringsadvies kan geven.
Deze ronde bewijst ook niet dat minieme scoreverschillen tussen modellen statistisch hard zijn; daarvoor is een aparte statistiekrelease nodig.

Snelle datapunten uit de huidige leaderboard

Anthropic: Claude Opus 4.8 (Fast) staat #1 met 35/40 op de gecombineerde Wft- en promptscore.
16 van 20 modellen haalt de gecombineerde cesuur van 68% (80%).
Combined runs wegen examenkennis en beoordeelde advieskwaliteit even zwaar in de hoofdscore.

Data & citeren

Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.

CSV JSON

@online{insurebench_wft_basis_1_1_0,
  title        = {InsureBench: Wft-Basis AI Benchmark},
  author       = {InsureBench},
  year         = {2026},
  version      = {1.1.0},
  url          = {https://www.insurebench.nl/nl/wft-basis},
  urldate      = {2026-04-23},
  note         = {Public leaderboard, 80 questions, 3 runs per model}
}

28 / 40

€1,84 in / €7,36 uit

Geslaagd +2,8

28 apr 2026

GPT-4o

OpenAI

—

30 / 40

57/80 raw

Groep B

29 / 40

31 / 40

€2,30 in / €9,20 uit

Geslaagd +2,8

29 apr 2026

DeepSeek V3.2

DeepSeek

Open source

28 / 40

56/80 raw

Groep C

28 / 40

27 / 40

€0,23 in / €0,35 uit

Geslaagd +0,8

29 apr 2026

DeepSeek: DeepSeek V4 Pro

DeepSeek

Open source

28 / 40

58/80 raw

Groep C

29 / 40

26 / 40

€0,40 in / €0,80 uit

Geslaagd +0,8

04 mei 2026

MoonshotAI: Kimi K2.5

Moonshotai

—

28 / 40

60/80 raw

Groep C

30 / 40

26 / 40

€0,40 in / €1,84 uit

Geslaagd +0,8

06 mei 2026

DeepSeek-R1

DeepSeek

Open source

26 / 40

50/80 raw

Groep D

25 / 40

26 / 40

€0,64 in / €2,30 uit

Gezakt -1,2

29 apr 2026

OpenAI: GPT-5.5 Pro

OpenAI

—

26 / 40

55/80 raw

Groep D

27 / 40

25 / 40

€27,60 in / €165,60 uit

Gezakt -1,2

02 mei 2026

Claude Haiku 4.5

Anthropic

—

23 / 40

55/80 raw

Groep E

28 / 40

17 / 40

€0,92 in / €4,60 uit

Gezakt -4,2

28 apr 2026

Mistral: Mistral Nemo

Mistralai

Open source

21 / 40

43/80 raw

Groep F

22 / 40

19 / 40

€0,02 in / €0,03 uit

Gezakt -6,2

01 mei 2026