InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.
Mistral: Mistral Nemo staat #1 met 22/40 (43/80 raw).
De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.
Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.
Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.
Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.
Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.
Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.
Mistralai
OSDeepSeek
OSOpenAI
Anthropic
DeepSeek
OSxAI
Anthropic
DeepSeek
OSOpenAI
OpenAI
| # | Model | Aanbieder | Open source | Score (40) | Wft | Prompt | Prijs / M tokens | Resultaat | Laatst getest |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Mistral: Mistral NemoCombined | Mistralai | Open source | 22 / 40 43/80 raw Groep A | 22 / 40 | 19 / 40 | €0,02 in / €0,03 uit | Gezakt -5,2 | 01 mei 2026 |
| 2 | DeepSeek-R1 |
Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.
Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.
Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.
@online{insurebench_wft_basis_1_1_0,
title = {InsureBench: Wft-Basis AI Benchmark},
author = {InsureBench},
year = {2026},
version = {1.1.0},
url = {https://www.insurebench.nl/nl/wft-basis},
urldate = {2026-04-23},
note = {Public leaderboard, 80 questions, 3 runs per model}
}| DeepSeek |
| Open source |
25 / 40 50/80 raw Groep A |
| 25 / 40 |
| 26 / 40 |
| €0,64 in / €2,30 uit |
| Gezakt -2,2 |
| 29 apr 2026 |
| 3 | OpenAI: GPT-5.5 ProCombined | OpenAI | — | 27 / 40 55/80 raw Groep A | 27 / 40 | 25 / 40 | €27,60 in / €165,60 uit | Gezakt -0,2 | 02 mei 2026 |
| 4 | Claude Haiku 4.5Combined | Anthropic | — | 28 / 40 55/80 raw Groep A | 28 / 40 | 17 / 40 | €0,92 in / €4,60 uit | Geslaagd +0,8 | 28 apr 2026 |
| 5 | DeepSeek V3.2Combined | DeepSeek | Open source | 28 / 40 56/80 raw Groep A | 28 / 40 | 27 / 40 | €0,23 in / €0,35 uit | Geslaagd +0,8 | 29 apr 2026 |
| 6 | Grok 4.20 Beta ReasoningWft | xAI | — | 28 / 40 57/80 raw Groep A | 28 / 40 | — | — | Geslaagd +0,8 | 23 apr 2026 |
| 7 | Claude Sonnet 4.6Combined | Anthropic | — | 29 / 40 59/80 raw Groep A | 29 / 40 | 35 / 40 | €2,76 in / €13,80 uit | Geslaagd +1,8 | 29 apr 2026 |
| 8 | DeepSeek: DeepSeek V4 ProCombined | DeepSeek | Open source | 29 / 40 58/80 raw Groep A | 29 / 40 | 26 / 40 | €0,40 in / €0,80 uit | Geslaagd +1,8 | 04 mei 2026 |
| 9 | GPT 5.2Combined | OpenAI | — | 29 / 40 59/80 raw Groep A | 29 / 40 | 32 / 40 | €19,32 in / €154,56 uit | Geslaagd +1,8 | 29 apr 2026 |
| 10 | GPT 5.4Combined | OpenAI | — | 29 / 40 58/80 raw Groep A | 29 / 40 | 33 / 40 | €2,30 in / €13,80 uit | Geslaagd +1,8 | 29 apr 2026 |