InsureBench test AI-modellen op een private Wft-Basis oefenvragenset. Fase 2 breidt dit uit naar open verzekeringsadviescasussen.
Anthropic: Claude Opus 4.8 (Fast) staat #1 met 35/40 op de gecombineerde Wft- en promptscore.
De score meet Wft-Basis kennis, niet of een model geschikt is als zelfstandig AI-adviseur.
Model X scoort het hoogst op de InsureBench Wft-Basis kennisbenchmark.
Model X geeft het beste verzekeringsadvies in particuliere simple risk casussen.
Of AI-modellen betrouwbaar genoeg zijn voor zelfstandig verzekeringsadvies vraagt fase 2-3.
Score op schaal van 40 (Wft-Basis equivalent). Klik op een model voor details.
Een model kan meerdere rijen hebben — één per benchmark-type. Wft meet kennis (multiple-choice), Prompt meet adviesvaardigheden, Combined meet beide.
Scores binnen dezelfde groep verschillen minder dan 1 punt en moeten inhoudelijk als nek-aan-nek gelezen worden.
Anthropic
Qwen
OSMistral
OSX Ai
Anthropic
Anthropic
OpenAI
| # | Model | Aanbieder | Open source | Score (40) | Wft | Prompt | Prijs / M tokens | Resultaat | Laatst getest |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Anthropic: Claude Opus 4.8 (Fast) | Anthropic | — | 35 / 40 66/80 raw Groep A | 33 / 40 | 36 / 40 | €9,20 in / €46,00 uit | Geslaagd +7,8 | 01 jun 2026 |
| 2 | Gemini 3.1 Pro Preview | — | 34 / 40 68/80 raw Groep B |
Elke publieke ronde volgt nu hetzelfde redactionele stramien: wat deze ronde zegt, wat veranderde, welke uitschieters verklaarbaar zijn en wat nadrukkelijk nog niet geconcludeerd mag worden.
Deze ronde maakt de Wft-Basis leaderboard citation-grade leesbaar: publieke velddefinities, scoregroepen en vaste bronpagina’s zijn nu onderdeel van dezelfde release.
Download geaggregeerde run-data als CSV of JSON. Gebruik onderstaande BibTeX voor bronvermelding.
@online{insurebench_wft_basis_1_1_0,
title = {InsureBench: Wft-Basis AI Benchmark},
author = {InsureBench},
year = {2026},
version = {1.1.0},
url = {https://www.insurebench.nl/nl/wft-basis},
urldate = {2026-04-23},
note = {Public leaderboard, 80 questions, 3 runs per model}
}| 34 / 40 |
| 33 / 40 |
| €1,84 in / €11,04 uit |
| Geslaagd +6,8 |
| 04 mei 2026 |
| 3 | Qwen: Qwen3.6 Plus | Qwen | Open source | 34 / 40 63/80 raw Groep B | 32 / 40 | 35 / 40 | €0,30 in / €1,79 uit | Geslaagd +6,8 | 07 mei 2026 |
| 4 | Mistral Large 3 | Mistral | Open source | 33 / 40 63/80 raw Groep C | 31 / 40 | 34 / 40 | €0,46 in / €1,38 uit | Geslaagd +5,8 | 28 apr 2026 |
| 5 | xAI: Grok 4.3 | X Ai | — | 33 / 40 67/80 raw Groep C | 33 / 40 | 33 / 40 | €1,15 in / €2,30 uit | Geslaagd +5,8 | 07 mei 2026 |
| 6 | Claude Opus 4.7 | Anthropic | — | 32 / 40 67/80 raw Groep D | 34 / 40 | 30 / 40 | €4,60 in / €23,00 uit | Geslaagd +4,8 | 28 apr 2026 |
| 7 | Claude Sonnet 4.6 | Anthropic | — | 32 / 40 59/80 raw Groep D | 29 / 40 | 35 / 40 | €2,76 in / €13,80 uit | Geslaagd +4,8 | 29 apr 2026 |
| 8 | Google: Gemini 3.5 Flash | — | 32 / 40 64/80 raw Groep D | 32 / 40 | 31 / 40 | €1,38 in / €8,28 uit | Geslaagd +4,8 | 01 jun 2026 |
| 9 | Gemini 2.5 Flash | — | 31 / 40 61/80 raw Groep E | 30 / 40 | 31 / 40 | €0,28 in / €2,30 uit | Geslaagd +3,8 | 29 apr 2026 |
| 10 | GPT 5.2 | OpenAI | — | 31 / 40 59/80 raw Groep E | 29 / 40 | 32 / 40 | €19,32 in / €154,56 uit | Geslaagd +3,8 | 29 apr 2026 |