InsureBench
Data dictionary
Deze pagina legt de publieke velden uit uit de InsureBench JSON- en CSV-exports. Zo kun je scores, metadata en leaderboard-status lezen zonder mondelinge toelichting.
Bronnen
De definities hieronder gelden voor de publieke exports op JSON-, CSV- en run-detailniveau.
Publieke velden
| Veld | Publiek? | Formaat | Voorbeeld | Betekenis | Interpretatie |
|---|---|---|---|---|---|
| runId | Ja | UUID-string | 640fcf56-71b6-48b5-ba79-2170330179b0 | Unieke identifier van een publieke benchmarkrun. | Gebruik dit veld om één specifieke run terug te vinden in de JSON-, CSV- of detail-export. |
| modelSlug | Ja | kebab-case string | gpt-4o | Stabiele publieke slug van het model binnen InsureBench. | Handig voor links, filters en modeldetailpagina’s. |
| modelName | Ja | Leesbare naam | GPT-4o | Publieke weergavenaam van het geteste model. | — |
| provider | Ja | Tekst | OpenAI | De aanbieder of modelmaker zoals InsureBench die publiek toont. | — |
| gatewayId | Ja | Provider/model route | openai/gpt-4o | De exacte gatewayroute waarmee de run is uitgevoerd. | Dit helpt bij reproduceerbaarheid als publieke modelnamen aliasgedrag vertonen. |
| versionPinned | Ja | Tekst / modelroute | openai/gpt-4o | De modelversie of route die InsureBench als vastgepinde referentie rapporteert. | — |
| triggeredAt | Ja | ISO-datumtijd | 2026-05-07T13:22:15.562+00:00 | Het tijdstip waarop de benchmarkrun is gestart. | Gebruik dit veld om te zien hoe actueel een resultaat is. |
| score40 | Ja | Getal op 40-puntsschaal | 33 | Publieke hoofdscore van de run, omgerekend naar de Wft-Basis 40-puntsschaal. | Een hogere score betekent sterker op deze benchmark, niet automatisch geschikt voor zelfstandig advies. |
| rawMean | Ja | Decimaal tussen 0 en 1 | 0.8333 | Het gemiddelde ruwe resultaat van de onderliggende pogingen vóór omzetting naar de 40-puntsschaal. | — |
| stdev | Ja | Decimaal | 0.0059 | De standaarddeviatie van de onderliggende pogingen binnen dezelfde run. | Dit zegt vooral iets over stabiliteit van de pipeline en niet op zichzelf over inhoudelijke kwaliteit. |
| passed | Ja | Boolean | true | Of de run de ingestelde cesuur haalt. | — |
| questionCount | Ja | Integer | 80 | Aantal vragen waarop deze run is beoordeeld. | — |
| passThreshold | Ja | Decimaal tussen 0 en 1 | 0.68 | De cesuur als ruwe ratio, vóór omzetting naar de 40-puntsschaal. | 0.68 staat gelijk aan 68% van de ruwe scorebasis. |
| includedInLeaderboard | Ja | Boolean | true | Geeft aan of deze run meetelt voor de publieke ranking. | In deze release loopt dit veld nog één-op-één mee met “gepubliceerd en niet gearchiveerd”. |
Welke data niet publiek is
InsureBench publiceert geen vraagteksten, antwoordopties, juiste antwoorden, ruwe modeloutput, reviewnotities of andere interne beoordelingsdetails. Alleen aggregaties, methodologie en runmetadata zijn publiek.
Hoe scores gelezen moeten worden
Een hogere `score40` betekent een sterker resultaat op deze private Wft-Basis kennisbenchmark. Het bewijst niet dat een model voldoet aan Wft-verplichtingen, veilig zelfstandig advies geeft of operationeel inzetbaar is zonder menselijk toezicht.