InsureBench

Data dictionary

Deze pagina legt de publieke velden uit uit de InsureBench JSON- en CSV-exports. Zo kun je scores, metadata en leaderboard-status lezen zonder mondelinge toelichting.

Bronnen

De definities hieronder gelden voor de publieke exports op JSON-, CSV- en run-detailniveau.

JSONCSVMethodologie

Publieke velden

Veld	Publiek?	Formaat	Voorbeeld	Betekenis	Interpretatie
runId	Ja	UUID-string	640fcf56-71b6-48b5-ba79-2170330179b0	Unieke identifier van een publieke benchmarkrun.	Gebruik dit veld om één specifieke run terug te vinden in de JSON-, CSV- of detail-export.
modelSlug	Ja	kebab-case string	gpt-4o	Stabiele publieke slug van het model binnen InsureBench.	Handig voor links, filters en modeldetailpagina’s.
modelName	Ja	Leesbare naam	GPT-4o	Publieke weergavenaam van het geteste model.	—
provider	Ja	Tekst	OpenAI	De aanbieder of modelmaker zoals InsureBench die publiek toont.	—
gatewayId	Ja	Provider/model route	openai/gpt-4o	De exacte gatewayroute waarmee de run is uitgevoerd.	Dit helpt bij reproduceerbaarheid als publieke modelnamen aliasgedrag vertonen.
versionPinned	Ja	Tekst / modelroute	openai/gpt-4o	De modelversie of route die InsureBench als vastgepinde referentie rapporteert.	—
triggeredAt	Ja	ISO-datumtijd	2026-05-07T13:22:15.562+00:00	Het tijdstip waarop de benchmarkrun is gestart.	Gebruik dit veld om te zien hoe actueel een resultaat is.
score40	Ja	Getal op 40-puntsschaal	33	Publieke hoofdscore van de run, omgerekend naar de Wft-Basis 40-puntsschaal.	Een hogere score betekent sterker op deze benchmark, niet automatisch geschikt voor zelfstandig advies.
rawMean	Ja	Decimaal tussen 0 en 1	0.8333	Het gemiddelde ruwe resultaat van de onderliggende pogingen vóór omzetting naar de 40-puntsschaal.	—
stdev	Ja	Decimaal	0.0059	De standaarddeviatie van de onderliggende pogingen binnen dezelfde run.	Dit zegt vooral iets over stabiliteit van de pipeline en niet op zichzelf over inhoudelijke kwaliteit.
passed	Ja	Boolean	true	Of de run de ingestelde cesuur haalt.	—
questionCount	Ja	Integer	80	Aantal vragen waarop deze run is beoordeeld.	—
passThreshold	Ja	Decimaal tussen 0 en 1	0.68	De cesuur als ruwe ratio, vóór omzetting naar de 40-puntsschaal.	0.68 staat gelijk aan 68% van de ruwe scorebasis.
includedInLeaderboard	Ja	Boolean	true	Geeft aan of deze run meetelt voor de publieke ranking.	In deze release loopt dit veld nog één-op-één mee met “gepubliceerd en niet gearchiveerd”.

Welke data niet publiek is

InsureBench publiceert geen vraagteksten, antwoordopties, juiste antwoorden, ruwe modeloutput, reviewnotities of andere interne beoordelingsdetails. Alleen aggregaties, methodologie en runmetadata zijn publiek.

Hoe scores gelezen moeten worden

Een hogere `score40` betekent een sterker resultaat op deze private Wft-Basis kennisbenchmark. Het bewijst niet dat een model voldoet aan Wft-verplichtingen, veilig zelfstandig advies geeft of operationeel inzetbaar is zonder menselijk toezicht.

Publieke velden

Veld	Publiek?	Formaat	Voorbeeld	Betekenis	Interpretatie
runId	Ja	UUID-string	640fcf56-71b6-48b5-ba79-2170330179b0	Unieke identifier van een publieke benchmarkrun.	Gebruik dit veld om één specifieke run terug te vinden in de JSON-, CSV- of detail-export.
modelSlug	Ja	kebab-case string	gpt-4o	Stabiele publieke slug van het model binnen InsureBench.	Handig voor links, filters en modeldetailpagina’s.
modelName	Ja	Leesbare naam	GPT-4o	Publieke weergavenaam van het geteste model.	—
provider	Ja	Tekst	OpenAI	De aanbieder of modelmaker zoals InsureBench die publiek toont.	—
gatewayId	Ja	Provider/model route	openai/gpt-4o	De exacte gatewayroute waarmee de run is uitgevoerd.	Dit helpt bij reproduceerbaarheid als publieke modelnamen aliasgedrag vertonen.
versionPinned	Ja	Tekst / modelroute	openai/gpt-4o	De modelversie of route die InsureBench als vastgepinde referentie rapporteert.	—
triggeredAt	Ja	ISO-datumtijd	2026-05-07T13:22:15.562+00:00	Het tijdstip waarop de benchmarkrun is gestart.	Gebruik dit veld om te zien hoe actueel een resultaat is.
score40	Ja	Getal op 40-puntsschaal	33	Publieke hoofdscore van de run, omgerekend naar de Wft-Basis 40-puntsschaal.	Een hogere score betekent sterker op deze benchmark, niet automatisch geschikt voor zelfstandig advies.
rawMean	Ja	Decimaal tussen 0 en 1	0.8333	Het gemiddelde ruwe resultaat van de onderliggende pogingen vóór omzetting naar de 40-puntsschaal.	—
stdev	Ja	Decimaal	0.0059	De standaarddeviatie van de onderliggende pogingen binnen dezelfde run.	Dit zegt vooral iets over stabiliteit van de pipeline en niet op zichzelf over inhoudelijke kwaliteit.
passed	Ja	Boolean	true	Of de run de ingestelde cesuur haalt.	—
questionCount	Ja	Integer	80	Aantal vragen waarop deze run is beoordeeld.	—
passThreshold	Ja	Decimaal tussen 0 en 1	0.68	De cesuur als ruwe ratio, vóór omzetting naar de 40-puntsschaal.	0.68 staat gelijk aan 68% van de ruwe scorebasis.
includedInLeaderboard	Ja	Boolean	true	Geeft aan of deze run meetelt voor de publieke ranking.	In deze release loopt dit veld nog één-op-één mee met “gepubliceerd en niet gearchiveerd”.