InsureBench

Validatie

Deze pagina laat zien hoe de benchmark controleerbaar blijft zonder de private vragenbank of ruwe modelantwoorden openbaar te maken.

Kernuitleg

InsureBench publiceert de vragenbank niet. Zo beperken we auteursrechtrisico's en contaminatie van toekomstige modeltraining. Om controle toch mogelijk te maken, publiceren we een dataset card, toetstermverdeling, modelkaart, runmetadata en geaggregeerde resultaten. Daarnaast laten we de vragenbank en rubric periodiek toetsen door externe Wft- en compliance-experts.

Hoe vragen worden gemaakt

De private set gebruikt 80 Wft-Basis oefenvragen op basis van CDFD-eindtermen. De verdeling volgt CDFD-taak, vraagtype en moeilijkheid, zodat de set niet leunt op één smal deel van het domein.

Wie controleert

De auteur beheert de benchmark en publiceert per release de dataset card, modelkaart, runmetadata en geaggregeerde resultaten. Externe Wft- en compliance-experts kunnen periodiek de vragenbank en rubric toetsen.

Hoe vaak wordt herzien

Reviewstatus: externe review in voorbereiding. Laatste geregistreerde review: Nog niet afgerond. Wijzigingen in benchmarklogica en governance worden publiek vastgelegd in de changelog.

Hoe fouten worden gemeld

Feitenfouten, onduidelijke claims of methodologische missers moeten via het publieke contactpunt worden gemeld. Correcties horen traceerbaar terug te komen in changelog, methodologie of datasetmetadata.

Hoe experts kunnen bijdragen

Externe experts kunnen bijdragen als reviewer van vraagkwaliteit, rubric-logica of compliance-afbakening. Bijdragen zijn bedoeld als toetsing en aanscherping, niet als marketinggoedkeuring.

Hoe contaminatie wordt beperkt

Private set met held-out beleid en canary-vragen; exacte vragen worden niet publiek gedeeld.

Hoe modelversies worden vastgelegd

Modelnamen kunnen bij providers als alias werken. InsureBench rapporteert daarom de gebruikte API-naam, gatewayroute, testdatum, promptversie en datasetversie. Bij gesloten modellen blijft een beperkte onzekerheid bestaan over interne providerwijzigingen.

Hoe de adviesrubric wordt gevalideerd

De promptbenchmark voor advieskwaliteit zit nog in ontwikkeling. De rubric hoort pas publiek zwaarder mee te wegen nadat blind scoring, expertreview en voorbeeldcases aantonen dat beoordelaars consequent tot vergelijkbare uitkomsten komen.

Welke beperkingen blijven bestaan

Een private vragenbank voorkomt geen alle onzekerheid. Gesloten modellen kunnen intern wijzigen, externe review is geen officiële certificering, en fase 1 blijft een kennisbenchmark in plaats van een bewijs voor veilige adviesinzet.

Contact en bijdragen

Fouten melden

Gebruik het publieke contactpunt voor feitelijke correcties, vragen over methodologie of onduidelijke claimtaal.

Open contactgegevens

Als expert bijdragen

Bijdragen zijn welkom voor vraagvalidatie, rubric-review en afbakening van claims. De bijdrage is bedoeld als inhoudelijke toetsing, niet als endorsement.

Bekijk governance