InsureBench
Validatie
Deze pagina laat zien hoe de benchmark controleerbaar blijft zonder de private vragenbank of ruwe modelantwoorden openbaar te maken.
Kernuitleg
InsureBench publiceert de vragenbank niet. Zo beperken we auteursrechtrisico's en contaminatie van toekomstige modeltraining. Om controle toch mogelijk te maken, publiceren we een dataset card, toetstermverdeling, modelkaart, runmetadata en geaggregeerde resultaten. Daarnaast laten we de vragenbank en rubric periodiek toetsen door externe Wft- en compliance-experts.
Hoe vragen worden gemaakt
De private set gebruikt 80 Wft-Basis oefenvragen op basis van CDFD-eindtermen. De verdeling volgt CDFD-taak, vraagtype en moeilijkheid, zodat de set niet leunt op één smal deel van het domein.
Wie controleert
De auteur beheert de benchmark en publiceert per release de dataset card, modelkaart, runmetadata en geaggregeerde resultaten. Externe Wft- en compliance-experts kunnen periodiek de vragenbank en rubric toetsen.
Hoe vaak wordt herzien
Reviewstatus: externe review in voorbereiding. Laatste geregistreerde review: Nog niet afgerond. Wijzigingen in benchmarklogica en governance worden publiek vastgelegd in de changelog.
Hoe fouten worden gemeld
Feitenfouten, onduidelijke claims of methodologische missers moeten via het publieke contactpunt worden gemeld. Correcties horen traceerbaar terug te komen in changelog, methodologie of datasetmetadata.
Hoe experts kunnen bijdragen
Externe experts kunnen bijdragen als reviewer van vraagkwaliteit, rubric-logica of compliance-afbakening. Bijdragen zijn bedoeld als toetsing en aanscherping, niet als marketinggoedkeuring.
Hoe contaminatie wordt beperkt
Private set met held-out beleid en canary-vragen; exacte vragen worden niet publiek gedeeld.
Hoe modelversies worden vastgelegd
Modelnamen kunnen bij providers als alias werken. InsureBench rapporteert daarom de gebruikte API-naam, gatewayroute, testdatum, promptversie en datasetversie. Bij gesloten modellen blijft een beperkte onzekerheid bestaan over interne providerwijzigingen.
Hoe de adviesrubric wordt gevalideerd
De promptbenchmark voor advieskwaliteit zit nog in ontwikkeling. De rubric hoort pas publiek zwaarder mee te wegen nadat blind scoring, expertreview en voorbeeldcases aantonen dat beoordelaars consequent tot vergelijkbare uitkomsten komen.
Welke beperkingen blijven bestaan
Een private vragenbank voorkomt geen alle onzekerheid. Gesloten modellen kunnen intern wijzigen, externe review is geen officiële certificering, en fase 1 blijft een kennisbenchmark in plaats van een bewijs voor veilige adviesinzet.
Contact en bijdragen
Fouten melden
Gebruik het publieke contactpunt voor feitelijke correcties, vragen over methodologie of onduidelijke claimtaal.
Open contactgegevensAls expert bijdragen
Bijdragen zijn welkom voor vraagvalidatie, rubric-review en afbakening van claims. De bijdrage is bedoeld als inhoudelijke toetsing, niet als endorsement.
Bekijk governance