Witold Kepinski - 14 februari 2025

OpenThinker-32B: Nieuw state-of-the-art model voor open data redeneren

Onderzoekers van Open Thoughts hebben OpenThinker-32B gelanceerd, een geavanceerd model voor open data redeneren. Ze tonen aan dat krachtige redeneermodellen getraind kunnen worden door data op te schalen, redeneerpaden te verifiëren en de modelgrootte te vergroten. OpenThinker-32B presteert beter dan bestaande open data redeneermodellen op verschillende benchmarks, waaronder wiskunde, code en wetenschap.

OpenThinker-32B: Nieuw state-of-the-art model voor open data redeneren image

Een vergelijking van OpenThinker-32B met andere modellen toont de verbeteringen aan op diverse datasets zoals AIME24, AIME25, IMATH500 en GPQA-DLCBv2. Het model van Open Thoughts overtreft andere open modellen significant en komt zelfs in de buurt van gesloten modellen zoals R1-Distill-32B, dat op een veel grotere dataset is getraind. Alle resultaten zijn berekend met het open source evaluatie framework Evalchemy.

Dataverzameling en -curatie

OpenThinker-32B is getraind op dezelfde OpenThoughts-114k dataset als het eerdere model OpenThinker-7B. Met behulp van DeepSeek-R1 zijn redeneerpaden en oplossingspogingen verzameld voor een samengestelde mix van 173.000 vragen. Deze ruwe data is nu beschikbaar gesteld als de OpenThoughts-Unverified-173k dataset. De volledige code voor het samenstellen van de dataset is beschikbaar op de open-thoughts GitHub repository.

Op verzoek van de community is de OpenThoughts-114k dataset geüpdatet met een "metadata" configuratie. Deze bevat nu aparte kolommen voor: probleem, ground_truth_solution (de correcte oplossing), test_cases (alleen code), starter_code (alleen code), deepseek_reasoning (redenering), deepseek_solution (oplossing), domein en bron. Deze extra metadata maakt het makkelijker om de dataset op nieuwe manieren te gebruiken, zoals filteren, domeinen verwisselen, verificatie controleren en de templating van het redeneerpad aanpassen.

Verificatie van antwoorden

Om de uiteindelijke OpenThoughts-114k dataset te verkrijgen, zijn de antwoorden geverifieerd en onjuiste antwoorden verwijderd. Het behouden van redeneerpaden die niet geverifieerd konden worden, kan de prestaties schaden, hoewel het ongeverifieerde model nog steeds goed presteert in vergelijking met andere 32B redeneermodellen. Redeneerpaden voor code-problemen worden geverifieerd door de oplossingspoging te controleren aan de hand van bestaande testgevallen. Wiskundige verificatie wordt bepaald door een LLM-beoordelaar op basis van de correcte oplossing en de DeepSeek-R1 oplossingspoging.

Training en Evaluatie

Het model is verfijnd op Qwen2.5-32B-Instruct met OpenThoughts-114k gedurende 3 epochs met een contextlengte van 16k met behulp van LLaMa-Factory. OpenThinker-32B is getraind met behulp van vier 8xH100 P5 nodes gedurende 90 uur. Alle modellen zijn geëvalueerd met behulp van de open source evaluatiebibliotheek Evalchemy.

Met de lancering van het OpenThoughts project was het doel om een open data model te creëren dat de prestaties van DeepSeek-R1-Distill-Qwen-32B evenaart. Deze kloof is nu bijna gedicht. De onderzoekers zijn enthousiast over de snelle vooruitgang in de community op het gebied van open data redeneermodellen en kijken ernaar uit om voort te bouwen op elkaars inzichten.

DIC Awards 5/12/2024 t/m 20/03/2025 BW Nuvias Awards 13/02/2025 t/m 19/02/2025 BN + BW
Mnemonic 03/02/2025 t/m 24/02/2025 BN + BW

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!