OpenAI introduceert GPT-4.1-serie in API met significante verbeteringen
OpenAI heeft een nieuwe reeks geavanceerde GPT-modellen aangekondigd die beschikbaar komen via de API: GPT-4.1, GPT-4.1 mini en GPT-4.1 nano. Deze nieuwe modellen overtreffen hun voorgangers, GPT-4o en GPT-4o mini, op diverse cruciale gebieden, met name op het vlak van codering en het nauwkeurig opvolgen van instructies.

Daarnaast beschikken de modellen over aanzienlijk grotere contextvensters, die tot wel 1 miljoen tokens aan context kunnen verwerken en beter benutten dankzij verbeterde mogelijkheden voor lange contextbegrip. De kennisbasis van de modellen is geactualiseerd tot juni 2024.
Volgens OpenAI blinkt de GPT-4.1 uit in verschillende industriestandaard benchmarks:
- Codering: Met een score van 54.6% op SWE-bench Verified behaalt GPT-4.1 een absolute verbetering van 21.4% ten opzichte van GPT-4o en 26.6% ten opzichte van GPT-4.5, waarmee het model zich positioneert als een toonaangevende keuze voor codeergerelateerde taken.
- Instructieopvolging: Op Scale’s MultiChallenge benchmark, die het vermogen tot instructieopvolging meet, scoort GPT-4.1 38.3%, een absolute stijging van 10.5% vergeleken met GPT-4o.
- Lange context: Op de Video-MME benchmark, die multimodale lange contextbegrip test, vestigt GPT-4.1 een nieuwe state-of-the-art score van 72.0% in de categorie 'long, no subtitles', een absolute verbetering van 6.7% ten opzichte van GPT-4o.
OpenAI benadrukt dat, hoewel benchmarks waardevolle inzichten bieden, de ontwikkeling van deze modellen sterk gericht was op praktische toepasbaarheid in de echte wereld. Door nauwe samenwerking met de ontwikkelaarsgemeenschap zijn de modellen geoptimaliseerd voor de taken die het meest relevant zijn voor hun applicaties.
De GPT-4.1 modellenfamilie biedt uitzonderlijke prestaties tegen lagere kosten en verbetert de prestaties op elk punt van de latentiecurve.
GPT-4.1 mini wordt gepresenteerd als een significante sprong voorwaarts in de prestaties van kleinere modellen. Het model verslaat GPT-4o op veel benchmarks en evenaart of overtreft het op intelligentie-evaluaties, terwijl de latentie met bijna de helft en de kosten met 83% zijn verlaagd.
Voor taken die een lage latentie vereisen, is GPT-4.1 nano het snelste en meest kostenefficiënte model dat OpenAI momenteel aanbiedt. Het levert sterke prestaties in een compact formaat met een contextvenster van 1 miljoen tokens en behaalt indrukwekkende scores op benchmarks zoals MMLU (80.1%), GPQA (50.3%) en Aider polyglot coding (9.8%), waarmee het zelfs GPT-4o mini overtreft. Dit model is ideaal voor taken zoals classificatie en automatische aanvulling.
De verbeteringen in de betrouwbaarheid van instructieopvolging en het begrip van lange context maken de GPT-4.1 modellen aanzienlijk effectiever voor het aansturen van agents, of systemen die zelfstandig taken namens gebruikers kunnen uitvoeren. In combinatie met functionaliteiten zoals de Responses API kunnen ontwikkelaars nu agents bouwen die nuttiger en betrouwbaarder zijn voor complexe taken zoals software engineering, het extraheren van inzichten uit grote documenten en het oplossen van klantvragen met minimale tussenkomst.
API
Het is belangrijk op te merken dat GPT-4.1 uitsluitend via de API beschikbaar zal zijn. In ChatGPT zijn veel van de verbeteringen op het gebied van instructieopvolging, codering en intelligentie geleidelijk geïntegreerd in de meest recente versie van GPT-4o, en OpenAI zal deze integratie in toekomstige releases voortzetten.
Daarnaast kondigt OpenAI aan dat de GPT-4.5 Preview in de API zal worden afgebouwd. GPT-4.1 biedt vergelijkbare of betere prestaties op veel belangrijke aspecten tegen aanzienlijk lagere kosten en latentie. De GPT-4.5 Preview zal over drie maanden, op 14 juli 2025, worden uitgeschakeld om ontwikkelaars de tijd te geven om over te stappen. GPT-4.5 werd geïntroduceerd als een research preview om een groot, rekenintensief model te verkennen en ermee te experimenteren, en OpenAI heeft veel geleerd van de feedback van ontwikkelaars. De creativiteit, schrijfkwaliteit, humor en nuance die gebruikers waardeerden in GPT-4.5 zullen worden meegenomen in toekomstige API-modellen.