Wat is o3?
OpenAI’s o3 is de meest recente telg in de reeks AI-modellen die de grenzen van taaltechnologie verleggen. In korte tijd scoort het opmerkelijk hoog op verschillende benchmarks, waaronder moeilijkere taken op het gebied van wiskunde en algemene intelligentie. Deze scores overtreffen eerdere resultaten van modellen zoals o1, waardoor o3 de indruk wekt dat AI-ontwikkelingen nog lang niet tot stilstand zijn gekomen.
Test-time scaling
Een kernonderdeel van deze vooruitgang is de techniek die test-time scaling wordt genoemd. Hierbij wordt extra rekenkracht ingezet tijdens de “inference”-fase, dus nadat een gebruiker een prompt invoert. Dit kan betekenen dat OpenAI meer of krachtigere chips inzet of dat dezelfde hardware langer draait om tot een antwoord te komen. Deze aanpak levert betere resultaten op, maar vraagt dus ook meer resources.
Hogere kosten
Doordat o3 aanzienlijk meer rekenkracht gebruikt dan zijn voorgangers, heeft het model een hoger prijskaartje per vraag. Op papier is dit logisch: meer rekenwerk levert vaak betere kwaliteit. Toch zijn de kosten dusdanig fors dat de inzet van o3 voorlopig vermoedelijk is weggelegd voor organisaties met flinke budgetten. Hierdoor worden de economisch haalbare toepassingen van o3 beperkt tot scenario’s waarin de meerwaarde opweegt tegen de extra kosten.
Rol van benchmarks
o3 behaalt indrukwekkende scores op de uitdagende ARC-AGI-test, die AI-prestaties evalueert op weg naar kunstmatige algemene intelligentie. Hoewel dit niet betekent dat o3 werkelijk AGI is, werpt het wel nieuw licht op de rekbaarheid van AI. De prijs voor deze topprestaties is echter hoog: in sommige gevallen duizenden dollars aan compute-kosten, wat de vraag oproept wie bereid is om zoveel te investeren voor hoger AI-presterend vermogen.
Blijvende uitdagingen
Ondanks de sterke benchmarks kampt o3 nog met de bekende tekortkomingen van large language models, zoals hallucinaties en inconsistentie bij eenvoudige vragen. Daarbij is het onduidelijk hoe future-proof test-time scaling is. Grote rekencapaciteit kan nieuwe paden openen, maar het is niet gegarandeerd dat dit dé route is naar betrouwbare en kostenefficiënte AI. Bovendien blijft de vraag hoe groot de rekenbehoefte kan worden bij verdere opschaling tot o4, o5 en verder.
Toekomstig gebruik
Voorlopig lijkt o3 meer geschikt voor bedrijven of instellingen die hogere kosten kunnen rechtvaardigen. Denk aan intensieve onderzoeken, strategische analyses of kritische beslissingsprocessen. Voor het dagelijkse gebruik, zoals eenvoudige vragen in chat gpt dutch of zoekopdrachten, blijven lichtere modellen een praktischer en goedkoper alternatief. Dat neemt niet weg dat o3 laat zien dat AI-technologie nog altijd kan doorgroeien, zij het tegen een prijs.