OpenAI lanceert ChatGPT-o1

OpenAI heeft 12 september 2024 de eerste versie van hun nieuwe ‘Strawberry’ serie AI-modellen gelanceerd: ChatGPT-o1. Hiermee zet het als eerste bedrijf de stap van AI-niveau 1 naar niveau 2. De naam o1 kan gezien worden als een reset (van het ‘oude’ GPT-4 model waarvan Sam Altman eerder aangaf ‘it sucks’) naar het begin van een nieuwe fase.

Welke AI-niveau’s zijn er?

Volgens OpenAI’s visie op de ontwikkeling richting kunstmatige algemene intelligentie (AGI), gebeurt dit in 5 verschillende fases:

Conversational AI (zoals ChatGPT-4 en de huidige modellen van Claude, Gemini, Grok en Llama): Voert natuurlijke gesprekken.
Reasoning AI (ChatGPT-o1): Lost basisproblemen op, vergelijkbaar met iemand op het niveau van een promovendus of die een doctoraat heeft behaald. AI presteert beter dan 50% van de mensen op de taken waar ze bekwaam in zijn.
Autonomous AI: Handelt zelfstandig voor langere periodes, zonder tussenkomst van mensen. AI presteert beter dan 90% van de mensen op de taken waar ze bekwaam in zijn.
Innovating AI: Ontwikkelt nieuwe ideeën en oplossingen. AI presteert beter dan 99% van de mensen op de taken waar ze bekwaam in zijn.
Organizational AI: Het ultieme niveau van AI-onderzoekers waarbij het taken van een hele organisatie uitvoert en beter presteert dan 100% van de mensen.

OpenAI verwacht niveau 5 (AGI) rond 2030 te bereiken, iets eerder of iets later!

Het verschil tussen GPT-o1 en GPT-4o

Wat maakt GPT-o1 anders dan GPT-4o? Waar je met ChatGPT-4o (niveau 1) vrijwel gelijk een antwoord krijgt, kunnen deze nieuwe niveau 2 modellen langer en stapsgewijs nadenken om betere antwoorden te geven en instructies beter op te volgen. Bij het antwoord kun je ook zien welke stappen het gevolgd heeft en hoe lang het erover gedaan heeft. Hier zie je ChatGPT-o1 in actie. Ik stelde de beruchte vraag ‘hoeveel r’en staan er in het woord ‘strawberry’?’ Je ziet hoe ChatGPT-4o en o1 omgaan met deze eenvoudig lijkende vraag waar alle AI-modellen tot nu toe de mist mee ingingen.

De prestaties van ChatGPT-o1

In verschillende tests liet ChatGPT-o1 indrukwekkende resultaten zien: het loste 83% van de problemen op in de International Mathematics Olympiad qualifier, terwijl GPT-4o slechts 13% haalde. Bij codeer-benchmarks presteerde o1 beter dan 89% van de deelnemers aan Codeforces-competities.

International Mathematics Olympiad qualifier ChatGPTo1

De o1-modellen gebruiken geavanceerde reinforcement learning-technieken. Hierdoor kunnen ze hun denkproces verfijnen, verschillende strategieën proberen en zelfs van hun fouten leren. OpenAI heeft ook grote stappen gezet op het gebied van veiligheid. Het o1-preview model scoorde 84 op een van OpenAI’s moeilijkste jailbreaking-tests, vergeleken met slechts 22 voor GPT-4o.

Aan de slag met ChatGPT-o1

Als je een Plus of Teams abonnement hebt, kun je ChatGPT-o1 vanaf nu gebruiken door in ChatGPT bovenin ‘o1 preview’ of ‘o1 mini’ te selecteren.

Probeer o1 vooral uit voor complexe taken of problemen met meerdere stappen om de verschillen te kunnen ervaren en een beeld te krijgen waar deze ontwikkeling naartoe gaat. In deze eerste preview versie ontbreken nog verschillende functies van ChatGPT-4o, zoals de voice functie, het internet raadplegen, GPT’s aanroepen en het uploaden van bestanden en afbeeldingen.

OpenAI geeft aan dat deze functies binnenkort worden toegevoegd. Voorlopig kun je het beste nog de ChatGPT-4o versie gebruiken voor de taken waar je dit nodig hebt. Met de introductie van deze ‘zelf nadenkende’ AI’s gaan we een nieuwe fase in waarin we AI voor meer complexe taken kunnen inzetten en de uitkomsten veel beter worden. We krijgen hiermee hele interessante mogelijkheden, maar ook uitdagingen om onze rol en manier van werken hierop aan te passen.

Uitnodiging maandelijkse AI-inspiratiesessies

Graag kijken we samen met jou naar de belangrijkste AI-ontwikkelingen, bespreken we het laatste nieuws en de updates, delen we ervaringen, krijg je concrete handvatten, kan je vragen stellen en met ons sparren.

Vind je het leuk om hier ook bij te zijn? Meld je dan aan.