Nieuwe topmodellen in aantocht: Claude Mythos en OpenAI Spud

Terwijl de meeste gebruikers nog de laatste updates van Claude en ChatGPT ontdekken, bereiden Anthropic en OpenAI zich alweer voor op de uitrol van hun volgende topmodellen. Beide bedrijven spreken van een grote sprong vooruit.

Claude Mythos per ongeluk onthuld

Een beveiligingsonderzoeker ontdekte bijna 3.000 interne documenten van Anthropic in een onbeveiligde database, inclusief een blogpost over een nieuw model: Claude Mythos. Dit model wordt intern ook wel “Capybara” genoemd. Het gaat niet om een update van een bestaand model. Mythos is een nieuwe categorie boven Opus, tot nu toe het krachtigste Claude-model. Anthropic bevestigde dat het model echt is en noemde het “een grote sprong” en “het krachtigste model dat we tot nu toe hebben gebouwd”. Een kleine groep klanten mag het model alvast testen.

In de gelekte documenten waarschuwt Anthropic dat Mythos ver voorloopt op andere modellen op het gebied van cyberveiligheid. Beurzen reageerden meteen: aandelen van grote cyberveiligheidsbedrijven als CrowdStrike en Palo Alto Networks daalden 6 tot 9 procent in één dag.

Broncode van Claude Code ook uitgelekt

Een paar dagen later lekte ook de volledige broncode van Claude Code, de populaire programmeertool van Anthropic. Een fout bij een software-update maakte 512.000 regels code openbaar. In die code vonden onderzoekers verwijzingen naar Capybara en een omstreden “undercover mode” die sporen van Anthropic verbergt wanneer medewerkers aan externe projecten werken. Een pijnlijke week voor een bedrijf dat zich profileert op AI-veiligheid.

OpenAI Spud: twee jaar onderzoek in één model

Ook OpenAI bereidt een groot model voor. De training van een nieuw model met de codenaam “Spud” is afgerond. CEO Sam Altman vertelde medewerkers dat het een “heel sterk model” wordt dat “de economie kan versnellen”. Medeoprichter Greg Brockman noemde het op de Big Technology-podcast “een enorme inspanning van veel mensen in het bedrijf” en benadrukte dat het geen update is van een bestaand model, maar een volledig nieuw basismodel waar ongeveer twee jaar onderzoek in zit. Dit is volgens hem de eerste keer sinds GPT-4o in mei 2024.

Spud wordt de verwachte basis voor de geplande alles-in-één desktop-app waarin ChatGPT, programmeertool Codex en browser Atlas samenkomen. Om rekenkracht vrij te maken heeft OpenAI videoapp Sora stopgezet. Met Spud denkt OpenAI een flinke stap dichterbij AGI te zetten. De productafdeling is zelfs hernoemd naar “AGI Deployment”.

AI versnelt, maar baanverlies ook

Altmans uitspraak dat Spud “de economie kan versnellen” is niet zonder betekenis. In de praktijk vertaalt dat zich naar AI die het werk van kenniswerkers steeds verder overneemt. Oracle ontsloeg afgelopen week bijna 20 procent van zijn medewerkers via een mail om 06:00 uur ‘s ochtends, terwijl het tegelijkertijd miljarden investeert in AI-datacenters en mensen met andere vaardigheden aantrekt.

Dat patroon zien we bij steeds meer bedrijven. Traditionele functies verdwijnen, terwijl er nieuwe rollen ontstaan rond het bouwen en beheren van AI-systemen.

Betere modellen, maar ook duurder en schaarser

Beide modellen worden naar verwachting in de komende weken tot maanden beschikbaar. De afstand tussen wat labs intern testen en wat publiek beschikbaar is, bedraagt volgens experts zes tot twaalf maanden. Anthropic schrijft in de gelekte documenten dat Mythos “erg duur” zal zijn, zowel voor henzelf als voor klanten. Actieve Claude-gebruikers lopen op de huidige Max-abonnementen nu al tegen limieten aan tijdens drukke uren.

Die spanning tussen betere modellen, betaalbaarheid en beperkte capaciteit wordt de komende maanden alleen maar groter.

Betrouwbaarheid blijft een hardnekkig probleem

Ondertussen blijft de betrouwbaarheid van AI-modellen een structureel vraagstuk. Reuters publiceerde een analyse die stelt dat AI-modellen mogelijk nooit volledig foutloos zullen zijn. Omdat ze werken door steeds het meest waarschijnlijke volgende woord te kiezen, zijn fouten geen bug maar een eigenschap van de technologie zelf.

Voor creatieve taken zoals marketingteksten of brainstorms is “ongeveer goed” vaak prima. Maar voor werk waar kleine fouten grote gevolgen hebben, bijvoorbeeld juridisch advies, medische diagnoses of kritieke analyses, is zelfs een foutpercentage van 1 tot 2 procent onacceptabel. Een groot deel van de huidige AI-investeringen gaat juist uit van adoptie in dat soort risicovolle domeinen. De honderden miljarden die nu worden ingezet, zijn daarmee een enorme gok.

Blijf realistisch, blijf experimenteren

Voor wie dagelijks met AI werkt is het belangrijk om realistisch te blijven over wat de technologie wel en niet goed kan. Controleer de output, zeker bij werk waar fouten gevolgen hebben. En houd er rekening mee dat de tools die je vandaag gebruikt snel veranderen. Wat je nu hebt ingeregeld, is over een paar maanden misschien niet meer de beste aanpak. Blijf flexibel en blijf experimenteren.

Maak iedere week een sprong vooruit in je marketing AI transformatie

Elke vrijdag brengen wij je de meest actuele inzichten, nieuws en praktijkvoorbeelden over de impact van AI in de marketingwereld. Of je nu je marketing efficiency wilt verbeteren, klantbetrokkenheid wilt verhogen, je marketingstrategie wilt aanscherpen of je bedrijf digitaal wilt transformeren. ‘Marketing AI Friday’ is jouw wekelijkse gids.

Meld je gratis aan voor Marketing AI Friday.