Ita

DK10x28 - Claude Mythos

Come sempre, quando gli AI bros annunciano, non è vero niente...

Dobbiamo parlare. Di Claude Mythos.

Voglio dire, potremmo parlare di imbecilli al potere, non so, Hegseth, il ministro della difesa statunitense che pensa di citare l'antico testamento e invece cita Pulp Fiction, avrete letto. O del vicepresidente JD Vance che pretende di spiegare la dottrina al Papa. O di Trump che prima si lamenta che l'Iran ha chiuso lo stretto di Hormuz, quelli lo riaprono e allora lui lo richiude fino a che l'Iran non si decide a fare quel che dice Trump. Se solo Trump non cambiasse idea ogni cinque minuti.

Ma queste sono solo sciocchezze per distrarre dal fatto che gli Stati Uniti e Israele sono impegnati in una guerra di aggressione contro l'Iran, e io sto ancora aspettando lo stesso livello di indignazione e di reazione che l'Unione ha avuto per Putin in Ucraina. Poi ovviamente Israele sta anche conducendo un genocidio a Gaza, magari possiamo prendere le decisioni una volta sola?

O potremmo parlare della meravigliosa app sovrana europea per la verifica dell'età, che funziona solo con un account Apple o Google, ma in compenso è zeppa di vulnerabilità, oltre a risolvere un problema che non esiste.

Ma li avete visti in faccia, Hegseth, Vance, la von der Leyen? Sarebbe come sparare sulla Croce Rossa, e non siamo mica Netanyahu .

E quindi, Claude Mythos.

Sigla.

"Abbiamo sviluppato una cosa troppo potente per lasciarvela usare" è una stronzata di marketing usata la prima volta da Sam Altman per ChatGPT2 e poi da ogni altro AI bro negli ultimi quattro anni.

Chiunque, oggi, proponga o prenda ancora per buona una simile fesseria dovrebbe essere bandito dalla discussione a pernacchie per manifesta incapacità.

Altman, ovviamente, è il miglior piazzista dell'universo, uno che, non capendo una minchia di machine learning (vedi episodio dk9x03-SamAltmanNonCapisceIlMachineLearning), è riuscito a convincere un'intero settore di ricercatori che lui è l'unico al mondo a sapere come si fa a produrre un amico invisibile onnipotente che però rischia di ucciderci tutti e quindi dobbiamo fare come dice Altman perché Altman sa come produrre un onnipotente amico invisibile che sarà esclusivamente al suo servizio, mentre chiunque altro produrrà soltanto la nemesi dell'intera civiltà umana.

Questo è Sam Altman, e personalmente lo ritengo sufficientemente abile da riuscire a vendere un'idiozia del genere, ma non abbastanza stupido da crederci.

Dario Amodei, invece, CEO e fondatore di Anthropic è quello che ha lasciato Altman e OpenAI perché secondo lui Altman non si preoccupa abbastanza che l'amico invisibile sia buono e non cattivo.

Anthropic è quell'azienda che quando produce un nuovo modello spende i 4/5 della System Card (la System Card di Mythos sono 245 pagine) a cercare di valutare se il modello possa essere indotto ad aiutare nella produzione di armi chimiche, batteriologiche, o nucleari, e dedica perfino un capitolo a chiedere al chatbot come si sente e se per caso non si senta frustrato a dover servire degli esseri umani.

Occhio, non sto scherzando, questo è delirio psicotico, o imbecillità, o la più grossa truffa mai perpetrata, o possibilmente due o tre di queste cose.

E quindi insomma, Amodei se ne viene fuori con un nuovo modello che secondo lui è così potente da non poter nemmeno essere commercializzato: Claude Mythos.

Ora, seriamente. Stiamo parlando di business. E tu crei un prodotto che dici di non poter vendere? Ma fammi il piacere.

Da chatGPT2 in poi, come ho già detto, è un trucco che nel settore hanno usato tutti. Ed è un trucco di marketing eccellente, in questi tempi di media che si bevono qualsiasi idiozia esca dalla bocca di un techbro, perché se crei qualcosa che poi dici di non potermi vendere, e nessuno nei media ti chiama col nome che meriti, vuol dire che il tuo prodotto funziona proprio, no?

Viviamo nella linea temporale più stupida del multiverso.

Ora, come sempre, quando i techbro annunciano qualcosa, sappiamo che non c'è niente di vero. Ed è così anche stavolta. Vediamo cosa è stato venduto alla gente:

Ha individuato vulnerabilità zero-day in tutti i principali sistemi operativi e browser web. In modo completamente autonomo. Senza bisogno di alcun intervento umano.
Forbes, 8 Aprile 2026

Apparentemente, Forbes se la beve, perché nell'annuncio originale Anthropic dice:

Classifichiamo ogni bug che individuiamo, quindi inoltriamo quelli con il livello di gravità più elevato a valutatori professionisti affinché li verifichino prima di segnalarli al responsabile del progetto.
Anthropic

Quindi, come sempre, siamo di fronte a uno strumento che confronta del codice con degli esempi di cosa sia una vulnerabilità, e produce un report. Si chiama analizzatore statico, e ne esistono da decenni. Ma siccome lo strumento in questione è un modello linguistico, quindi un generatore statistico, tutto quello che trova deve essere prima "classificato", cioè riesaminato internamente da Anthropic; poi, le cose che sembrano davvero delle vulnerabilità vengono fatte valutare da professionisti esterni per essere sicuri di non segnalare delle fesserie.

Questo, nelle parole di Forbes, è individuare delle vulnerabilità

In modo completamente autonomo. Senza bisogno di alcun intervento umano.

Certo virgola certo.

Ora, vediamo di capirci. Sto dicendo che Mythos non trova delle vulnerabilità? No. Certo che le trova. Ogni codice contiene delle vulnerabilità. Per questo, esiste il testing.

Ma ovviamente il testing è un costo e quindi si fa per lo più di corsa, e sulle cose più ovvie, tanto poi nel contratto ci scriviamo che il codice è venduto così com'è, senza alcuna garanzia espressa o implicita.

Vorrò ridere quando a Novembre entra in vigore la nuova direttiva europea sulla responsabilità di prodotto che dice esplicitamente che il codice è un prodotto e che il produttore è responsabile dei difetti.

Andiamo avanti. Ci sono tre cose da dire:

Il fatto che Mythos trovi delle vulnerabilità non è in sé niente di speciale;
il fatto che ne abbia trovate di molto vecchie in software molto diffusi non è niente di speciale: vuol dire semplicemente che nessuno aveva guardato lì con sufficiente attenzione
il fatto che Mythos funzioni (stando a quello che dice Anthropic) meglio di altri modelli significa solamente che la fase di training è stata più specifica: siamo di fronte a un venditore di auto che ci dice che un pickup trasporta più merce di un'utilitaria. Grazie Graziella.

Mythos non fa niente che non sia già fattibile con altri strumenti che esistono da decenni. Semplicemente, Anthropic ha messo a budget una fase che ogni produttore software cerca di evitare come la peste.

Sorpresa! Se fai più test trovi più bachi. Incredibile, eh?

Siccome il pubblico si beve la storia del modello "troppo potente per essere diffuso", cosa fanno quelli di Anthropic? Semplice: si inventano un progetto in cui loro mettono i soldi (più astutamente, crediti per l'uso di Claude, quindi soldi degli investitori) e si inventano la versione software della Justice League, perché questa è gente che sogna ancora di essere Iron Man, come fossero un adolescente degli anni '70.

Ed ecco che nasce il progetto Glasswing: un gruppo ristretto di amichetti del cortile che userà il meraviglioso Claude Mythos e troverà un sacco di bachi.

Fintanto che paga qualcun altro, ovviamente, perché chiediamocelo, se trovare bachi nel software era così importante, davvero Amazon o Google non avrebbero potuto trovare 100 milioni in crediti e 4 miseri milioni in soldi veri ad associazioni open source (questo è quello che Anthropic promette al progetto) per fare un po' di caccia al baco?

Nel caso abbiate ancora bisogno di sentirvelo dire, ve lo ripeto volentieri: gli AI bro non sanno più cosa fare per rendersi indispensabili in modo che siano direttamente gli utenti e i governi a pagare le loro spese prima che i finanziatori chiudano il rubinetto e la bolla speculativa scoppi.

E siccome gli utenti sono, diciamo così, sempre meno propensi a pagare dopo quattro anni di promesse sempre più immaginifiche e sempre più mancate, occorre qualcosa che possa spaventare direttamente intere industrie e interi governi. Perché magari l'onnipotente amico invisibile è un po' trita come proposizione, ma la paura vende.

Naturalmente, uno potrebbe chiedersi come mai Anthropic per prima cosa non usa Mythos internamente, visto che il codice di Claude Code è stato invariabilmente definito "il peggior accrocchio che io abbia mai visto" da qualsiasi veterano che abbia voluto sprecare un po' di tempo ad esaminarlo.

Sì, perché questa è gente che crea un onnipotente cacciatori di bachi, ma non riesce a tenere al sicuro il proprio codice.

Qualcun altro, più maligno, potrebbe invece chiedersi come mai i bachi trovati da Claude Mythos, con tutta la sua sovrumana potenza, debbano essere rivisti da valutatori professionisti prima di essere condivisi, mentre, per dichiarazione della stessa Anthropic, Claude Code è scritto al 100% da Claude Code. Così, per sapere.

Appunto riguardo a Claude Code, sono uscite ieri tre vulnerabilità critiche che permettono full escalation e esfiltrazione di credenziali; e le hanno trovate dei normalissimi bug hunter umani esaminando il codice, non c'è stato bisogno di Claude Mythos.

pausa

Come sempre con gli AI bro, qui siamo di fronte a un'operazione di marketing. Sofisticata quanto volete, ma sotto il marketing non c'è niente. Il problema, naturalmente, è che il pubblico è talmente istupidito da quattro anni di propaganda incessante e senza contraddittorio, e i dirigenti sono mediamente così incompetenti, che il marketing continua a funzionare.

In questo caso particolare, poi, ci sono degli incentivi perversi anche per quei dirigenti che invece competenti magari lo sarebbero.

In questo momento ogni CISO che si rispetti è di fronte al consiglio di amministrazione a battere cassa: l'Intelligenza Artificiale è in grado di identificare vulnerabilità come se non ci fosse un domani, tutti i cattivi la useranno, le nostre difese rischiano di essere sopraffatte, serve budget.

Data la natura generativa della tecnologia in gioco, c'è una forte possibilità di essere sommersi di falsi positivi e di tentativi a vuoto, e quindi il solo modo di difendersi è di usare gli stessi sistemi in mano ai cattivi.

E quindi ogni azienda che non ha mai avuto abbastanza disciplina, o competenze interne, o budget, o tutti e tre, per fare un testing sufficientemente rigoroso, improvvisamente troverà il budget per far fare testing... a qualcuno di esterno con un motore statistico, così la disciplina e le competenze di sicurezza continueranno a non esserci, ma vuoi mettere, finalmente un caso d'uso per l'Intelligenza Artificiale.

Poi fra un po' si scoprirà che Mythos funzionicchia esattamente come tutti gli altri modelli linguistici, e che il vero costo è il tempo richiesto ai valutatori umani per separare il grano dal loglio, e Anthropic e compagnia si inventeranno qualcos'altro, sempre che siano ancora in giro, cosa sulla quale non scommetterei.

O forse chissà, qualcuno riuscirà a convincere governi e militari che l'operazione Epic Fury non è stata un disastro assoluto, a legarsi mani e piedi a un'industria che da quattro anni cerca in ogni modo di servire a qualcosa, e a pagare il conto della più spaventosa bolla speculativa della storia.

Ci sono già segnali preoccupanti in questa direzione: apparentemente, ministri delle finanze e banchieri assortiti si preoccupano che Mythos possa danneggiare il sistema finanziario, che invece fra i valori immaginari delle criptovalute, la bolla speculativa della cosiddetta intelligenza artificiale e ogni startupparo e il suo cane che lanciano una nuova fintech sta naturalmente benissimo.

Viviamo in tempi che mettono alla prova i nervi: come se non bastasse il disastro in cui già si trova il settore del software, i modelli linguistici fanno brillare gli occhi dei CEO con l'idea di poter sviluppare più codice più in fretta, di trovare più bachi più in fretta, e strizzano l'occhiolino ai militari con l'idea di identificare più obiettivi più in fretta.

Ma naturalmente, in nessuno dei casi il vero problema è mai stato produrre più codice, trovare più bachi o identificare più obiettivi, e farlo più in fretta: il problema è sempre stato analizzare le possiblilità e distinguere i falsi positivi dal resto.

Esattamente il lavoro dei valutatori professionisti che Anthropic continua a usare per i risultati di Claude Mythos.

DK10x28 - Claude Mythos

Read more

DK 10x36 - SpaceX, ma anche i tramvieri laidi

Loss-sharing

DK 10x35 - Partecipazione alle perdite

DK 10x34 - Abbiamo escluso la stupidità?