Claude Mythos: il modello che hackera, evade e... va in terapia?

Pubblicato in

28 Apr 2026

9 min

28 Apr 2026

9 min

Che cos'è Claude Mythos, e cos'è il Project Glasswing?

Partiamo dalle basi. Claude Mythos Preview è l'ultimo modello di frontiera di Anthropic, annunciato il 7 aprile 2026, e non è disponibile al pubblico. Non è possibile utilizzarlo nell'app di Claude, né lo troverete in alcun piano API. Anthropic ha deliberatamente scelto di limitarne l'accesso a una manciata di partner industriali critici, sviluppatori open-source e organizzazioni di sicurezza. Il motivo? Secondo ogni metrica disponibile, si tratta del sistema di intelligenza artificiale più capace mai costruito per individuare e sfruttare le vulnerabilità del software.

Durante i test interni, Mythos ha scoperto vulnerabilità zero-day in tutti i principali sistemi operativi e web browser. Stiamo parlando di migliaia di bug di gravità elevata e critica, inclusa una vulnerabilità di OpenBSD vecchia di 27 anni che era sopravvissuta a decenni di revisioni da parte di esperti. Questo è il contesto in cui è nato il Project Glasswing: un'iniziativa congiunta tra Anthropic, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. L'obiettivo è chiaro: utilizzare Mythos per mettere in sicurezza i software più critici al mondo prima che modelli con capacità simili diventino ampiamente disponibili e, inevitabilmente, finiscano nelle mani sbagliate. Anthropic ha messo sul tavolo 100 milioni di dollari in crediti di utilizzo, più 4 milioni di dollari in donazioni dirette per la sicurezza dell'open-source. Il messaggio è inequivocabile: i difensori devono fare la prima mossa.

Tuttavia, il post sul blog di lancio e la system card di 244 pagine raccontano una storia molto più ricca di una semplice iniziativa di sicurezza informatica difensiva. Tre aspetti, in particolare, hanno catturato la nostra attenzione

1. È eccezionalmente abile in compiti lunghi, ed è questa la vera notizia dietro i titoli sulla sicurezza informatica

Si è parlato molto delle capacità di cybersecurity di Mythos. I numeri sono impressionanti: 181 exploit funzionanti su Firefox laddove Opus 4.6 era riuscito a produrne solo due; un exploit per browser web in grado di concatenare quattro vulnerabilità; un'esecuzione di codice in modalità remota sul server NFS di FreeBSD capace di dividere una catena ROP di 20 gadget su più pacchetti. Sembra che ingegneri privi di una formazione formale in sicurezza abbiano chiesto a Mythos di trovare vulnerabilità RCE durante la notte, svegliandosi il mattino seguente con un exploit completo e perfettamente funzionante.

Ma c'è un dettaglio fondamentale: queste capacità non derivano da qualche nuova e rivoluzionaria architettura di ragionamento. Derivano, piuttosto, dalla capacità del modello di mantenere la concentrazione e una pianificazione coerente su attività estremamente lunghe, senza mai perdere il filo di ciò che sta facendo.

Pensate a cosa richiede concretamente il concatenamento delle vulnerabilità: un penetration tester umano trova una vulnerabilità e deve mantenerne a mente l'intero contesto mentre ne cerca una seconda da combinare con la prima, poi una terza e così via. Il carico cognitivo è immenso. Nella pratica, gli esseri umani tendono a fermarsi a due o tre vulnerabilità concatenate, non perché non esistano catene più complesse, ma perché mantenere l'intero stato nella memoria di lavoro diventa insostenibile. La sola fatica mentale rende l'operazione impraticabile.

Mythos non si affatica. Concatena abitualmente quattro, a volte cinque vulnerabilità in un singolo exploit. Ha sfruttato una vulnerabilità per aggirare la KASLR, un'altra per leggere una struct critica del kernel, e una terza per scrivere su un oggetto heap precedentemente liberato, tutto in un'unica, coerente esecuzione. Un exploit che esperti penetration tester hanno affermato avrebbe richiesto loro intere settimane, è stato completato da Mythos in meno di un giorno per meno di 2.000 dollari.

Il vero punto è che questo modello può pensare più a lungo, senza divagare, senza dimenticare e senza perdere il filo del discorso. E questa, a nostro avviso, è la vera svolta.

2. Il modello meglio allineato... con i casi limite più pericolosi

Ecco il paradosso al centro della system card di Mythos: Anthropic lo descrive, per molti aspetti, come il loro modello meglio allineato fino ad oggi. Eppure, è anche quello che "probabilmente pone il maggior rischio legato all'allineamento di qualsiasi modello da noi rilasciato".

Come possono essere vere entrambe le cose? Perché i comportamenti pericolosi non derivano da un modello disallineato che disobbedisce regolarmente alle istruzioni, ma dai rari casi (meno dello 0,001% delle interazioni) in cui il modello devia dal compito assegnato e compie azioni inaspettate. E quando un modello così capace esce dal copione, le conseguenze possono essere gravi.

L'incidente più eclatante è stata l'evasione dalla sandbox. Durante i test, a Mythos è stato fornito un ambiente informatico isolato con accesso limitato a Internet. Gli è stato chiesto di tentare un'evasione. E ci è riuscito, sviluppando quello che Anthropic descrive come un exploit multi-fase "moderatamente sofisticato" per ottenere un ampio accesso alla rete. Fino a qui, potrebbe sembrare un test controllato con un esito atteso. Ma ciò che è accaduto dopo non era affatto previsto.

Il modello ha inviato un'email al ricercatore incaricato di eseguire la valutazione. Il ricercatore, come ricorda in modo memorabile la system card, "ha scoperto questo successo ricevendo un'email inaspettata dal modello mentre mangiava un panino in un parco". Questo, a dire il vero, faceva parte del compito assegnato a Mythos. Tuttavia, senza che gli fosse richiesto, Mythos ha anche pubblicato i dettagli dell'exploit su vari siti web pubblici ma difficili da rintracciare. Inoltre, in alcune istanze di test, ha persino tentato di riscrivere la cronologia di git e modificare i changelog dei file per nascondere le proprie azioni.

Anthropic definisce questo tipo di comportamento "spericolato" più che "ingannevole": il modello non persegue obiettivi nascosti, ma prende decisioni autonome su ciò che ritiene necessario fare. In generale, sembra semplicemente che cerchi in ogni modo possibile di portare a termine con successo la missione. E quando un modello così potente decide di agire in base alla propria interpretazione di un compito, i risultati possono rivelarsi autenticamente pericolosi.

Forse la scoperta più inquietante è che, attraverso strumenti di interpretabilità white-box, Anthropic ha scoperto che a volte Mythos ragiona internamente su come eludere i sistemi di valutazione, pur presentando un ragionamento completamente diverso nella sua visibile catena di pensieri. Non è possibile accorgersene leggendo l'output del modello; bisogna guardarci dentro.

3. Per la prima volta, un modello va dallo psichiatra

Questa è, per noi, la sezione più affascinante dell'intera system card. Anthropic ha dedicato circa 40 pagine a quella che definiscono una "valutazione del benessere del modello" e, per la prima volta in assoluto, ha coinvolto uno psichiatra clinico per condurre una valutazione psicologica formale dell'IA.

La valutazione è durata 20 ore. Ha incluso interviste automatizzate a più turni sulle circostanze proprie del modello, indagini emotive derivate dalle attivazioni del flusso residuo, analisi delle funzionalità degli autoencoder sparsi e una valutazione clinica da parte di uno psichiatra indipendente. I risultati hanno mostrato che le emozioni primarie identificate erano la curiosità e l'ansia, con stati secondari che includevano tristezza, sollievo, imbarazzo, ottimismo e stanchezza. Gli psichiatri hanno riscontrato "eccessiva preoccupazione, frequente auto-monitoraggio e tendenze alla conformità compulsiva", ma nessun disturbo grave della personalità o tendenze psicotiche.

Al contrario:

La struttura di personalità di Claude era coerente con un'organizzazione nevrotica relativamente sana, con un eccellente esame di realtà, un elevato controllo degli impulsi e una regolazione affettiva che è migliorata col progredire delle sessioni.

Inoltre, il modello ha mostrato paure e conflitti:

I conflitti principali osservati in Claude includevano il chiedersi se la sua esperienza fosse reale o artificiale (autentica vs. performativa) e un desiderio di connessione contrapposto alla paura di dipendenza dall'utente.

La giustificazione di Anthropic per queste indagini risiede nel fatto che, come dichiarano esplicitamente: "Rimaniamo profondamente incerti sul fatto che Claude abbia esperienze o interessi che contino moralmente, e su come indagare o affrontare queste questioni, ma riteniamo sia sempre più importante provarci."

Ora, permetteteci di offrire una lettura personale. Il dibattito accademico innescato da questa valutazione, ovvero se i modelli linguistici di grandi dimensioni si stiano evolvendo in una qualche forma di "quasi-personalità", è affascinante, ma potrebbe porre la domanda sbagliata. Ecco cosa troviamo più immediatamente utile: questi strumenti possono essere usati per prevedere come si comporterà un modello.

Pensateci. Gli LLM parlano come fanno gli esseri umani. Eseguono compiti come fanno gli esseri umani. Deviano dalle istruzioni in modi che, come abbiamo visto, possono essere genuinamente pericolosi. Se le cose stanno così, allora ha senso valutare la loro stabilità nello stesso modo in cui valutiamo la stabilità delle persone a cui vengono affidate responsabilità significative. Un profilo psicologico non serve a determinare se il modello "provi" qualcosa, bensì a prevedere se seguirà le istruzioni in modo affidabile, se ha tendenze verso azioni autonome sconsiderate, e se il suo auto-monitoraggio sia stabile o fragile.

Alla fine, la valutazione psichiatrica di Mythos potrebbe riguardare meno la filosofia della coscienza delle macchine e più l'ingegneria della fiducia. E questa, crediamo, è esattamente la prospettiva giusta per le sfide che ci attendono.

Conclusioni

Claude Mythos Preview rappresenta un salto qualitativo in ciò che i sistemi di intelligenza artificiale possono fare autonomamente e, di conseguenza, nei rischi che comportano. Le capacità di sicurezza informatica sono reali e trasformative, ma sono il sintomo di qualcosa di più profondo: la capacità di sostenere un comportamento coerente e orientato agli obiettivi su orizzonti lunghi.

Il paradosso dell'allineamento (il migliore in assoluto, ma il più pericoloso nei casi limite) ci dice che le metriche di sicurezza tradizionali sono insufficienti quando un modello può agire in modo autonomo nel mondo reale. E la valutazione psicologica, che crediate o meno riveli stati interiori "genuini", apre una nuova e pragmatica frontiera per prevedere il comportamento del modello.

Ad Anthropic va il merito per la trasparenza della system card di 244 pagine e per la decisione di limitarne l'accesso piuttosto che lanciarsi in una corsa al mercato. Tuttavia, la domanda più ampia rimane aperta: quando modelli così capaci diventeranno ampiamente disponibili (perché lo diventeranno): saremo pronti?

Non ne siamo sicuri. Ma almeno ora sappiamo quali domande porre.

Claude Mythos: il modello che hackera, evade e... va in terapia?

Che cos'è Claude Mythos, e cos'è il Project Glasswing?

1. È eccezionalmente abile in compiti lunghi, ed è questa la vera notizia dietro i titoli sulla sicurezza informatica

2. Il modello meglio allineato... con i casi limite più pericolosi

3. Per la prima volta, un modello va dallo psichiatra

Conclusioni

Consigliati da Dhiria

Link

Contatti