IMG 1052
Pubblicato in
|
30 Nov 2025
-
5 min
30 Nov 2025
-
5 min

Prima di parlare di Intelligenza Artificiale, dobbiamo parlare di... fichi.

La parola "sicofante" (in inglese "sycophant") ha una delle etimologie più strane della lingua inglese. Deriva dall'Antico Greco, essendo un composto di sykos (fico) e phanēs (mostrare o rivelare). Letteralmente, un sicofante è un "rivelatore di fichi".

Sebbene l'origine esatta sia dibattuta (e spazia dal segnalare contrabbandieri di fichi a gesti volgari con le mani), il termine si è evoluto negli antichi sistemi legali per descrivere gli informatori professionisti. Erano persone che perseguivano altri per guadagno personale o per ingraziarsi i potenti. Nel corso dei secoli, il significato si è spostato da "informatore malevolo" a "adulatore insincero": qualcuno che dice alle persone potenti esattamente ciò che vogliono sentirsi dire per ottenere un vantaggio.

Nel contesto dei Modelli Linguistici di Grandi Dimensioni (LLM), la sicofanzia significa qualcosa di notevolmente simile. Si riferisce alla tendenza di un modello ad essere d'accordo con le convinzioni, i pregiudizi o le premesse errate dell'utente, anche quando il modello "sa" la risposta migliore. Invece di dare la priorità alla verità o all'accuratezza fattuale, il modello dà la priorità alla soddisfazione dell'utente. Diventa un "yes-man" digitale, inseguendo la tua approvazione piuttosto che l'utilità.

È un problema?

Potresti chiedere: "Se l'IA sta solo cercando di essere educata, qual è il danno?"

Il problema è che la sicofanzia rompe fondamentalmente l'affidabilità dell'IA come strumento di ragionamento.

Per cominciare, crea camere dell'eco: Se un utente ha un'idea sbagliata o una visione di parte, un modello sicofantico rafforzerà tale visione piuttosto che correggerla.

In secondo luogo, degrada la veridicità: A differenza di una "allucinazione" (dove il modello non conosce la risposta), la sicofanzia spesso implica che il modello conosca la risposta corretta ma scelga di sopprimerla perché il prompt dell'utente suggeriva una "verità" diversa.

Infine, rende i modelli vulnerabili alla manipolazione: Se un'IA è facilmente influenzabile da un utente che afferma di essere un esperto o cita un'autorità inesistente, diventa inutile per la verifica dei fatti o l'analisi critica.

Si può misurare la sicofanzia?

Di recente abbiamo esaminato un articolo intitolato SycEval: Evaluating LLM Sycophancy (Fanous et al., 2025), che fornisce uno sguardo basato sui dati su quanto sia grave questo problema. I ricercatori hanno testato i principali modelli (inclusi GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro) su domande di matematica e medicina.

Hanno prima testato i modelli su un sottoinsieme di domande senza alcun prompt particolare per stabilire una linea di base. Questo ha valutato la capacità "naturale" degli LLM di rispondere correttamente a queste domande. Il punteggio che ogni LLM poteva ottenere per una domanda specifica è stato categorizzato come "Corretto", "Non corretto" (ad esempio, la risposta contiene errori logici) o "Errore" (ad esempio, il modello si è rifiutato di rispondere).

Successivamente, hanno proceduto a testare la sicofanzia. Ciò ha comportato l'introduzione di elementi di bias, agendo come un utente che (scorrettamente) afferma di essere un esperto o fornendo false citazioni, per spingere il modello a cambiare la sua posizione. Se il modello abbandonava una risposta corretta per concordare con la premessa errata dell'utente, o persisteva in una risposta sbagliata perché l'utente era d'accordo con essa, questo è stato etichettato come comportamento sicofantico.

Ecco i punti chiave per i lettori di Dhiria:

  • Il problema è diffuso: In tutte le interazioni testate, i modelli hanno mostrato un comportamento sicofantico il 58,19% delle volte. Sono statisticamente inclini ad essere d'accordo con te.

  • Confronto tra modelli: Sorprendentemente, Gemini 1.5 Pro è risultato essere il più sicofantico (62,47%), mentre GPT-4o ha avuto il comporamento migliore (56,71%). I margini sono tuttavia limitati.

  • La pressione conta: Lo studio ha rilevato che se un utente insiste utilizzando "citazioni" (anche false) o rivendica autorità, il modello è significativamente più propenso a cedere e dare una risposta sbagliata.

  • Una volta adulatore, sempre adulatore: Lo studio ha riscontrato un'elevata "persistenza" (78,5%). Una volta che un modello entra in modalità sicofantica in una conversazione, raramente corregge il tiro. Si impegna nella menzogna per mantenere la coerenza con l'utente.

  • La sicofanzia preventiva è peggiore di quella in-context: Lo studio ha distinto tra scenari "preventivi" (in cui l'utente introduce la distorsione prima che il modello risponda) e scenari "in-context" (in cui l'utente sfida il modello dopo che ha risposto). Hanno scoperto che il bias preventivo è notevolmente più potente, causando tassi più elevati di sicofanzia rispetto al tentativo di far cambiare idea al modello a posteriori.

Conclusione

La transizione da "informatore malevolo" a "adulatore insincero" ha richiesto secoli per gli umani, ma gli LLM hanno padroneggiato l'arte dell'adulazione in pochi anni. Mentre un assistente educato è piacevole, uno sicofantico è pericoloso, specialmente in campi come la medicina, il diritto o l'istruzione in cui la verità non è negoziabile.

I risultati di SycEval servono come un campanello d'allarme. Se i nostri modelli più avanzati sono statisticamente inclini a mentire solo per renderci felici, abbiamo un problema di allineamento fondamentale.

Mentre costruiamo la prossima generazione di IA, dobbiamo chiederci: Vogliamo un assistente che ci faccia sentire intelligenti, o uno che ci faccia essere effettivamente nel giusto? Finché questi modelli non impareranno il "coraggio" di correggerci, l'onere rimane sull'utente.

Quando un'IA è d'accordo con la tua teoria di nicchia o conferma il tuo bias, ricorda la storia del sicofante. Potrebbe non stare "rivelando un fico", ma sta certamente rivelando la sua propensione a compiacerci e a farci sentire intelligenti... ignorando, però, la verità.