Uno studio di Graphite mostra un web dominato dai contenuti generati dall’AI. Ecco cosa cambia per qualità, fiducia e informazione.

Da un mese a questa parte, circola un dato molto preoccupante. Il contesto è l’aver mostrato come sul web stiano comparendo più testi generati dall’intelligenza artificiale, che scritti da esseri umani. Milioni di articoli, guide e approfondimenti vengono prodotti con una velocità che nessuna redazione potrebbe sostenere.

In mezzo a questa massa crescente, distinguere ciò che nasce da una persona, da ciò che è creato da un modello, diventa sempre più difficile. Questa trasformazione non è improvvisa, né frutto di un allarmismo momentaneo. Si tratta di un risultato di anni in cui la produzione automatica di contenuti è diventata la risposta più comoda alle richieste del mercato.

  1. Lo studio di Graphite
  2. Data pollution e contenuti usa-e-getta
  3. Impatto su utenti, editori e brand
  4. Segnali identificativi di contenuto generato dall’IA
immagine di uomo e IA che scrivono articoli

Il web sta cambiando pelle e la domanda da porci non è se l’IA stia scrivendo più di noi, ma cosa significa vivere in un ambiente informativo in cui l’origine dei contenuti non è più evidente.

Ma come sempre, andiamo con ordine e affrontiamo per gradi l’argomento.

Lo studio di Graphite

Ciò che ha acceso il dibattito online sui contenuti generati tramite IA, è stato uno studio pubblicato da Graphite, società californiana specializzata nell’analisi dei contenuti online. Per comprendere l’evoluzione del web degli ultimi anni, l’azienda ha esaminato un campione di 65.000 articoli in lingua inglese pubblicati dal 2020 al 2025. L’obiettivo era distinguere la percentuale di contenuti umani, da quelli generati automaticamente. Il risultato finale ha mostrato una tendenza molto preoccupante, ossia la crescita rapida e costante dei secondi.

Il dato che ha generato preoccupazione e scosso il web, è stato il presunto sorpasso avvenuto nel novembre 2024, quando la maggioranza dei nuovi contenuti online sarebbe stata prodotta dall’IA. Occorre precisare che Graphite definisce “generato dall’AIqualsiasi testo a cui il loro algoritmo attribuisce una probabilità superiore al 50%. Per ammissione degli stessi ricercatori, questo valore va interpretato con cautela, perché nessuno strumento di rilevamento è infallibile.

Il limite più evidente riguarda proprio l’identificazione degli stessi. Man mano che i modelli LLM si evolvono, diventano sempre più difficili da distinguere dagli esseri umani. In certi casi alcuni rilevatori penalizzano stili sintetici, altri confondono testi scritti in inglese non nativo con output generati da modelli. Per questo lo studio non va letto come una verità assoluta, ma come un indicatore importante.

Data pollution e contenuti usa-e-getta

La crescita dei contenuti generati dall’IA porta con sé un effetto collaterale impossibile da ignorare, ossia la saturazione del web con testi privi di profondità e pensati solo per occupare spazio. Questo fenomeno prende il nome di data pollution e si tratta di un rumore di fondo che altera la qualità complessiva dell’informazione online e rende più difficile individuare ciò che davvero merita attenzione.

Il vero rischio è rappresentato dal fatto che questi contenuti finiscono anche nei dataset usati per addestrare i modelli LLM successivi. Di conseguenza, l’IA finisce per apprendere da contenuti prodotti da altre IA. Ciò genera un circolo vizioso che sacrifica la qualità e l’informazione reale, amplificando inesorabilmente gli errori e le inesattezze.

Questi contenuti usa-e-getta sono privi di una responsabilità editoriale, proprio perché prodotti rapidamente in sequenza e senza alcun processo di verifica. Non è nemmeno possibile risalire a un reale proprietario, in quanto sprovvisti di una firma certificata. Si tratta di contenuti che esistono perché possono farlo, non perché abbiano qualcosa da proporre ai lettori. Il loro vuoto contenutistico alimenta la proliferazione di ambiguità, imprecisioni e distorsioni della realtà dei fatti, che poi rimbalzano nei motori di ricerca e nei social network. In altre parole, si sta alimentando un ciclo informativo sempre meno umano e sempre più lontano dalla verità.

Impatto su utenti, editori e brand

Per gli utenti, la conseguenza più immediata è un graduale e costante calo della fiducia. Navigare tra contenuti alla fin fine uguali tra di loro, genera fatica cognitiva che spinge molti a ignorare anche le fonti affidabili. Questo perché tutto appare scritto nello stesso modo, arrivando a presentare perfino le stesse frasi. Si vedano i vari “precisione chirurgica“, o “approccio olistico” tanto abusati da LLM come ChatGPT.

La situazione si aggrava per gli editori e i professionisti del settore. I contenuti umani richiedono tempo, competenze e una responsabilità editoriale che la produzione automatizzata non possiede. Nel web odierno, invece, l’autorevolezza finisce per essere soffocata dai testi prodotti in massa. Ciò si traduce in un calo drastico della visibilità di siti un tempo affermati nel campo dell’informazione. Si tratta di una dinamica che penalizza chi investe nella qualità e premia chi pubblica più velocemente.

Nel caso dei brand, il rischio è di tipo reputazionale. Questo ecosistema, dominato da contenuti automatici, rende meno efficace ogni forma di comunicazione. Articoli, guide e comunicati finiscono nel cosiddetto “slop“, l’accumulo disorganizzato di tutto ciò che viene pubblicato il prima possibile.

Segnali identificativi di contenuto generato dall’IA

I testi generati automaticamente sono tutt’oggi abbastanza semplici da riconoscere, in quanto basta osservarne il contenuto. Sono presenti una serie di schemi ricorrenti che rendono scorrevole la lettura, ma se ci si addentra maggiormente i testi risultano di una piattezza unica. Ciò avviene perché gli LLM generalizzano e uniformano le informazioni che acquisiscono dai loro dataset di addestramento. Il risultato ottenuto è un contenuto che non dice nulla, ma che induce l’utente a credere di aver letto qualcosa di importante, perché ammaliato dal linguaggio forbito.

Ogni IA generativa tende a privilegiare frasi equilibrate e pulite, evitando appositamente contrasti e prese di posizione effettive. In altre parole, cercano in tutti i modi di evitare riferimenti e discussioni reputate “pericolose“. Gli autori umani, al contrario, riescono a far trasparire la loro presa di posizione sia in maniera diretta, che indiretta. Questo perché un essere umano gode di esperienze pregresse e idee maturate con l’osservazione diretta della realtà, laddove gli LLM sono vincolati sia ai dataset di addestramento, che alle policy di protezione stabilite dal gestore stesso, come Google nel caso di Gemini e OpenAI per ChatGPT.

Un altro segnale di riconoscimento sono gli errori che emergono nell’arco di tutto il testo. Non è raro osservare ripetizioni costanti di concetti già espressi in precedenza, o un abuso smodato di aggettivi forbiti ma a conti fatti inutili, come i classici “proattivo“, “olistico“, “approccio strutturato“, e così via. Ciò accade perché un LLM, nel generare una risposta, attinge al dataset della sua lingua di riferimento, ma non fa distinzione tra i termini d’uso comune e quelli più arcaici, o raramente impiegati.

Con questo non si intende condannare l’uso dell’IA generativa in senso assoluto, ma di far prendere coscienza ai lettori del modo corretto di distinguere un contenuto reale, da uno generato rapidamente solo per fare rumore.

In conclusione

Poiché il confine tra testo umano e generato sta diventando sempre meno evidente, occorre tornare a leggere con attenzione i contenuti. Piuttosto che scorrere rapidamente un articolo, ci si deve soffermare sulla fonte, com’è stato costruito e quali altre fonti cita direttamente. I contenuti scritti rapidamente non offrono tutto questo, perché privi di una prospettiva. Il loro target è una lettura rapida e superficiale, l’esatto opposto di un contenuto umano e autorevole.

Per i content creator, la direzione chiara è quella di proporre meno quantità e più qualità. L’IA può supportare ricerche e analisi preliminari, ma il valore reale di un contenuto nasce solo quando una persona decide cosa dire, come dirlo e perché dirlo. Questo dettaglio separa un contenuto utile da uno generato per dovere di presenza.

Per le aziende e i brand, orientarsi vuol dire investire in contenuti verificati, tracciabili e misurabili. Ciò significa dichiarare le fonti, mostrare come nasce un articolo e rendere trasparente il processo editoriale. Gli utenti hanno ancora bisogno di riferimenti affidabili e solo le realtà capaci di promettere una comunicazione responsabile, potranno preservare la loro fiducia.


    Dichiaro di aver letto e compreso l'Informativa sul trattamento dei dati