Pagine Internet scomparse: in 10 anni il 38% della pagine web non è più accessibile ma non c'è da meravigliarsi

Il Pew Research Center ha condotto un’analisi per esaminare la frequenza con cui – nell’arco di 10 anni – i contenuti online non sono più disponibili. Dallo studio emerge – ad esempio – che il 38% delle pagine web esistenti nel 2013, non è più disponibile nel 2023. Il dato non deve sconvolgere se si considerano alcuni aspetti peculiari di Internet

Il 38% delle pagine web esistenti nel 2013 non è più accessibile a dieci anni di distanza dalla creazione. Lo dice uno studio del centro di ricerca statunitense “Pew”, che fornisce informazioni su problemi sociali, opinione pubblica e andamenti demografici. Per capire bene il significato dell’esito di questa analisi occorre, prima di tutto, stabilire cosa s’intende per “pagine non più accessibili” e definire il criterio di estrazione dei dati.

Il punto di partenza è il campione utilizzato. Si tratta delle pagine prelevate dal repository web di Common Crawl, un’organizzazione no-profit che esegue la scansione di tutto il web e fornisce gratuitamente al pubblico i propri archivi e set di dati. L’archivio è costituito da petabyte di dati raccolti a partire dal 2008. In genere, le scansioni vengono completate ogni mese, quindi, i ricercatori di Pew hanno dovuto prelevare e analizzare ben 120 pacchetti, ciascuno corrispondente ad un mese di un determinato anno a partire dal 2013 e fino al 2023. L’analisi prevede quindi un riscontro, eseguito non certo da una persona, quanto piuttosto da una routine software (realizzata tramite il linguaggio di programmazione Python), tra il contenuto presente ad un certo indirizzo e corrispondente ad una particolare data e il contenuto presente oggi allo stesso indirizzo. L’esito di questo test non può dare risultati diversi da:

errore 204 (nessun contenuto)
errore 400 (richiesta errata)
errore 404 (pagina non trovata)
errore 410 (pagina rimossa)
errore 500 (errore interno del server)
errore 501 (errore nel metodo della richiesta)
errore 502 (errore di connessione)
errore 503 (servizio non disponibile)
errore 523 (origine del contenuto irraggiungibile)

oppure da:

pagina modificata in maniera lieve
pagina modificata in maniera radicale
indirizzo che rimanda ad un altro contenuto (pagina spostata) che può rientrare nei 2 casi precedenti.

Nel campione sono presenti solo:

pagine da siti web governativi (identificati tramite i dati del provider dei domini .gov)
siti di notizie (identificati utilizzando i dati della società di metrica dell’audience “comScore”)
pagine dell’enciclopedia online Wikipedia
pagine dei singoli post pubblici del social media X/Twitter

Per stilare il rapporto, i ricercatori si sono concentrati solo sugli errori codificati (dall’errore 204 all’errore 523), cioè su pagine che davvero non sono più reperibili in alcun modo, per diversi motivi. Le altre definizioni di accessibilità esulano dallo scopo della ricerca. Le pagine sono state quindi considerate accessibili in tutti gli altri casi, comprese situazioni ambigue in cui non si poteva garantire l’esistenza del contenuto, come pagine “soft 404” o timeout non causati dal DNS (cioè tempi di attesa troppo lunghi per recuperare le pagine originali).

Le conclusioni oggettive dello studio sono che circa un quarto di tutte le pagine web esistenti tra il 2013 e il 2023 non sono più accessibili (nell’accezione poco sopra indicata) a partire da ottobre 2023. Nella maggior parte dei casi, ciò è dovuto al fatto che una singola pagina è stata cancellata o rimossa su un sito web altrimenti funzionante. Ovvero, è il singolo contenuto che è stato cancellato, non tutto il sito.

Ad esempio, il 23% delle pagine web di notizie contiene almeno un collegamento non funzionante, così come il 21% delle pagine web dei siti governativi. I siti di notizie con un livello elevato di traffico e quelli con un livello inferiore hanno la stessa probabilità di contenere collegamenti interrotti. È particolarmente probabile che le pagine web del governo a livello locale (quelle appartenenti alle amministrazioni cittadine) contengano collegamenti interrotti. Il 54% delle pagine di Wikipedia contiene almeno un collegamento nella sezione “riferimenti” che punta a una pagina che non esiste più. Su X/Twitter, quasi un un tweet su cinque non è più pubblicamente visibile, anche solo pochi mesi dopo essere stato pubblicato. Nel 60% di questi casi, l’account che originariamente aveva pubblicato il tweet è stato reso privato, sospeso o cancellato del tutto. Nel restante 40% il titolare dell’account ha cancellato il singolo tweet, ma l’account esiste ancora. Alcuni tipi di tweet tendono a scomparire più spesso di altri. Oltre il 40% dei tweet scritti in turco o arabo non sono più visibili sul sito entro tre mesi dalla pubblicazione. E i tweet provenienti da account con le impostazioni predefinite del profilo hanno maggiori probabilità di scomparire dalla vista del pubblico.

Cosa significano questi dati?

Ancora una volta occorre una premessa: non possiamo escludere che potrebbero esserci stati alcuni vizi di classificazione dei dati etichettati come “non disponibili”. Questo perché, per motivi di sicurezza, taluni siti cercano attivamente di impedire il tipo di raccolta automatizzata dei dati che è stata realizzata attraverso questa indagine. Detto questo, i motivi, più che legittimi e che non devono destare alcuna preoccupazione o rammarico, per cui una pagina scompare da Internet nell’arco di 10 anni, possono essere:

rimozione nell’ambito della normativa europea sulla protezione dei dati (GDPR)
rimozione ai sensi e per gli effetti della decisione della Corte di giustizia dell’Unione europea (CGUE) relativa al diritto all’oblio
rimozione imposta dalla legge in generale (diffamazione, procurato allarme, stampa clandestina, esercizio abusivo di varie professioni, etc…)
rimozione per contenuti non più validi e assenza di aggiornamenti in merito
scadenza delle informazioni contenute all’interno delle pagine
landing page a pagamento, non più utilizzate
mancato pagamento per il mantenimento del dominio
violazione dei diritti d’autore
mancanza di fondi per il sostegno di un progetto editoriale
auto-emendamento (X/Twitter)
occultamento volontario di prove
cattiva gestione della migrazione di un sito web
cancellazione involontaria
disattivazione sistemi di traduzione automatica
disattivazione sistemi di generazione automatica di contenuti
disattivazione sistemi di aggregazione di contenuti
variazione della URL della pagina senza opportuno reindirizzamento

In sostanza non c’è alcun margine per poter utilizzare questi dati come indicazione sui comportamenti di chi genera contenuti sul web. Non è altresì possibile stabilire se la scomparsa delle pagine di Internet, a distanza di anni, sia un bene o sia un male. A volte, si tratta solo del rispetto delle leggi, di decisioni politiche o personali, di correzioni o di aggiornamenti. Forse, l’unica riflessione valida da fare è quella che ruota intorno alla responsabilizzazione dei cosiddetti “utenti attivi” di Internet, cioè di tutti quelli che, in un modo o nell’altro, generano alcuni dei contenuti del web: siano essi dei semplici contributori dell’enciclopedia online “Wikipedia” o del social network X/Twitter, siano essi degli editori digitali o dei responsabili di questo o quel sito governativo. Troppo spesso, questi soggetti, si lamentano della difficoltà nel reperire informazioni su Internet, dell’incongruenza dei risultati o peggio, dell’insoddisfacente posizionamento delle loro fonti preferite, dimenticando di essere loro stessi parte del problema. Valga per tutti l’esempio di chi, variando la URL di una pagina senza fare l’opportuno reindirizzamento, non fa che rendere Internet un posto peggiore: un mondo virtuale pieno di spazzatura digitale, formata da tante richieste che cadono nel vuoto e, al tempo stesso, di contenuti che non saranno più reperibili. Internet, da quando si è consolidata, ha una sua netiquette (buone regole di comportamento per gli utenti) che andrebbe letta e rispettata da tutti*.

Se, in ultima analisi, ci fosse qualcuno che ritenesse la scomparsa delle pagine Internet, laddove venisse imposta, sempre un male, questi non dovrebbe far altro che adoperarsi per far cambiare le specifiche leggi, causa della cancellazione.

*cfr. request for comments: 1855 (netiquette guidelines): “remember that setting up an information service is more than just design and implementation. It’s also maintenance”.

Pagine Internet scomparse: in 10 anni il 38% della pagine web non è più accessibile ma non c’è da meravigliarsi

Cosa significano questi dati?

Lorenzo Gennari

Commenta Annulla risposta

Borse, settimana breve ma ricca di eventi: sullo sfondo la guerra dei dazi. A Milano occhi su Unicredit e Generali

Sinner, tutto pronto per il ritorno agli Internazionali di Roma 2025: quando gioca, date e dove vedere il torneo

Arte e illustrazione: in asta da Christie’s opere di Maurice Sendak, l’artista che ha affascinato generazioni di lettori

Dal mito al trauma: i 50 anni di “Ultimo Tango a Parigi” in un film sul ruolo di Maria Schneider

Wealth management su misura: ecco come Intesa Sanpaolo personalizza la gestione del patrimonio. Parla Tiziana Lamberti

Dazi e crolli di Borsa “possono nascondere anche buone opportunità e strane coincidenze”. Parla Gabriel Debach, market analyst di eToro

Brugola: il mito del “difetto zero” verso i 100 anni di storia. Dalle auto alla Luna, l’eccellenza del Made in Italy è tornata “in famiglia”

Ucraina e Italia, non è il momento di una nostra presenza militare a Kiev: parla l’ambasciatore Riccardo Sessa (Sioi)

Portafogli, è ora di rivedere la geografia: “Più Europa, con Svizzera e Asia. Ma senza trascurare gli Usa”. Parla Sara Amato (Pictet)

“L’Europa cerchi di evitare la disfatta dell’Ucraina, alzi il prezzo per Putin e isoli Trump”: intervista a Stefano Silvestri (Iai)

Condividi

Cosa significano questi dati?

Potrebbe interessarti anche...

Regno Unito contro Google: class action da 6 miliardi per abuso di posizione dominante

Altman sfida Musk: OpenAI lavora a un social con IA rivale di X

iPhone e dispositivi Apple, stangata in arrivo con i dazi di Trump: ecco quanto possono arrivare a costare

TikTok sotto accusa: maxi-multa da 500 milioni in Ue. Anche X nel mirino

Commenta Annulla risposta