Agli albori di Internet, la preoccupazione principale di chi voleva offrire un sistema per catalogare il numero crescente di siti presenti nella rete, era quella del “matching“, ossia la corrispondenza tra gli argomenti trattati e la categoria all’interno del quale veniva inserito ciascun sito. Successivamente nacque l’esigenza del motore di ricerca, uno strumento che sollevava i navigatori dall’incombenza di sfogliare tutte le pagine di un sito Internet alla ricerca del tema d’interesse specifico. Prima di Google, lo scenario dei motori di ricerca era popolato da una quantità notevole di alternative, che permettevano di rintracciare informazioni partendo da semplici parole chiave. Per ordinare le pagine che contenevano queste informazioni, il sistema più utilizzato era quello che costruiva una classifica delle fonti in base al numero di volte che un termine di ricerca appariva sulla stessa pagina.
Sergey Brin e Larry Page, i fondatori di Google, pensarono fin da subito che il loro motore di ricerca dovesse avere una marcia in più e quindi si concentrarono proprio sulla funzione di ranking. L’obiettivo era quello di produrre dei risultati che non fossero solo rilevanti, ma anche autorevoli, ossia una classifica di fonti affidabili di informazioni corrette, con una forte presenza sul web. Gli studi matematici dei due portarono quindi la loro attenzione sulla “catena di Markov“, strumento della teoria della probabilità in grado di considerare lo stato di un sistema al tempo t, ma anche di prevedere la sua transizione verso una determinata direzione (un altro stato), in base allo stato del sistema al tempo immediatamente precedente. In questo modo – tuttora – è possibile schematizzare i link di pagine web che puntano ad altre pagine web come se fossero transizioni di stato, dando un peso a questi link in base al numero e all’autorevolezza delle pagine da cui provengono. L’analogia è evidente osservando i diagrammi che rappresentano i collegamenti tra stati nei processi markoviani: i numeri quantificano la probabilità del processo di cambiare da uno stato all’altro e le frecce indicano la direzione di tale cambiamento.
Grazie al lavoro di Brin e Page, che non fu certamente il solo che andava in questa direzione, il paradigma degli algoritmi di ranking, dal 1998, cambia radicalmente e si attesta, in maniera quasi definitiva, al “Link Analysis Ranking“, dove le strutture ipertestuali vengono utilizzate per classificare le pagine web. In un certo senso, un link dalla pagina Y alla pagina X può esser visto come un’approvazione della qualità della pagina X e il web stesso può essere immaginato come una rete di raccomandazioni che contiene informazioni sull’autorevolezza delle pagine. Il compito della funzione di ranking è estrarre queste informazioni e produrre un ranking che rifletta l’autorità relativa delle pagine.
All’inizio degli anni 2000, Google non è ancora il motore di ricerca più usato al mondo e sopravvivono gli algoritmi basati su sistemi di ranking obsoleti, così come le “web directory”, portali in cui le risorse sono organizzate per aree tematiche e vengono presentate come indici o come alberi che si ramificano in nodi più specifici. Matrici, distribuzioni di probabilità, vettori e processi stocastici sono al centro della descrizione del brevetto depositato, nel 2001, da Brin e Page per il loro PageRank. Un volta impostati i valori delle variabili di partenza, l’algoritmo riesce a generare, per ciascuna frase chiave, una classificazione di risultati. Calcoli algebrici e probabilistici governano il posizionamento delle pagine del world wide web. Eppure c’è qualcosa che non va.
Lo staff di Google si accorge di aver sostanzialmente fornito le istruzioni per finire in cima alle sue classifiche, ingannando l’algoritmo. I creatori di contenuti seguono alla lettera tutte le indicazioni, fanno a gara a scambiarsi link autorevoli e infarciscono le loro pagine di parole chiave inerenti determinati argomenti, ma poi, nel sito parlano d’altro. Qualcuno sfrutta i “trend topic” (argomenti più ricercati) come esca per vendere prodotti e servizi. I criminali li usano per inoculare virus informatici. Insomma: lo spam, prima veicolato quasi esclusivamente tramite posta elettronica, è definitivamente sbarcato sul web. Ma la scorrettezza non è solo quella più o meno palese dello spam (che miete ancora un numero consistente di vittime). Anche il mondo della pubblicità, della comunicazione aziendale, del copywriting e perfino del giornalismo o dello spettacolo, sgomita per avere “un posto in prima fila” e lo fa concentrandosi – forse troppo – su quel concetto che in futuro verrà identificato tramite l’acronimo S.E.O. (Search Engine Optimization).
Ci vuole un nuovo algoritmo, o forse l’intervento umano. Google opta per un mix dei due contributi e acquista da Yahoo! – nel 2005 – il brevetto di TrustRank, un algoritmo di analisi dei link capace di distinguere le pagine spam da quelle dal contenuto “utile”. Il TrustRank viene affiancato al PageRank ed è, in parte, basato sul fattore umano, quello dei “quality raters” di Google. L’intervento umano è indiretto, non immediato, serve a correggere dei risultati non soddisfacenti secondo un gruppo di persone (che non sono dipendenti di Google). Il salto è compiuto. La matematica si fa un po’ da parte ed entra in gioco il cervello umano. I quality raters di Google forniscono valutazioni secondo precise linee guida, ma rappresentando utenti reali, esigenze informative reali e utilizzando un giudizio umano e non frutto di calcoli matematici o probabilistici. Tutto questo viene inserito nell’algoritmo attraverso dei parametri che possono essere sintetizzati ancora una volta in un acronimo: E.A.T. (Expertise, Authority, Trustworthiness) ovvero autorevolezza, competenza e affidabilità.
A questo punto dovrebbe essere chiaro che l’intervento umano, nel processo di creazione della S.E.R.P. (Search Engine Result Page), sebbene indiretto, svolge un suo ruolo molto importante. Quindi, qual è la procedura seguita dall’algoritmo di Google ogni volta che digitiamo una parola chiave nello spazio apposito del motore di ricerca? Prima di tutto occorre fare una doverosa precisazione sul significato della parola “algoritmo“. Oltre ad essere confusa davvero troppo spesso con il termine matematico “logaritmo” – che non ha nulla a che vedere con essa – è ritenuta, a torto, qualcosa di artificiale, di necessariamente complesso o che riguarda aspetti prettamente tecnologici. Si tratta invece di una parola che, spogliata semanticamente di alcune sue caratteristiche, potrebbe essere semplicemente un sinonimo di “procedura“. Sì, perché, in un certo senso, anche una ricetta per fare una torta, potrebbe essere vista come un esempio di algoritmo. Un manuale di istruzioni lo sarebbe ancora di più. Ma cos’è allora che rende un algoritmo una “procedura speciale”? Il fatto che sia costituita da un numero finito di istruzioni (quindi che abbia un termine), che queste siano univocamente interpretabili e che portino sempre agli stessi risultati a partire dalle stesse specifiche. In più deve avere carattere generale, cioè deve essere applicabile a tutti i problemi dell’insieme a cui si riferisce. Nel linguaggio giornalistico informatico, per quanto tecnico, il termine algoritmo viene ormai esteso a qualunque sequenza di istruzioni che possano essere date in pasto ad un automa.
I passi chiave di una ricerca su Google fino alla pagina dei risultati
L’algoritmo di Google, dopo aver indicizzato le pagine del nostro sito Internet sottoposto a scansione, procede in questo modo, successivamente alla digitazione di una frase/parola chiave:
- Ricerca della frase/parola chiave per corrispondenza esatta (matching)
- Ricerca della frase/parola chiave per corrispondenza semantica (meaning)
- Produzione di un elenco ordinato di pagine web utilizzando gli algoritmi (positioning)
Tutti questi passaggi sono rapidissimi perché la struttura di un motore di ricerca si avvale dei cosiddetti “datacenter”, capannoni giganteschi contenenti computer molto performanti, specializzati in singoli compiti (server). La ricerca vera e propria non avviene entrando in tutti i computer del mondo dove ci sono risorse condivise (le pagine web), ma solo in un esiguo numero di macchine concentrate in questi datacenter che possiedono una copia dei contenuti di tutti i siti indicizzati. In tutto il mondo, ad esempio, i datacenter di Google – compresi quelli dei suoi partner – sono “solo” 34. Le catene di Markov vengono esplorate non direttamente, ma attraverso una rappresentazione matriciale del grafo (che serve solo a noi come modello del web). In sostanza, la traduzione matematica dei processi dell’algoritmo garantisce la velocità che siamo abituati a riscontrare nell’ottenimento di una risposta da parte del motore di ricerca.
Google può decidere di scansionare il nostro sito e farne una copia nei server dei suoi datacenter sia spontaneamente, sia a seguito di una nostra segnalazione (tramite uno strumento che si chiama Google Search Console). Non tutte le pagine vengono indicizzate, ma solo quelle che, secondo i suoi parametri (tutti riscontrabili), non presentano problemi. Dopo l’indicizzazione, avviene – su richiesta degli utenti che effettuano ricerche attraverso Google – il posizionamento, frutto dell’intervento dell’algoritmo. Ogni posizionamento delle pagine è relativo ad una particolare frase o parola chiave. Non è ovviamente un posizionamento assoluto. Varia anche in funzione della località geografica da dove si fa partire la ricerca e in base alle varie informazioni personali che l’utente ha permesso al browser di conservare e di condividere.
Sono sempre gli algoritmi che producono l’elenco ordinato delle pagine dei risultati del motore di ricerca (S.E.R.P.), non c’è un ufficio con persone in carne e ossa preposto alla selezione dei contenuti che premia una fonte e ne scarta un’altra. L’intervento umano, come già spiegato, è limitato al feedback dei valutatori (search quality raters) e questo feedback è sempre tradotto in parametri compatibili con l’apprendimento automatico delle macchine (machine learning).