Come lavorano i motori di ricerca?
Quando viene digitata una query, cioè una richiesta all'interno della barra di ricerca, all'utente viene restituita nel giro di una frazione di secondo una pagina con i risultati corrispondenti, in un elenco che può essere costituito anche da decine o centinaia di milioni di documenti Web.
Come fanno i motori di ricerca a restituire all'utente questa gigantesca quantità di risultati per la sua ricerca, in tempi così rapidi, e fornendo una classificazione (un ranking) in base all'importanza o rilevanza dei singoli documenti?
Il lavoro dei motori di ricerca si suddivide in tre fasi principali:
- scansione
- indicizzazione
- ranking e creazione della SERP
La scansione (o crawling)
Un primo momento fondamentale per il motore di ricerca è il lavoro di scansione degli spider, chiamati anche crawler o robot. Si tratta di software appositi che esaminano i documenti Web e passano da una pagina all'altra seguendo i link contenuti in esse.
Quando lo spider scansiona un documento, ad esempio una pagina classica di un sito, lo fa con occhi diversi da quello di un umano: la pagina si presenta essenzialmente nel suo codice HTML.
Qui si concentra su alcune parti specifiche: il <title> di una pagina, la meta description, elementi come le ancore dei link, gli alt text delle immagini, le parti in grassetto o in corsivo del testo. Tra questi elementi va alla ricerca di parole chiave ricorrenti e rilevanti che saranno utili nella fase di indicizzazione.
Il lavoro di scansione dello spider serve a raccogliere i documenti (pagine, immagini, video) e portarli all'interno di un immenso database, che andrà a formare gli indici. I documenti raccolti dallo spider rappresentano pertanto delle copie cache del documento originale.
L'indicizzazione
La fase dell'indicizzazione è una fase fondamentale che consente di mettere ordine in questa quantità gigantesca di documenti Web.
Lo fa tramite algoritmi specifici, che dividono le pagine per parole chiave, tematiche o categorie ed una serie di altri parametri che permettono una prima classificazione.
Possiamo immaginare questo indice come una sorta di immensa biblioteca ordinata in base ad una serie di criteri, a partire ovviamente dalle parole chiave.
Questo significa che quando noi effettuiamo una ricerca il motore di ricerca va a consultare i documenti non nel Web, ma all'interno dei propri database (all'interno della propria “biblioteca”) dove sono presenti le copie dei documenti, già scansionati e ordinati. Questo rende il lavoro del motore di ricerca molto più rapido.
Ranking e creazione della SERP
Quando viene effettuata una richiesta da parte dell'utente con la creazione di una query, il motore di ricerca tramite algoritmi sempre più raffinati preleva dagli indici i documenti più rilevanti (più vicini alla query) e li ordina in una sorta di classifica. Nel caso di Google, per definire questo ranking, prende in considerazione oltre 200 fattori.
La classifica finale è la cosiddetta SERP, la pagina con i risultati del motore di ricerca visibile all'utente.
Google, in particolare, è in grado di fornire delle SERP personalizzate, cioè ritagliate sugli interessi degli utenti, sulla sua attività sociale (tramite i social network), sul luogo in cui vive, sulla lingua parlata. Questo significa che per la stessa query non ci sarà un'unica SERP, ma tante SERP diverse, a seconda delle caratteristiche dell'utente.
Questo avviene grazie ad una sorta di rimescolamento del ranking.
Un riepilogo grafico del funzionamento della ricerca di Google è disponibile sul sito di Google Inside Search.