Il robots.txt è il file tramite il quale si forniscono istruzioni agli spider dei motori di ricerca riguardo ciò che possono e ciò che non possono fare all'interno del sito.

Queste istruzioni seguono il cosiddetto Robots Exclusion Protocol (REP), le cui specifiche sono disponibili sul sito www.robotstxt.org .

Installando Joomla troviamo già preesistente e compilato, nel percorso principale del sito, il file robots.txt.

Questo è il file presente in Joomla! 3.6.5:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Come funzionano le istruzioni nel file robots.txt?

Le istruzioni di base sono due:

  • User-agent => qui si indica a quale spider è riferita l’istruzione;
  • Disallow => qui si specifica allo spider quale cartella o file del sito non deve essere visto e indicizzato; serve di fatto ad impedirne l'accesso.

Nel file robots.txt di Joomla vediamo innanzitutto l’istruzione

User-agent: *

Con * (asterisco) si indica che le istruzione Disallow sottostanti riguardano tutti gli spider.

Se volessimo specificare che l'istruzione riguarda uno spider preciso, dovremmo scrivere il nome dello spider. Nel caso di Google lo spider principale è Googlebot.

Scriveremmo quindi:

User-agent: Googlebot

L'elenco dei nomi degli spider è disponibile su http://www.robotstxt.org/db.html.

Nell’elenco di Disallow del file robots.txt di Joomla vediamo per quali cartelle vietiamo l’accesso agli spider. Ad esempio la cartella administrator (contenente file e cartelle del backend), la cartella delle cache, quella dei componenti, moduli, plugin, ecc. Queste cartelle contengono file che non devono essere indicizzati e mostrati sulle SERP dei motori di ricerca.

Nelle versioni precedenti a Joomla! 3.4 sono presenti altre istruzioni, che vietano l’accesso degli spider e l’indicizzazione dei file presenti nelle cartelle images, media e templates.

Disallow: /images/
Disallow: /media/
Disallow: /templates/

È consigliabile consentire agli spider di accedere a queste cartelle, in particolare alla cartella images, dove sono presenti le immagini del sito. In caso contrario le immagini non potranno essere indicizzate, perdendo così un’importante occasione di visibilità sulle SERP di Google e degli altri motori di ricerca.

Se la versione di Joomla! utilizzata nell'installazione del sito era precedente alla 3.4 dobbiamo in questo caso procedere con la modifica manuale del file robots.txt, semplicemente andando ad elimire le tre istruzioni sopra indicate.