In questo tutorial mostriamo come creare il file robots.txt con lo strumento online disponibile su robotsgenerator.com.

Generare file robots.txt

Anche in questo caso troviamo quattro elementi:
1) Robots: qui impostiamo l'accesso predefinito degli spider (lasciamo Allow all robots per consentire l'accesso a tutti gli spider; selezioniamo Disallow all robots, invece, per vietare l'accesso al sito a tutti gli spider);
2) Sitemap: qui aggiungiamo eventualmente la Sitemap, in modo da farla comparire nel file robots.txt (questo ci può garantire una scansione più completa da parte dello spider);
3) Action: qui scriviamo le istruzioni specifiche del file robots.txt;
4) Your Robots.txt File: all'interno di questo campo verrà mostrato il file robots.txt che potremo utilizzare per il sito.

Per scrivere il file robots.txt è preferibile lasciare “Allow all robots” nella sezione Robots, in modo da permettere a tutti gli spider di accedere al sito. Tramite istruzioni più specifiche vieteremo l'accesso a determinate cartelle o file.
Vediamo come inserire queste istruzioni.

Generare file robots.txt

Lo strumento si divide in tre elementi:
1) Action: selezioniamo Disallow o Allow (vietare o permettere) a seconda del tipo di istruzione che vogliamo dare agli spider;
2) Robot: definiamo a quale spider è diretta l'istruzione (“All” sta per tutti gli spider)
3) Files o directories: indichiamo quale file o cartella del sito è oggetto delle istruzioni robots.

Riprendiamo l'esempio già utilizzato per la lezione Creare il file robots.txt (1).
Decidiamo di vietare l'accesso alla cartella /administrator/ del sito (http://www.miosito.it/administrator) a tutti gli spider dei motori di ricerca.

Per farlo, selezioniamo “Disallow” (in questo modo vietiamo l'accesso) per tutti gli spider (“All”) e indichiamo la cartella /administrator/, che è oggetto del divieto (ricordiamo di inserire prima il segno /). Cliccando su “Add” l'istruzione viene inserita nel file robots.txt.

File robots.txt generator
Ipotizziamo adesso di permettere l'accesso dello spider Googlebot-Image al file /administrator/immagine.jpg del sito (http://www.miosito.it/administrato/immagine.jpg). In questo modo solo Googlebot-Image potrà accedere a questo file, mentre gli altri spider dovranno rispettare il divieto impostato con l'istruzione precedente (Disallow: /administrator/).

Impostiamo l'istruzione “Allow”, riferendolo al robot Googlebot-Image, e scriviamo il percorso corretto dell'immagine. Clicchiamo “Add” e questa regola viene inserita nel file robots.txt.

Generatore file robots.txt

Una volta terminata la scrittura delle istruzioni robots possiamo copiare il contenuto e incollarlo in un file nel formato txt, codifica UTF-8 e nome “robots.txt”, che inseriremo nel percorso principale del sito. L'URL sarà così: http://www.miosito.it/robots.txt.


Non valida!