La guida al file robots.txt

La guida per impostare il robots.txt

Ovvero come ottimizzare l’uso di questo file per la SEO, sfruttando al meglio i suoi principali comandi, ed impostandolo in maniera corretta con WordPress e Joomla.

robots txt

 

Cos’è il file robots.txt e a cosa serve

Il file robots.txt è un file di testo che serve ad indicare agli spider dei motori di ricerca, quali file o cartelle di un sito non sono accessibili per l’indicizzazione.
Il file utilizza lo standard Robots Exclusion e contiene l’insieme dei comandi che i webmaster impartiscono ai crawler, chiedendo di escludere dall’analisi alcune componenti o sezioni di un sito web (pagine o directory). Serve quindi ad evitare che elementi superflui, poco importanti o addirittura riservati vengano indicizzati.

Per crearlo è sufficiente un comune text-editor, come ad esempio Notepad++. È altresì possibile generare automaticamente il file utilizzando uno dei numerosi tool-on line, io vi consiglio quello di SeoBook o RobotsGenerator.

Il file robots.txt deve essere inserito nella root del sito, vale a dire nella directory principale in cui è presente sul web server il codice del sito web, per ottenere un indirizzo simile a quello dell’esempio:

http://www.sitointernet.it/robots.txt

Ad oggi il file robots.txt è presente quasi ovunque di default, ma richiede comunque di essere impostato correttamente.

I comandi del robots.txt

Questo file contiene essenzialmente due comandi: “User-agent” e “Disallow“.

Con il comando “User-agent” si indica il nome del robot (ad esempio googlebot per Google) a cui applicare le regole contenute nel file.

La sintassi corretta da riportare è:

User-agent: nome_dello_spider

Potete trovare una lista completa di tutti i crawler nel sito robotstxt.org

Il comando “Disallow”, che in italiano significa letteralmente “non consentire”, serve invece ad indicare i file e/o le cartelle a cui non è consentito l’accesso da parte dello spider indicato nel campo User-agent. La direttiva Disallow deve essere ripetuta per ogni risorsa che non si vuole far scansionare dallo spider. L’indicazione di file e cartelle deve avvenire sempre riportando correttamente il percorso per raggiungerli.

In questo caso, la sintassi è

Disallow: nome_del_file_o_directory

A livello generale i valori principali da attribuire ai campi sopra indicati sono i seguenti:

In User-agent o si riporta un asterisco “*” per impartire la direttiva a qualunque spider, oppure si deve specificare il nome dello spider al quale sono rivolte le regole.

In Disallow, invece, o si usa il carattere slash “/” per indicare l’inacessibilità dell’intero sito web da parte dello spider nominato nello user agent o si deve specificare il percorso di ogni risorsa a cui si vuole negare l’accesso.
Se si lascia vuoto il campo viene consentito l’accesso a tutti i contenuti del sito.

Ecco alcuni esempi:

Blocca tutto il sito a tutti gli spider
User-agent: *
Disallow: /

Bloccare uno specifico spider

User-agent: NomeBot

Disallow: /

Consentire a tutti gli spider di indicizzare tutto il sito
User-agent: *
Disallow:

Autorizzare uno specifico spider

User-agent: NomeBotAutorizzato

Disallow:

User-agent: *

Disallow: /

 

Bloccare tutti gli spider dallo scansionare una specifica directory o file

User-agent: *

Disallow: /cartella/

Disallow: /file.html

 

Si può utilizzare anche la regola Allow, letteralmente “consenti”, per riportare “alla luce” singoli file, contenuti all’interno di una cartella bloccata con il comando Disallow. La direttiva Allow deve essere sempre posta sopra al campo Disallow. È importante sapere infatti che Google e gli altri motori di ricerca danno la precedenza al valore del campo “Allow” rispetto al valore del campo “Disallow”. È quindi fondamentale evitare combinazioni che possono essere interpretate come contradditorie dai motori di ricerca.

Robots.txt e la sitemap

Il robots.txt e la sitemap costituiscono i due elementi essenziali della tecnica SEO per indicizzare in modo ottimale i siti web. I file sitemap.xml e robots.txt sono complementari: il primo suggerisce gli elementi da indicizzare, il secondo gli elementi o le aree da evitare.

Tecnicamente le sitemap sono dei file xml creati e strutturati usando uno schema definito all’interno del protocollo delle sitemap (che trovi su Sitemaps.org) condiviso quasi universalmente da tutti i principali motori di ricerca, in particolare Google, Yahoo e Bing.

Le sitemap forniscono ai crawler indicazioni sulla struttura del sito, sulla sua composizione in termini di contenuti e le informazioni relative a data di modifica, frequenza di aggiornamento dei contenuti e valore prioritario delle pagine.

Sul file robots.txt può essere riportato l’URL della Sitemap del sito come riportato nella seguente stringa di esempio:

Sitemap: http://www.example.com/path/sitemap.xml

Robots.txt secondo Google

Google invita a non servirsi del file robots.txt per nascondere le pagine web dai risultati della ricerca. Dovreste bloccare l’indicizzazione solamente di pagine poco utili o simili ad altre (ad esempio pagine di test)

Altri siti infatti potrebbero puntare su una o più risorse specificate nel campo “Disallow” del robots.txt limitando di fatto l’efficacia dello stesso. Per impedire l’indicizzazione indesiderata di alcune pagine, Google propone l’utilizzo di password di protezione, direttive o tag noindex.

Cio’ che è importante è che quello che bloccate non comprometta la comprensione della pagina da parte del crawler di Google. Consiglia per esempio di non bloccare mai file css, java e immagini in modo da ottenere rendering e indicizzazione ottimali.

Suggerisco di effettuare un test con lo strumento Visualizza come Google che trovate sotto la voce Scansione nella Search Console.

Come impostare il robots.txt per WordPress e Joomla

Anche nel caso dei CMS WordPress e Joomla il file robots.txt va generato con le indicazioni sopra riportate e caricato sul sito tramite un programma FTP, ad esempio Filezilla.

Per WordPress (se non già presente di default) va aggiunto nella directory che contiene le tre cartelle principali (wp-content, wp-admin, wp-includes) e altri file come index.php e wp-config.php.

Per quanto riguarda WordPress, suggerisco di non bloccare nessuna cartella, in quanto non ci sono motivi particolari per farlo. Sopratutto lasciate libero accesso alle cartelle /wp-include/ e /wp-content/, in quanto sono quelle che conentono ai motori di ricerca di effettuare il rendering completo delle pagine.

Nemmeno la directory /wp-admin/ andrebbe bloccata, in quanto è già protetta da password e pertanto impossibile da indicizzare.

In Joomla il file Robots.txt già presente di default nelle ultime releases può essere personalizzato per una migliore ricerca sui motori. Nel file di default, ad esempio, l’indicizzazione delle immagini è bloccata e pertanto non verranno indicizzate ne da Google ne da gli altri spider, e non saranno presenti neanche in Google Images. Per ovviare a tale problema basta rimuovere dal file la direttiva

Disallow: /images/

Questo è solo un esempio di personalizzazione. Il file Robots.txt va sempre settato con cautela.

In caso di dubbi rivolgersi a dei professionisti per evitare problemi di indicizzazione.

Un robots.txt ideale potrebbe essere questo:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/