Ottimizzare il robot.txt e deindicizzare categorie e tag cloud

Una delle cose più importanti per il posizionamento del proprio sito nei motori di ricerca è la struttura ed il modo in cui si dice a Google come scansionare i contenuti, ed è proprio qui che voglio soffermarmi. Google in presenza di contenuti interni (anche esterni) duplicati potrebbe penalizzare un intero sito. Io sono del parere che indicizzare le categorie e magari qualche tag potrebbe portare dei benefici in termini di visite, dato che vengono incluse più pagine del nostro sito nelle serp dei motori di ricerca. Non è sbagliato indicizzare categorie e tag, infatti il rischio di essere penalizzati è davvero basso, inoltre l’utilizzo del codice rel canonical permette di indicare a Google quali sono le pagine da indicizzare, facendogli capire che le pagine con contenuti duplicati sono dovute alla scelta di una determinata struttura del sito, e che quindi e tutto nella norma. Nonostante l’utilizzo del rel=canonical a causa dell’eccessivo numero di tag e categorie ho avuto dei problemi di indicizzazione per un mio blog. Google dava la priorità alle url delle categorie e dei tag cloud che scavalcavano nelle serp le url principali dei post, questo accadeva nonostante utilizzavo il plugin All in one seo pack con l’opzione spuntata del rel=”canonical”. In seguito ho scoperto che il problema era causato da qualche bug del plugin per wordpress all in one seo pack, credo che il problema si sarebbe risolto aggiornando il plugin alla versione più recente, intanto per una questione di sicurezza ho preferito intervenire direttamente sul mio sito deindicizzando tag e categorie.

Consigli per ottimizzare wordpress per l’indicizzazione nei motori di ricerca

Come fare per deindicizzare tag e categorie che creano contenuti duplicati nei siti wordpress?

Esistono diversi modi per deindicizzare i contenuti del proprio sito, il migliore a mio parere è quello di inserire un meta tag robots “NOINDEX,FOLLOW” (tra l’altro in WordPress questo meta tag può essere implementato semplicemente utilizzando un solo Plugin come ad esempio il sopracitato All in one seo pack). In questo modo le pagine duplicate non vengono indicizzate, ma continuano a  passare comunque un certo potere di raking (o pagerank).

Il metodo che sconsiglio è quello di creare un file robots.txt utilizzare il comando disallow, su siti abbastanza grossi potrebbe fare più danni che il resto, dato che è davvero un peccato eliminare tutte quelle pagine che comunque hanno una certa anzianità o pagerank.

A cosa serve il file robots.txt?

All’interno di questo file è possibile inserire in base alle proprie esigenze delle istruzioni di indicizzazione per i motori di ricerca.

Prima di tutto possiamo definire quali robot devono seguire le istruzioni, utilizzando un asterisco:

User-agent: *

Alcuni seo consigliano di bloccare l’indicizzazione dei File e delle Directory di WordPress:

Disallow: /wp-
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/

Mentre per indicizzare la Directory contenente i file associati ai Post (immagini, PDF, file di testo) è possibile inserire questa istruzione:

Allow: /wp-content/uploads/

Per evitare di creare dei contenuti duplicati è possibile bloccare alcuni elementi che potrebbero generare diverse url per ogni post:

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/

Inoltre viene consigliato di bloccare l’indicizzazione delle URL che includono querystring, ad esempio le url come http://tecnologiapura.net/?s=keyword. Per fare questo potete inserire nel file robot.txt la seguente istruzione:

Disallow: /*?*
Disallow: /*?

NOTA: Questa istruzione deve essere utilizzata solo se si utilizzano dei permalink ottimizzati per i motori di ricerca, tipo www.tecnologiapura.net/2012/01/09/nomepost/, mentre non dovete utilizzare questa istruzione se utilizzate la struttura predefinita di permalink di wordpress ad esempio www.tecnologiapura.net/?123 (altrimenti verrebbe bloccata l’indicizzazione di tutte le url del vostro sito).

Ecco invece l’istruzione che permette di deindicizzare i tag e le categorie:

Disallow: /tag/
Disallow: /category/

Insieme a questa istruzione è possibile segnalare ai Robots la presenza del file Sitemap.xml:

Sitemap: http://www.nomedominio.com/sitemap.xml

Perchè quando un blog è giovane è più facile incorrere in delle penalizzazioni?

Quando un sito / blog è giovane potrebbe avere più categorie o tag cloud rispetto al numero dei contenuti. Quando il numero delle pagine dei tag o delle categorie supera il 15% del numero complessivo delle pagine principali, il rischio di essere penalizzati aumenta.

Dove va inserito il file robot.txt?

Una volta creato il file robot.txt dovete inserirlo della root del vostro spazio hosting, ovvero dove sono presenti tutte le altre cartelle del vostro sito wordpress, per poter accedere nella root, potete utilizzare dei programmi ftp tipo filezilla.

Quando è necessario deindicizzare i tag e le categorie?

Premetto che gli archivi del mio sito non li ho mai indicizzati dato che non presentano delle keyword interessanti, mentre i tag e le categorie fino a quando non fanno danni possono aiutare ad incrementare il traffico del proprio sito.

– Se ogni vostro articolo viene associato a diversi tag cloud oltre ad essere associato alle categorie sarebbe il caso di deindicizzare tag è categorie, oppure avvolte è possibile risolvere il tutto deindicizzando solo i tag.

– Se invece i tag e le categorie vengono utilizzati più moderatamente e non causano problemi di indicizzazione, potete evitare di deindicizzarli.

Intanto se volete approfondire l’argomento ecco il link ufficiale di Google http://support.google.com/webmasters/bin/answer.py?hl=it&answer=156449&topic=2370588&ctx=topic