Conteudo duplicado e robots.txt para WordPress
Olá usuários do NuvemSEO, criar um arquivo robots.txt para seu WordPress não é bicho de tantas cabeças assim, mas o cuidado está mesmo nos pequeninos detalhes como a “barra” que simboliza diretórios, os simbolos que representam alguma coisa, enfim, confira um exemplo de um arquivo robots.txt que utilizo, voltado para WordPress, ele ajuda a evitar conteudo duplicado.

User-agent: *
#Não permitir site GrafiaPortuguesa em construção
Disallow: /grafia-portuguesa/
#Não permitir todos os arquivos nestes diretórios
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /img-blog/
Disallow: /about/
Disallow: /tags/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact/
Disallow: /manual/
Disallow: /phpmanual/
Disallow: /category/
Disallow: /categoria/
Disallow: /temp/
Disallow: /ultramail/
Disallow: /image-boobox/

* O “User-agent: *” diz aos crawlers que todos eles estão permitidos à indexar, o asterístico diz isso (*). Disallow quer dizer não permitir, então se conter nomes de pastas a seguir, com as barras delimitando corretamente, elas não serão indexadas.
* No exemplo vemos espaços entre as linhas, mas no seu arquivo robots.txt não deve conter tais espaços.
* No exemplo acima os nomes de pastas são os que uso atualmente, mas vai variar conforme os nomes das suas pastas, ok?
* Não se esqueçam de pôr a barra no final, pois se esquecer apenas os arquivos começados com a palavra anterior serão evitados. Por exemplo: “wp-includes”, apenas os arquivos começados com “wp” seriam ignorados. A barra indica todo o conteudo.
* Você já sabe que o robots.txt fica sempre na raíz do site, ou seja, no diretório principal do servidor.
* Não confunda robots.txt com robot.txt, o correto é no plural!
* A pasta “images” pode ser negada para os crawlers, pois a indexação das imagens ocorre no próprio artigo, pelas “tags Alt” e “title”, descrição e nome de arquivo. Fica frio!
* Teste aqui seu robots.txt depois de colocá-lo no servidor: Validação de robots.txt, entre com seu URL e dê ok, verá informações interessantes e possíveis errors.
Torna-se interessante não permitir várias pastas do WordPress devido a pelo menos dois fatores:
1 – Quanto mais conteudos irrelevantes o crawler (robot) tiver que indexar, mais tempo vai consumir, com isso pode causar perda de indexação de conteudo realmente relevante, já que eles tem um tempo estimado para varrer seus diretórios.
2 – Se os robôs (Crawlers) indexam tudo que veem na sua frente, logo estarão indexando conteudo duplicado, por causa dos recursos de (“categorias”, “tags”, etc.) que são utilizados nos blogs, especialmente no WordPress. E conteudo dulicado para o Google, por exemplo, é uma coisa dolorosa. O Google chega a punir sites por isso.
Conteudo duplicado
O assunto “conteudo duplicado” é coisa tão seria que recentemente, os três maiores motores (engines) de busca, Google, Yahoo! search e Live search (Microsoft) reuniram-se para criar uma nova meta tag para tentar solucionar o problema, a “Canonical tag“.
Para tentar contornar essa questão utilizamos agora a tag com o atributo rel=”canonical” como referência à URL preferencial, no meio de várias URL’s que apontam para o mesmo conteudo em um site. Veja exemplo do atributo “Rel” com o valor “Canonical“:
.<link rel=”canonical“ href=”http://dicamaster.blogspot.com/google-twitter-nuvemseo-guia-hardware” >.
É isso aí caro leitor, acompanhe o NuvemSEO assinando os nossos feeds, clique no símbolo RSS, no topo direito da página!
Obrigado pela visita!
Tags:






uso wordpress, onde coloco o rotots, sei que é no diretorio principal, mais qual é?
grato