Olá usuários do NuvemSEO, criar um arquivo robots.txt para seu WordPress não é bicho de tantas cabeças assim, mas o cuidado está mesmo nos pequeninos detalhes como a “barra” que simboliza diretórios, os simbolos que representam alguma coisa, enfim, confira um exemplo de um arquivo robots.txt que utilizo, voltado para WordPress, ele ajuda a evitar conteudo duplicado.

User-agent: *
#Não permitir site GrafiaPortuguesa em construção
Disallow: /grafia-portuguesa/
#Não permitir todos os arquivos nestes diretórios
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /img-blog/
Disallow: /about/
Disallow: /tags/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact/
Disallow: /manual/
Disallow: /phpmanual/
Disallow: /category/
Disallow: /categoria/
Disallow: /temp/
Disallow: /ultramail/
Disallow: /image-boobox/

* O “User-agent: *” diz aos crawlers que todos eles estão permitidos à indexar, o asterístico diz isso (*). Disallow quer dizer não permitir, então se conter nomes de pastas a seguir, com as barras delimitando corretamente, elas não serão indexadas.
* No exemplo vemos espaços entre as linhas, mas no seu arquivo robots.txt não deve conter tais espaços.
* No exemplo acima os nomes de pastas são os que uso atualmente, mas vai variar conforme os nomes das suas pastas, ok?
* Não se esqueçam de pôr a barra no final, pois se esquecer apenas os arquivos começados com a palavra anterior serão evitados. Por exemplo: “wp-includes”, apenas os arquivos começados com “wp” seriam ignorados. A barra indica todo o conteudo.
* Você já sabe que o robots.txt fica sempre na raíz do site, ou seja, no diretório principal do servidor.
* Não confunda robots.txt com robot.txt, o correto é no plural!
* A pasta “images” pode ser negada para os crawlers, pois a indexação das imagens ocorre no próprio artigo, pelas “tags Alt” e “title”, descrição e nome de arquivo. Fica frio!
* Teste aqui seu robots.txt depois de colocá-lo no servidor: Validação de robots.txt, entre com seu URL e dê ok, verá informações interessantes e possíveis errors.
Torna-se interessante não permitir várias pastas do WordPress devido a pelo menos dois fatores:
1 – Quanto mais conteudos irrelevantes o crawler (robot) tiver que indexar, mais tempo vai consumir, com isso pode causar perda de indexação de conteudo realmente relevante, já que eles tem um tempo estimado para varrer seus diretórios.
2 – Se os robôs (Crawlers) indexam tudo que veem na sua frente, logo estarão indexando conteudo duplicado, por causa dos recursos de (“categorias”, “tags”, etc.) que são utilizados nos blogs, especialmente no WordPress. E conteudo dulicado para o Google, por exemplo, é uma coisa dolorosa. O Google chega a punir sites por isso.
Conteudo duplicado
O assunto “conteudo duplicado” é coisa tão seria que recentemente, os três maiores motores (engines) de busca, Google, Yahoo! search e Live search (Microsoft) reuniram-se para criar uma nova meta tag para tentar solucionar o problema, a “Canonical tag“.
Para tentar contornar essa questão utilizamos agora a tag com o atributo rel=”canonical” como referência à URL preferencial, no meio de várias URL’s que apontam para o mesmo conteudo em um site. Veja exemplo do atributo “Rel” com o valor “Canonical“:
.<link rel=”canonical“ href=”http://dicamaster.blogspot.com/google-twitter-nuvemseo-guia-hardware” >.
É isso aí caro leitor, acompanhe o NuvemSEO assinando os nossos feeds, clique no símbolo RSS, no topo direito da página!
Obrigado pela visita!
Tags:
5 Comentários recebido(s)
dezembro 19th, 2009 @1:22
Desculpa a ignorancia, mas estou começando agora
uso wordpress, onde coloco o rotots, sei que é no diretorio principal, mais qual é?
grato
dezembro 23rd, 2009 @15:09
Olá Augusto, tudo bem? vc usa o WordPress com dominio .org ou .com? .org é para quem tem um nome de domínio próprio(p/hospedagem paga) e .com usa parte do dominio do WP(hospedado no proprio WP).Caso vc tenha uma hospedagem paga, envia o arquivo robots para a pasta principal do servidor.(ex: se fosse no seu PC, c://robots.txt)no servidor é algo tipo www/ ou outro nome de diretorio principal que possa ter seu serviço de hospedagem. Preciso saber se usa hospedagem paga ou não! Assim tem como te instruir melhor!Aguardando…grato, Alvimar!
março 23rd, 2011 @9:05
Oi gostei muito do seu artigo, para evitar conteudo duplicado em meu site eu uso um plugin de Canonical, minha duvida é apenas instalar e ativar o plugin ou configurar alguma coisa, pois quando ativo o plugin todas as minhas páginas ficam com o
<link rel=”canonical“ href=”http:// isso está certo, o google vai continuar indexando essas páginas sem considerar ser um conteudo duplicado?
Obrigado
março 23rd, 2011 @15:04
Olá, Olívia, qual plugin você está usando para Canonical tag? Grato pelo comentário!
Pingback & Trackback
Participe comentando!