Olá, leitor do blog NuvemSEO, vejam como criar e configurar um arquivo robots.txt, responsável por permitir ou não o acesso à indexação por parte dos robôs, aos diretórios e arquivos de seu site.
Abaixo você vê o nome correto deste arquivo, o local onde você deve colocar ele, os dois comandos superbásicos, e qual editor você pode usar para criá-lo.
Caso você não tenha nenhuma noção do que é e para que serve um arquivo de robots.txt, leia este post aqui!
Continuando…
Nome do arquivo: robots.txt – abra o bloco de notas, Wordpad, etc., e crie um arquivo com nome de robots.txt e salve-o.
Comandos básicos usados: ”User-agent” e “Disallow” – Mais abaixo você verá como utilizar esses dois comandos básico para a criação do seu primeiro arquivo robots.txt.
Local de armazenamento: Raíz do servidor ( Na pasta principal do seu site )
Exemplo: http://www.seusite.com/robots.txt
Quando tiver pronto você o envia para o local adequado no seu servidor de hospedagem.
Comandos básicos
No primeiro exemplo abaixo, em ‘user-agent’, especifica-se para quais os crawlers valerá a configuração a seguir, ou se é para todos eles. Caso queira impedir a indexação apenas para o Googlebot, de uma determinada pasta, por exemplo, ficaria assim:
1º Exemplo
User-agent: Googlebot
Disallow: /nova-grafia-portuguesa/
Explicando os comandos acima, o primeiro exemplo diz que o Googlebot não tem permissão(Disallow) para indexar a pasta “nova-grafia-portuguesa” e consequentemente, seus arquivos e subpastas.
2º Exemplo
User-agent: Slurp
Disallow:
Já aqui neste segundo exemplo, o ‘Slurp’, nome do robô de busca do Yahoo!, está livre para indexar todo o conteudo do site ou blog. Como pode ver, após o comando ‘Disallow’ não há nada especificado. Nem uma pasta ou arquivo, nem mesmo a barra, que indica todas as pastas do diretório.
3º Exemplo
User-agent: *
Disallow:
Neste terceiro exemplo, temos um arquivo de “robots.txt” permitindo o acesso para todos os “robots“. O sinal de ‘Asterístico’ representa todos ou tudo. No caso citado, o asterístico simboliza todos os ‘robots’ (crawlers) dos buscadores. No caso de dúvidas sobre o que permitir ou não, utilize apenas isso no seu robots.txt. Assim nada será bloqueado e tudo será indexado.
4º Exemplo
Para bloquear determinadas pastas e arquivos para todos os buscadores, basta você escrever este último exemplo (3º), e após o comando Disallow você especifica o caminho das pastas que deseja bloquear.
User-agent: *
Disallow: /private/
Disallow: /imagens-secretas/
Dicas importantes:
*Se você quer proibir a indexação de uma determinada pasta do seu site ou blog, deve colocar as barras antes e depois do nome dela! Caso a deixe somente com a barra inicial, apenas os nomes de arquivos começados com o nome dela serão bloqueados.
* No terceiro exemplo, você percebe que não tem nenhuma barra após o comando “Disallow“, isso indica que nada será bloqueado. Caso tivesse uma barra após “Disallow” (não permitir) todo o diretório estaria bloqueado aos motores de busca, correto? ( Obs: havia um erro aqui neste parágrafo, sobre a barra do comando disallow, o erro foi revisado em 26/07/09!, me desculpe! )
* Não se esqueça que o nome do arquivo deve ser no plural robots.txt e não robot.txt no singular.
Os robôs dos buscadores que são chamados de crawlers, spiders, robots, etc, devem respeitar os valores configurados nos comandos do arquivo robots.txt.
Os principais spiders são:
Googlebot do Google, Slurp do Yahoo! search, MSNbot do Live search.
Exite também bots para imagens como:
Googlebot-Image do Google, Yahoo-MMCrawler do Yahoo e o PSbot do Live search.
Para você testar e validar seu arquivo de robots.txt vai aqui uma ferramenta que tenho usado nos últimos dias, lembrando que, após a validaçao, caso nao tenha erros no arquivo, o aplicativo lhe sugere um botão de validação para ser exibido na sua página, caso queira. Para validar clique no link abaixo e insira o endereço do seu site e arquivo txt:
http://tool.motoricerca.info/robots-checker.phtml?
Se quiser gerar um arquivo robots.txt facilmente pela web pode usar esse aqui do site marketingdebusca:
http://www.marketingdebusca.com.br/robots-txt/
Você escolhe as configurações e preenche os nomes das pastas à bloquear, caso existam, e clique em gerar!
Após aparecer o texto gerado, copie e cole no bloco de notas e salve-o como robots.txt. Em seguida, envie-o para seu diretório principal de ftp e pronto.
4 Comentários recebido(s)
fevereiro 12th, 2011 @19:54
Muito bom a matéria, parabéns.
Não podemos esquecer que os rôbos podem ajudar na publicação do seu site.
fevereiro 14th, 2011 @11:51
Olá, Everton, muito obrigado heim, pelo seu comentário!
novembro 15th, 2011 @16:18
Boa Tarde,
Excelente artigo.
Uma dúvida que persiste. Posso criar o robots.txt com base nos diretórios, pastas e subpastas do localhost?
Por exemplo, em meu computador o site encontra-se +/- assim:
c:\wamp\www\nome_do_site\index.html
c:\wamp\www\nome_do_site\imgs\bg\
c:\wamp\www\nome_do_site\imgs\fdo\
c:\wamp\www\nome_do_site\css\
c:\wamp\www\nome_do_site\js\
c:\wamp\www\nome_do_site\páginas\1.html
c:\wamp\www\nome_do_site\páginas\2.html
c:\wamp\www\nome_do_site\páginas\3.html
c:\wamp\www\nome_do_site\páginas\iframe\1.html
c:\wamp\www\nome_do_site\páginas\iframe\2.html
posso utilizar
User-agent: *
Disallow: /imgs/
Disallow: /css/
Disallow: /js/
Disallow: /páginas/iframe/
allow: /páginas
Ou obrigatoriamente tenho que usar o path do servidor de hospedagem?
novembro 16th, 2011 @16:07
Olá, André Luiz! Você está no caso servindo conteudo paara direto do seu PC como servidor? Creio que seja da mesma forma usada normalmente na web e seria até melhor, caso mude de servidor o camiinho não será afetado. A forma exemplificada no final estaria correta, pois o bot tomaria como base o index padrão né. Obrigado pelo comentário!
Participe comentando!