Criando o arquivo robots.txt
Olá, leitor do blog NuvemSEO.net, vejam como criar e configurar um arquivo robots.txt, responsável por permitir ou não o acesso à indexação por parte dos robôs, aos diretórios e arquivos de seu site.
Abaixo você vê o nome correto deste arquivo, o local onde você deve colocar ele, os dois comandos superbásicos* (*nova grafia) , e qual editor você pode usar para criá-lo.
Caso você não tenha nenhuma noção do é e para que serve um arquivo de robots.txt, leia este post aqui!
Continuando…
- Nome do arquivo – robots.txt
- Local de armazenamento – Raíz do servidor ( Na pasta principal do seu site )
- Comandos básicos usados – “User-agent” e “Disallow”
- Qual editor usar – bloco de notas, wordpad, etc.
No primeriro comando especifica-se para quais os crawlers valerá a configuração a seguir, ou se é para todos eles. Caso queira impedir a indexação apenas para o Googlebot, de uma determinada pasta, por exemplo, ficaria como no primeiro exemplo:
1º Exemplo
User-agent: Googlebot
Disallow: /nova-grafia-portuguesa/
2º Exemplo
User-agent: Slurp
Disallow:
3º Exemplo
User-agent: *
Disallow:
Explicando os comandos acima, o primeiro exemplo diz que o Googlebot não tem permissão para indexar a pasta “nova-grafia-portuguesa” e consequentemente, seus arquivos e subpastas.
Já no segundo exemplo, o Slurp do yahoo! está livre para indexar todo o conteudo de seu site ou blog.
No terceiro exemplo, temos um arquivo de “robots.txt” permitindo o acesso para todos os “robots“. O sinal de asterístico representa todos.
Dicas importantes:
*Se você quer proibir a indexação de uma determinada pasta do seu site ou blog, deve colocar as barras antes e depois do nome dela! Caso a deixe somente com a barra inicial, apenas os nomes de arquivos começados com o nome dela serão bloqueados.
* No terceiro exemplo, você percebe que não tem nenhuma barra após o comando “Disallow“, isso indica que nada será bloqueado. Caso tivesse uma barra após “Disallow” (não permitir) todo o diretório estaria bloqueado aos motores de busca, correto? ( Obs: havia um erro aqui neste parágrafo, sobre a barra do comando disallow, o erro foi revisado em 26/07/09!, me desculpe! )
* Não se esqueça que o nome do arquivo deve ser no plural robots.txt e não robot.txt no singular.
Os robôs dos buscadores que são chamados de crawlers, spiders, robots, etc, devem respeitar os valores configurados nos comandos do arquivo robots.txt.
Os principais spiders são:
Googlebot do Google, Slurp do yahoo! search, MSNbot do Live search.
Exite também bots para imagens como:
Googlebot-Image do Google, yahoo-mmcrawler do Yahoo e o PSbot do Live search.
Para você testar e validar seu arquivo de robots.txt vai aqui uma ferramenta que tenho usado nos últimos dias, lembrando que, após a validaçao, caso nao tenha erros no arquivo, o aplicativo lhe sugere um botão de validação para ser exibido na sua página, caso queira. Para validar clique no link abaixo e insira o endereço do seu site e arquivo txt:
http://tool.motoricerca.info/robots-checker.phtml?
Se quiser gerar um arquivo robots.txt facilmente pela web pode usar esse aqui do site marketingdebusca:
http://www.marketingdebusca.com.br/robots-txt/
Você escolhe as configurações e preenche os nomes das pastas à bloquear, caso existam, e clique em gerar!
Após aparecer o texto gerado, copie e cole no bloco de notas e salve-o como robots.txt. Em seguida, envie-o para seu diretório principal de ftp e pronto.
Fique na Paz!
Alvimar Olímpio.
———————————————————–
Leia mais sobre robots.txt:
Conheça os novos buscadores: Melzoo, Search Cube e Keyboardr
Em busca das melhores palavras-chave
———————————————————–
Em “Favoritos” abaixo escolha seu serviço favorito para compartilhar!
Tags:







