Robots.txt: O que é e os Erros que Você Não Deve Cometer

robots txt

O robots.txt é um arquivo que carrega as regras de acesso ao seu site para diferentes robôs de busca conforme o protocolo convencionado na Internet. Ele é um desses elementos que é simples demais para carregar tanto poder. Digo isso tendo em vista o sitemap xml, por exemplo.

O sitemap.xml é bastante importante, porém, ele carrega uma certa complexidade para funcionar; ele tem a sintaxe correta a ser utilizada, é importante notificar o Google através do Search Console que o arquivo existe; o Search Console valida alguns pontos antes de usar o arquivo. E se algo der errado, seu site não sofre.

Já com o robots.txt isso é mais simples. Existe uma sintaxe também que é bem mais fácil de lidar do que a sintaxe do Sitemap XML; o Google vai automaticamente seguir o que tiver sido definido no arquivo; ele sempre está com o mesmo nome e no mesmo local para qualquer site (a raíz do site); e qualquer vírgula fora de lugar, pode atrapalhar o Google a indexar as páginas do site de forma preocupante.

Sintaxe: Como escrever um Robots.txt

A sintaxe do arquivo se apoia basicamente em duas diretivas: Allow (permitir) e Disallow (não permitir); e um vocativo, uma indicação sobre qual User-agent deve seguir essas regras. Com esses três parâmetros você escolhe o que um robô de busca pode, ou não pode, acessar no site. Por exemplo:

User-agent: *
Disallow: /

Tudo proibido. Para qualquer user-agent (o símbolo * indica que a diretiva se aplica a qualquer um), qualquer página no site que comece com /, o acesso não é permitido. Como todas as páginas em um site começam com /, tudo proibido.

Veja como é simples fazer com que nenhum robô de busca tenha permissão para acessar página nenhuma de um site. 2 linhas.

Grandes poderes; grandes responsabilidades. Cuidado ao manipular esse arquivo, pois ele tem outras artimanhas. Uma regra muito comum de se usar é não proibir nenhuma página. Perceba como isso é diferente de permitir qualquer uma. Não percebeu? Veja as regras:

Não proibir nenhuma página:

User-agent: *
Disallow: 

Como nenhum caminho foi indicado após o Disallow, automaticamente, nenhum caminho está proibido.

Permitir qualquer página:

User-agent: *
Allow: /

Novamente: veja como pequenos detalhes podem fazer toda a diferença entre o que o Google vai poder acessar no site, ou não.

Mais um detalhe: a URL indicada na diretiva segue a regra “tudo que começa com,” como você deve ter percebido. Assim, uma diretiva “Disallow: /pro” vai proibir o acesso a tudo que possa derivar daí:

  • /pro
  • /pro/
  • /profissional
  • /profissionais/

Outra vez: um pequeno detalhe que causar bastante transtorno.

Este tipo de situação, um radical de URL que é o mesmo de um diretório, precisa ser cuidado com a combinação das 2 diretivas. Por exemplo:

User-agent: *
Disallow: /pro
Allow: /pro/

Bloqueia tudo que começa com “/pro” e libera tudo que começa com /pro/, ou seja, o subdiretório. Nesse cenário, “/prova” fica bloqueado; mas “/pro/paginaX” fica liberado.

Vocativo: O user-agent

O user-agent é o vocativo, é a regra chamando pelo nome de quem quer acessar o site. O símbolo * implica qualquer user-agent, e isso também tem um porém: Quando você usa um user-agent específico, ele vai seguir apenas as diretivas estabelecidas para ele. Isso é algo que vejo muita gente se confundir. Mais um exemplo:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Nesse caso, todos user-agents estão proibidos de acessar o site, exceto o Googlebot, que pode navegar à vontade.

Mais um:

User-agent: *
Disallow: /pro
User-agent: Googlebot
Allow: /

Apenas o Google tem acesso a tudo; os demais, podem acessar tudo, a menos que comece com /pro.

E para testar as regras do Robots.txt?

O Search Console tem a ferramenta ideal. Minha sugestão é que você prepare um grupo de URLs do site que em hipótese alguma podem ter o acesso impedido. Aí, a cada mudança no Robots.txt, você testa as regras contra esse grupo de URLs fundamentais. Por mais que algo saia do lugar, as URLs principais continuarão sem problemas.

E para aprender mais sobre tudo isso?

Esses assuntos são explicados em detalhes nos vídeos dos cursos no Mestre Academy. Inclusive, na Academia de Marketing Digital eu tenho uma aula explicando as diferenças entre métodos para impedir o Google de indexar páginas indevidas.

E o robots.txt não é o melhor caminho 😉

Leitura recomendada:

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *