Pro

Robots.txt: O que é e os Erros que Você Não Deve Cometer

O robots.txt é um arquivo que carrega as regras de acesso ao seu site para diferentes robôs de busca conforme o protocolo convencionado na Internet. Ele é um desses elementos que é simples demais para carregar tanto poder. Digo isso tendo em vista o sitemap xml, por exemplo.

O sitemap.xml é bastante importante, porém, ele carrega uma certa complexidade para funcionar; ele tem a sintaxe correta a ser utilizada, é importante notificar o Google através do Search Console que o arquivo existe; o Search Console valida alguns pontos antes de usar o arquivo. E se algo der errado, seu site não sofre.

Já com o robots.txt isso é mais simples. Existe uma sintaxe também que é bem mais fácil de lidar do que a sintaxe do Sitemap XML; o Google vai automaticamente seguir o que tiver sido definido no arquivo; ele sempre está com o mesmo nome e no mesmo local para qualquer site (a raíz do site); e qualquer vírgula fora de lugar, pode atrapalhar o Google a indexar as páginas do site de forma preocupante.

Sintaxe: Como escrever um Robots.txt

A sintaxe do arquivo se apoia basicamente em duas diretivas: Allow (permitir) e Disallow (não permitir); e um vocativo, uma indicação sobre qual User-agent deve seguir essas regras. Com esses três parâmetros você escolhe o que um robô de busca pode, ou não pode, acessar no site. Por exemplo:

User-agent: *
Disallow: /

Tudo proibido. Para qualquer user-agent (o símbolo * indica que a diretiva se aplica a qualquer um), qualquer página no site que comece com /, o acesso não é permitido. Como todas as páginas em um site começam com /, tudo proibido.

Veja como é simples fazer com que nenhum robô de busca tenha permissão para acessar página nenhuma de um site. 2 linhas.

Grandes poderes; grandes responsabilidades. Cuidado ao manipular esse arquivo, pois ele tem outras artimanhas. Uma regra muito comum de se usar é não proibir nenhuma página. Perceba como isso é diferente de permitir qualquer uma. Não percebeu? Veja as regras:

Não proibir nenhuma página:

User-agent: *
Disallow: 

Como nenhum caminho foi indicado após o Disallow, automaticamente, nenhum caminho está proibido.

Permitir qualquer página:

User-agent: *
Allow: /

Novamente: veja como pequenos detalhes podem fazer toda a diferença entre o que o Google vai poder acessar no site, ou não.

Mais um detalhe: a URL indicada na diretiva segue a regra “tudo que começa com,” como você deve ter percebido. Assim, uma diretiva “Disallow: /pro” vai proibir o acesso a tudo que possa derivar daí:

  • /pro
  • /pro/
  • /profissional
  • /profissionais/

Outra vez: um pequeno detalhe que causar bastante transtorno.

Este tipo de situação, um radical de URL que é o mesmo de um diretório, precisa ser cuidado com a combinação das 2 diretivas. Por exemplo:

User-agent: *
Disallow: /pro
Allow: /pro/

Bloqueia tudo que começa com “/pro” e libera tudo que começa com /pro/, ou seja, o subdiretório. Nesse cenário, “/prova” fica bloqueado; mas “/pro/paginaX” fica liberado.

Vocativo: O user-agent

O user-agent é o vocativo, é a regra chamando pelo nome de quem quer acessar o site. O símbolo * implica qualquer user-agent, e isso também tem um porém: Quando você usa um user-agent específico, ele vai seguir apenas as diretivas estabelecidas para ele. Isso é algo que vejo muita gente se confundir. Mais um exemplo:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Nesse caso, todos user-agents estão proibidos de acessar o site, exceto o Googlebot, que pode navegar à vontade.

Mais um:

User-agent: *
Disallow: /pro
User-agent: Googlebot
Allow: /

Apenas o Google tem acesso a tudo; os demais, podem acessar tudo, a menos que comece com /pro.

E para testar as regras do Robots.txt?

O Search Console tem a ferramenta ideal. Minha sugestão é que você prepare um grupo de URLs do site que em hipótese alguma podem ter o acesso impedido. Aí, a cada mudança no Robots.txt, você testa as regras contra esse grupo de URLs fundamentais. Por mais que algo saia do lugar, as URLs principais continuarão sem problemas.

E para aprender mais sobre tudo isso?

Esses assuntos são explicados em detalhes nos vídeos dos cursos no Mestre Academy. Inclusive, na Academia de Marketing Digital eu tenho uma aula explicando as diferenças entre métodos para impedir o Google de indexar páginas indevidas.

E o robots.txt não é o melhor caminho 😉

Frank Marcel

Ver comentários

    • Fala, Edivaldo! Depende da prioridade de bloqueio. O mais seguro é fazer o bloqueio com usuário e senha; em seguida seria o uso da meta tag robots/noindex; terceira opção, seria o robots.txt. Como disse no post, na Academia de Marketing Digital eu tenho um vídeo que discute essa questão em mais detalhes. Vale a pena conferir.

  • Oi, Jaqueline!

    Simplesmente ocultar um texto literalmente, ou seja, apenas esconder dos mecanismos de pesquisa, pode levar a uma penalização do seu site, ou simplesmente impedir que ele apareça bem posicionado nos resultados de busca.

    Agora, se sua intenção é fazer algo como usar abas ou exibir o texto quando o usuário clica em alguma coisa, existem diferentes métodos usando jQuery que podem ser implementados facilmente.

    Procure por jquery fadein fadeout, por exemplo. É um efeito simples de implementar.

Compartilhar
Publicado por
Frank Marcel

Últimos posts

GA4: Visualizar Tráfego de Referência

Apesar de estar praticamente no último mês de co-existência de Universal Analytics e Google Analytics…

10 meses atrás

GA4: Frequência para Análise de Performance

Uma das dúvidas frequentes que recebo no meu curso de analytics, ou até mesmo via…

10 meses atrás

Monitorar Curtidas com o Analytics – Monitorar Vaidade?

Monitorar Curtidas no site com o Google Analytics: Isso realmente é uma métrica que vai…

7 anos atrás

23 Perguntas Para uma Contratação de SEO Acertada

Vai contratar um analista ou agência? Faça essas 23 perguntas para avaliar a qualidade da…

7 anos atrás

Analytics: 7 coisas que você deveria saber sobre Sessões, e 1 Desafio

Você acha que sabe tudo sobre a métrica visitas (ou sessões) no Google Analytics? Aposto…

7 anos atrás

Expressões Regulares no Google Analytics

O Google Analytics é uma ferramenta excelente para análise de tráfego e navegação de usuários…

7 anos atrás