Robots.txt: O que é e os Erros que Você Não Deve Cometer

05/01/2017

robots txt

O robots.txt é um arquivo que carrega as regras de acesso ao seu site para diferentes robôs de busca conforme o protocolo convencionado na Internet. Ele é um desses elementos que é simples demais para carregar tanto poder. Digo isso tendo em vista o sitemap xml, por exemplo.

O sitemap.xml é bastante importante, porém, ele carrega uma certa complexidade para funcionar; ele tem a sintaxe correta a ser utilizada, é importante notificar o Google através do Search Console que o arquivo existe; o Search Console valida alguns pontos antes de usar o arquivo. E se algo der errado, seu site não sofre.

Já com o robots.txt isso é mais simples. Existe uma sintaxe também que é bem mais fácil de lidar do que a sintaxe do Sitemap XML; o Google vai automaticamente seguir o que tiver sido definido no arquivo; ele sempre está com o mesmo nome e no mesmo local para qualquer site (a raíz do site); e qualquer vírgula fora de lugar, pode atrapalhar o Google a indexar as páginas do site de forma preocupante.

Sintaxe: Como escrever um Robots.txt

A sintaxe do arquivo se apoia basicamente em duas diretivas: Allow (permitir) e Disallow (não permitir); e um vocativo, uma indicação sobre qual User-agent deve seguir essas regras. Com esses três parâmetros você escolhe o que um robô de busca pode, ou não pode, acessar no site. Por exemplo:

User-agent: *
Disallow: /

Tudo proibido. Para qualquer user-agent (o símbolo * indica que a diretiva se aplica a qualquer um), qualquer página no site que comece com /, o acesso não é permitido. Como todas as páginas em um site começam com /, tudo proibido.

Veja como é simples fazer com que nenhum robô de busca tenha permissão para acessar página nenhuma de um site. 2 linhas.

Grandes poderes; grandes responsabilidades. Cuidado ao manipular esse arquivo, pois ele tem outras artimanhas. Uma regra muito comum de se usar é não proibir nenhuma página. Perceba como isso é diferente de permitir qualquer uma. Não percebeu? Veja as regras:

Não proibir nenhuma página:

User-agent: *
Disallow:

Como nenhum caminho foi indicado após o Disallow, automaticamente, nenhum caminho está proibido.

Permitir qualquer página:

User-agent: *
Allow: /

Novamente: veja como pequenos detalhes podem fazer toda a diferença entre o que o Google vai poder acessar no site, ou não.

Mais um detalhe: a URL indicada na diretiva segue a regra “tudo que começa com,” como você deve ter percebido. Assim, uma diretiva “Disallow: /pro” vai proibir o acesso a tudo que possa derivar daí:

/pro
/pro/
/profissional
/profissionais/

Outra vez: um pequeno detalhe que causar bastante transtorno.

Este tipo de situação, um radical de URL que é o mesmo de um diretório, precisa ser cuidado com a combinação das 2 diretivas. Por exemplo:

User-agent: *
Disallow: /pro
Allow: /pro/

Bloqueia tudo que começa com “/pro” e libera tudo que começa com /pro/, ou seja, o subdiretório. Nesse cenário, “/prova” fica bloqueado; mas “/pro/paginaX” fica liberado.

Vocativo: O user-agent

O user-agent é o vocativo, é a regra chamando pelo nome de quem quer acessar o site. O símbolo * implica qualquer user-agent, e isso também tem um porém: Quando você usa um user-agent específico, ele vai seguir apenas as diretivas estabelecidas para ele. Isso é algo que vejo muita gente se confundir. Mais um exemplo:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Nesse caso, todos user-agents estão proibidos de acessar o site, exceto o Googlebot, que pode navegar à vontade.

Mais um:

User-agent: *
Disallow: /pro
User-agent: Googlebot
Allow: /

Apenas o Google tem acesso a tudo; os demais, podem acessar tudo, a menos que comece com /pro.

E para testar as regras do Robots.txt?

O Search Console tem a ferramenta ideal. Minha sugestão é que você prepare um grupo de URLs do site que em hipótese alguma podem ter o acesso impedido. Aí, a cada mudança no Robots.txt, você testa as regras contra esse grupo de URLs fundamentais. Por mais que algo saia do lugar, as URLs principais continuarão sem problemas.

E para aprender mais sobre tudo isso?

Esses assuntos eu explico em detalhes nos meus cursos na Overdrive Marketing.

Frank Marcel

Continue lendo:

GA4: Visualizar Tráfego de Referência

Apesar de estar praticamente no último mês de co-existência de… (ir para o post)
GA4: Frequência para Análise de Performance

Uma das dúvidas frequentes que recebo no meu curso de… (ir para o post)
Como a Busca por Voz Influencia Ações de SEO?

Os fatores de posicionamento no Google não mudam para a… (ir para o post)
Monitorar Curtidas com o Analytics – Monitorar Vaidade?

Monitorar Curtidas no site com o Google Analytics: Isso realmente… (ir para o post)
23 Perguntas Para uma Contratação de SEO Acertada

Vai contratar um analista ou agência? Faça essas 23 perguntas… (ir para o post)
Analytics: 7 coisas que você deveria saber sobre Sessões, e 1 Desafio

Você acha que sabe tudo sobre a métrica visitas (ou… (ir para o post)

Entre na conversa:

4 respostas para “Robots.txt: O que é e os Erros que Você Não Deve Cometer”

edivaldo joao

18/02/2019

como bloquear que um subdominio seja indexado?

Responder
1. Frank Marcel
  
  18/02/2019
  
  Fala, Edivaldo! Depende da prioridade de bloqueio. O mais seguro é fazer o bloqueio com usuário e senha; em seguida seria o uso da meta tag robots/noindex; terceira opção, seria o robots.txt. Como disse no post, na Academia de Marketing Digital eu tenho um vídeo que discute essa questão em mais detalhes. Vale a pena conferir.
  
  Responder
JAQUELINE

23/02/2022

olá,
como posso ocultar um texto dos mecanismos de pesquisa?

Responder
Frank Marcel

08/07/2022

Oi, Jaqueline!

Simplesmente ocultar um texto literalmente, ou seja, apenas esconder dos mecanismos de pesquisa, pode levar a uma penalização do seu site, ou simplesmente impedir que ele apareça bem posicionado nos resultados de busca.

Agora, se sua intenção é fazer algo como usar abas ou exibir o texto quando o usuário clica em alguma coisa, existem diferentes métodos usando jQuery que podem ser implementados facilmente.

Procure por jquery fadein fadeout, por exemplo. É um efeito simples de implementar.

Responder

Robots.txt: O que é e os Erros que Você Não Deve Cometer

Sintaxe: Como escrever um Robots.txt

Vocativo: O user-agent

E para testar as regras do Robots.txt?

E para aprender mais sobre tudo isso?

Continue lendo:

GA4: Visualizar Tráfego de Referência

GA4: Frequência para Análise de Performance

Como a Busca por Voz Influencia Ações de SEO?

Monitorar Curtidas com o Analytics – Monitorar Vaidade?

23 Perguntas Para uma Contratação de SEO Acertada

Analytics: 7 coisas que você deveria saber sobre Sessões, e 1 Desafio

Entre na conversa:

4 respostas para “Robots.txt: O que é e os Erros que Você Não Deve Cometer”

Deixe um comentário Cancelar resposta

Mais no blog:

Expressões Regulares no Google Analytics

8 Recursos do Google Analytics que Você Precisa Usar

Robots.txt: O que é e os Erros que Você Não Deve Cometer

Curso para tirar o Certificado do Google Analytics – GAIQ

Impressões no Google Search Console: Como é calculada?

Tipos de arquivo indexados pelo Google e como pesquisar

Glossario de SEO, Google, Marketing e coisas Web

Vídeo no Youtube ou Vídeo no Facebook?

Otimização de URL, Re-escrita e Redirecionamento

Códigos de Resposta HTTP do Servidor e SEO

Fazer um Blog com foco em SEO: WordPress ou Blogger?

Páginas Indo e Voltando no Google – Google Dance?

Relevância de Keywords no Site – Ordem dos Fatores Importa?

Quanto tempo para ter resultado com o Google AdWords?