Frankmarcel.com

Tipos de arquivo indexados pelo Google e como pesquisar

Este post é para compor a seção curiosidades, nos cursos do Mestre Academy e na consultoria, é muito comum surgirem dúvidas como:

A resposta é sim para todas as anteriores. E abaixo está a lista oficial de tipos de arquivos indexados pelo Google

Tipos de arquivo indexados pelo Google

Se você achar outros tipos de arquivo não listados acima, pode me enviar e eu completo a lista.

Ao mesmo tempo que é muito legal que o Google indexe esses diferentes tipos de arquivo, isso também pode representar um problema se você usa um servidor e um diretório aberto para hospedar os arquivos da sua empresa que não devem ficar abertos ao público.

Digamos que você tenha algumas planilhas ou regimento interno em PDF que não tem motivo para ficar disponível no Google. Não é que o Google vá invadir o servidor do seu site em busca de arquivos, porém, o processo dele de coleta de URLs para rastreamento e indexação é bem agressivo, e se, por acidente, um arquivo desses tiver a URL exposta em alguma página ou documento já coletado pelo Google, o arquivo interno pode ir parar nas buscas.

Por outro lado, para arquivos em formatos específico que você queira encontrar, você pode usar o tipo do arquivo como um filtro na busca.

Busca por tipo de arquivo no Google

O Google tem um operador especial para buscas que permite especificar o tipo de arquivo que você está buscando. O operador é o filetype e o uso é feito assim: filetype:[tipo do arquivo], por exemplo: “filetype:pdf termo de busca” – você usa isso no Google sem as àspas, obviamente.

Essa pesquisa pode retornar arquivos que são PDF mas não tem a extensão “.pdf” – isso pode acontecer porque o Google identificou ou entendeu que o arquivo é do formato PDF. Todo arquivo tem um cabeçalho que o identifica, que é o que realmente importa, e não a extensão dele. Assim, pouco importa a extensão, e sim esse cabeçalho.

Flash e outros tipos de mídia

Flash

Apesar do Flash ser o primeiro tipo da lista, continua não sendo recomendado fazer um site inteiro em Flash e nem mesmo colocar porções de conteúdo relevante dentro de um arquivo Flash. Apesar de o Google ler e indexar partes desse tipo de arquivo, isso não será tão eficiente quanto um arquivo HTML tradicional.

Silverlight

Silverlight é uma tecnologia similar ao Flash, bastante apoiada na questão visual e tem uma complexidade alta para leitura. Assim, não é recomendado usar conteúdo relevante dentro dessa mídia.

Vídeo em geral

O Flash é bastante utilizado para reprodução de vídeo, mas existem várias alternativas ganhando bastante espaço. Contudo, o Google também não consegue extrair o conteúdo, contexto e informações transmitidas no vídeo em si. Ele apenas consegue identificar que o vídeo é um vídeo.

Para todos os casos acima, e até os tipos alternativos de arquivos indexáveis (PDF, XML, .doc etc.) é fundamental ter páginas HTML correspondentes, ou contendo os arquivos, para facilitar que o Google posicione o seu site em pesquisas relacionadas.

Conteúdo é uma parte importante para o sucesso em SEO, então você não deve “escondê-lo” em arquivos complexos. Prefira sempre ter textos em páginas HTML complementares e até mais completos do que os arquivos de mídias alternativas.

Monitoramento, estatísticas e Google Analytics

Também no quesito monitoramento, usar o Google Analytics, ou qualquer outra ferramenta, para monitorar esses arquivos ricos pode ser muito complexo, ou até impossível, então, pode não valer a pena apostar nos formatos como composição de conteúdo no site, apenas como material complementar.

Conteúdos nesses formatos especiais, que dificultam ou não tem o monitoramento possível, vão acabar atrapalhando todo o seu plano de métricas e estratégia para evolução e crescimento do site.

E o seu site?

Para garantir que não tem nada fora do lugar no seu site, experimente fazer regularmente pesquisas por tipos de arquivo que eventualmente estejam hospedados no mesmo servidor que o seu site.

Por exemplo, se você tem PDFs armazenados nesse servidor, mas que não deveriam ser indexados pelo Google, você pode fazer a busca site:nomedoseusite.com filetype:pdf e se existir algo indexado, você vai encontrar.

Se existem outros formatos possíveis, como o PPTX ou o DOCX, ou outros, verifique cada tipo possível para garantir que seus arquivos não estejam disponíveis no Google.

Leitura recomendada: