Robots.txt: conheça e use a ferramenta parceira das boas estratégias de SEO

Por Jorge Moreno Última atualização 23 jan, 2023 121 0

imagem de um robô segurando um celular. O fundo da imagem é azul e tem-se escrito Robots.txt — Robots.txt

O robots.txt é um mecanismo de ocultação de páginas. Ele tem a função de esconder determinadas áreas do domínio. Por exemplo, aquelas telas de login que contém informações relevantes dos usuários ou da equipe de trabalho.

A atual demanda do marketing digital é resumida em visibilidade. O mecanismo, por sua vez, é um reforço para as estratégias de SEO. Saiba tudo o que é necessário para implementar, comandar e utilizar em seu site.

Guia Rápido

O que é robots.txt?

Ele nada mais é que um arquivo de texto. É um norte aos bots dos buscadores como o Google. Serve para que os servidores controlem as permissões de acesso de uma página.

Com isso, tem o poder de controlar quais são informações de um site passíveis de rastreamento. A produção do arquivo é simples, já que pode ser feito no programa de edição de textos do PC e assim, exportado para a pasta raiz da página.

A configuração padrão indica aos bots em quais domínios eles podem ter ou não acesso. É recomendável o uso em alguns exemplos, a saber:

Telas de login, pois contém informações de sigilo do usuário;
Conteúdo repetido, como de algumas ações do Google Ads dispostas em Landing Pages;
Página de carrinho de compras, que contém informações sigilosas.

Para usar o robots.txt, salve o arquivo no diretório raiz da página. É possível conhecer as restrições de outros sites, basta incluir o comando do arquivo após a URL normal, precedida pela “/”.

Qual é a função do robots.txt?

Ele é o norte dos robôs dos principais buscadores para ordens específicas. Serve para determinar quais partes do site são passíveis de rastreio, com o objetivo de aprimorar a indexação.

A área de programação entende o arquivo como um comando específico. No entanto, os estrategistas de SEO devem ter conhecimento do arquivo, a fim de aprimorar o uso, bem como, a segurança de todas as páginas do site.

No caso de uma configuração errada do arquivo, existirá problemas com a indexação. Existem até ferramentas disponíveis na internet que o checam antes de fazer a inclusão no diretório raiz da página. Assim, confira as funções básicas abaixo.

Controlar o acesso aos arquivos com imagens

O robots.txt bloqueia a exibição de imagens do site nos buscadores. No entanto, o arquivo não impede a disseminação de fotos da na internet. Existem ferramentas para auxiliar nesse tipo de caso.

Esse bloqueio, por sua vez, é parceiro da estratégia de SEO, a fim de aprofundar a visita no site. Ou seja, o usuário deverá visitar a página para captar mais dados sobre determinado produto ou serviço.

Junto a isso, o mecanismo colabora para a retenção de informações estratégicas, por exemplo, as especificações técnicas de um determinado item.

Controlar o acesso a páginas da web

Tal como as imagens, a visita aos sites e páginas pode não ser restrita se o usuário tiver o link de acesso a elas. A função do robots.txt nesse caso é não permitir a entrada em domínios pouco interessantes para a sua estratégia.

Com isso, o arquivo coopera com a hospedagem do website. Evita o peso do trânsito dos robôs, assim como colabora com a economia da empresa. E essa poupança pode se destinar a outras ações da área de marketing digital.

Bloquear o acesso a pasta de arquivos e demais recursos

O robots.txt bloqueia determinados arquivos, pastas e subpastas. Isso evita a hiperfunção dos scripts, bem como, o acesso aos conteúdos não relevantes à estratégia naquele momento para o SEO.

Só que o bloqueio deve ser cauteloso, uma vez que tais recursos têm relação com o pleno funcionamento da página. Ou seja, ao bloquear todos os arquivos e recursos, sem um plano definido, a indexação fica comprometida e gera prejuízo para o SEO.

pessoa trabalhando no seu desktop — O robots.txt é um texto que serve de orientação aos robôs dos mecanismos de busca. Imagem de pressfoto no FreePik.

Como criar um arquivo robots.txt?

A criação do robots.txt acontece em qualquer editor de textos, até mesmo no bloco de notas. É preciso ter acesso também ao arquivo raiz do domínio. Por sua vez, este permitirá a inserção, assim como a gravação.

Lembre que o principal objetivo do arquivo é permitir o rápido rastreamento do que deve ou não ser indexado pelos buscadores.

Quais são as principais instruções do robots.txt?

Os comandos ou instruções básicos do robots lembram os códigos HTML, além dos modos de desenvolvimento e linguagem back já conhecidas no mercado.

São a bússola para os robôs dos sites de busca. O objetivo é norteá-los sobre qual conteúdo eles devem navegar e exportar para os buscadores. Conheça a seguir os principais comandos a serem empregados.

User-agent

A instrução User-agent é o que mostra qual robô vai seguir as indicações do robots.txt. Para ter acesso ao nome de cada um, consulte sites que listam os principais entre os buscadores disponíveis.

De forma simples, indique o nome do robô que você deseja instruir, como nos exemplos a seguir:

User-agent: Googlebot, para se referir ao Google;
Google Imagens: Googlebot-images, para buscas por imagens no buscador;
Bing: Bingbot, para reportar apenas ao buscador do Bing.

Para mencionar uma ordem ampla, de modo que todos os robôs dos buscadores a sigam existe um detalhe. Substitua o nome do robô por um asterisco (*).

Disallow

A função do comando é restringir as páginas do site que não apareceram em caso de busca. A programação no robots.txt que indica essa exclusão é sempre “Disallow: /”. Na sequência, digite o nome em específico.

O comando também permite bloqueio às pastas pontuais. Por exemplo, é preciso restringir acesso à pasta “contato”, basta sinalizar dessa forma: Disallow: /contato/.

A restrição pode impedir acesso aos arquivos nomeados com a mesma inicial. Mas, se o site tem arquivos chamados “Depoimentos” e “Denúncias”, programe o comando em Disallow: /d. Assim, tais arquivos não aparecerão nas páginas de busca.

Allow

O comando significa permissão, isto é, determinar aos robôs em quais páginas a indexação deve acontecer. Vale lembrar que o normal é que todas as áreas do site já indexem. Isso muda com a função Disallow.

Para incluir o Allow no robots.txt, digite o comando a seguir: Allow: /x. “X” é o nome hipotético para indicar qual arquivo deve ter permissão concedida.

Isso é muito comum para a liberação de parte de um item bloqueado. Um exemplo fictício é liberar a pasta “fotos”, mas que está na bloqueada “registros”, indique dessa forma: Allow: /registros/fotos.php.

Sitemap

Tem a função de indicar o sitemap da página em formato XML. Isso ajuda os robôs a identificar o site como um todo, de modo ágil. Para incluir no robots.txt escreva Sitemap: https://www.exemplodoseusite.com.br/sitemap.xml.

Com o passar do tempo e com a evolução das ferramentas do Google, esse comando está em desuso. O Google Webmaster Tools, por sua vez, é o substituto natural e ágil desse comando.

O que considerar como limitação do robots.txt?

Saiba que, muito embora o robots.txt auxilie demais nas estratégias de indexação de SEO, é preciso considerar as suas limitações.

O trabalho desse profissional é ampliar o leque de opções, a fim de não permitir que as URLs não necessárias apareçam nas buscas. Conheça as principais limitações do arquivo logo abaixo.

Instruções apenas diretivas

A aplicação do robots.txt indica apenas permissões ou restrições diretas. Ou seja, uma ordem pode não ser atendida por determinado robô.

Os robôs do Google, por exemplo, são os que mais reconhecem as ordens do arquivo. A dica é variá-lo com outros mecanismos de ocultação, como a entrada na página protegida por senha.

Cada robô interpreta as sintaxes de modos diferentes

O Google possui os robôs mais conhecidos. É importante mencionar que a empresa é a gigante de buscas do mercado. No entanto, não existe apenas ele como buscador.

Entenda o funcionamento de outros robôs. Dessa forma, você utiliza as combinações corretas para que as indexações aconteçam, por exemplo, no Yahoo!.

Robots.txt não vetam às referências as suas URLs por outros sites

Ao utilizar o robots.txt para filtrar seus conteúdos passíveis de busca, entenda que isso não significa 100% de proteção. Isto é, ainda existem maneiras de expor as páginas que você deseja restringir nos buscadores.

Neste caso, vale reforçar o método. Use mecanismos como o tag noindex, bem como, a entrada ao domínio por meio de senha. Além disso, tais ações fortalecem a segurança da página. Ainda mais quando há informações sigilosas.

imagem de uma tela com códigos de programação — A programação alimenta o robots.txt, bem como instrui os robôs dos sites de busca. Imagem de lcd2020 no FreePik.

É necessário ser específico nas ordens para cada robô de busca

Há regras para ordenar o trabalho. No entanto, se isso não acontece de forma bem feita, surgem problemas. Aliás, ao especificar um robô de busca, certifique-se que o robots.txt contempla o universo dele. E assim, faça para todos os outros.

Com isso, você garante que o bot de cada buscador seguirá ordenado pelo seu padrão de entendimento. Assim, a indexação desejada acontece sem imprevistos ou retrabalhos.

Como usar robots.txt na sua estratégia de rankeamento?

O robots.txt é um instrumento importante para a estratégia de ranqueamento. Tanto por ajudar na orientação dos robôs sobre o que mostrar como resultado de uma busca, bem como, no que não mostrar.

Esse mecanismo favorece a usabilidade do site, dentre outros benefícios a saber:

Limita a busca de dados para diminuir custos com conteúdos não necessários;
Acelera o tempo de resposta, permite o carregamento de páginas mais rápido.

Também ajuda a atrair os clientes em potencial ao que realmente importa e desperta o interesse. Ou seja, satisfaz de forma exata a busca do usuário. Um exemplo muito utilizado é a indexação por landing pages.

A partir deste momento, você conhece o arquivo e sabe como codificá-lo. Então, aprimore o objetivo de SEO do seu site ao usar de modo correto o robots.txt como estratégia.

robôs do Google SEO