O robots.txt e o sitemap XML são dois dos arquivos mais mal compreendidos do SEO técnico. O robots.txt é frequentemente mal configurado — bloqueando acidentalmente CSS e JavaScript que o Google precisa para renderizar páginas. O sitemap é frequentemente ignorado ou desatualizado, deixando páginas importantes sem ser descobertas. Neste guia, você vai entender como cada um funciona, como configurá-los corretamente e como monitorar se o Google está rastreando e indexando seu site da forma pretendida.
RankMath SEO — Gere Sitemap e Gerencie Robots.txt Automaticamente
O RankMath configura automaticamente seu robots.txt e sitemap XML no WordPress. Versão gratuita disponível — sem necessidade de editar arquivos manualmente.
Instalar RankMath Grátis →O que é o Robots.txt?
O arquivo robots.txt é um arquivo de texto simples armazenado na raiz do seu domínio (exemplo: https://seusite.com.br/robots.txt) que instrui os robôs dos mecanismos de busca sobre quais partes do site eles devem ou não rastrear.
O robots.txt segue o protocolo REP (Robots Exclusion Protocol), estabelecido em 1994 e formalizado como RFC 9309 em 2022. Embora seja um padrão amplamente respeitado, é importante entender um princípio fundamental: o robots.txt é uma instrução, não uma barreira de segurança. Robôs bem-comportados (Googlebot, Bingbot) respeitam o arquivo. Bots maliciosos ignoram completamente.
Estrutura básica de um robots.txt
O arquivo é composto por "grupos" de regras, cada um começando com um User-agent. Exemplo de um robots.txt WordPress bem configurado:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php User-agent: Googlebot Disallow: /staging/ Sitemap: https://seusite.com.br/sitemap.xml
Diretivas do Robots.txt Explicadas
User-agent
Define para qual robô as regras seguintes se aplicam. Use asterisco para todos os bots, ou especifique um bot específico:
User-agent: *— aplica-se a todos os botsUser-agent: Googlebot— aplica-se apenas ao bot do GoogleUser-agent: Bingbot— aplica-se apenas ao bot do BingUser-agent: GPTBot— aplica-se ao bot de treinamento da OpenAI
Disallow
Instrui o bot a não rastrear as URLs que correspondem ao padrão especificado:
Disallow: /— bloqueia TODO o site (nunca use acidentalmente em produção!)Disallow: /categoria-privada/— bloqueia uma seção específicaDisallow: /*.pdf$— bloqueia todos os arquivos PDF (suporte de padrão varia por bot)- Disallow sem valor — significa "não bloquear nada", equivalente a Allow total
Allow
Permite o acesso a uma URL ou padrão específico, mesmo dentro de uma seção bloqueada pelo Disallow. No WordPress, é fundamental permitir /wp-admin/admin-ajax.php mesmo bloqueando /wp-admin/. A regra mais específica prevalece sobre a mais genérica.
Crawl-delay
Instrui o bot a aguardar N segundos entre requisições consecutivas. O Googlebot não respeita essa diretiva (usa seu próprio controle de velocidade, configurável no Search Console). O Bingbot respeita:
User-agent: Bingbot Crawl-delay: 2
Sitemap
Indica a localização do sitemap XML. Pode ser declarado múltiplas vezes para diferentes sitemaps:
Sitemap: https://seusite.com.br/sitemap.xml Sitemap: https://seusite.com.br/sitemap-imagens.xml
Erros Comuns no Robots.txt (e Como Evitá-los)
Outros erros frequentes:
- Disallow total em modo de desenvolvimento esquecido em produção: é comum bloquear o site inteiro durante o desenvolvimento para evitar indexação prematura. Se esse bloqueio for para produção, o Google para de rastrear tudo. Verifique sempre o robots.txt após lançamentos e atualizações de hospedagem.
- Usar robots.txt para "esconder" conteúdo: páginas bloqueadas pelo robots.txt podem ainda aparecer nos resultados se outros sites linkarem para elas. Para impedir indexação, use a meta tag noindex ou o header HTTP X-Robots-Tag: noindex.
- Esquecer de incluir todos os sitemaps: se você tem sitemap de imagens, vídeos ou news separados, declare todos no robots.txt.
- Caminho case-sensitive: o robots.txt é sensível a maiúsculas e minúsculas. "Disallow: /Categorias/" é diferente de "Disallow: /categorias/".
- Bloquear páginas de paginação desnecessariamente: /page/2/, /page/3/ etc. geralmente não precisam ser bloqueadas. Deixe o Google rastrear naturalmente e use canonical ou noindex se necessário.
Quando o Google Ignora o Robots.txt
O Google pode ignorar as instruções do robots.txt em dois cenários:
- Para mostrar URLs linkadas por outros sites: se muitos sites linkam para uma página bloqueada, o Google pode mostrá-la nos resultados sem indexar o conteúdo — aparece como "URL blocked by robots.txt" no Search Console.
- Em situações de segurança pública: o Google reserva o direito de ignorar robots.txt para URLs associadas a conteúdo de interesse público em situações excepcionais.
Exemplos Práticos de Robots.txt
WordPress padrão (recomendado):
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-login.php Disallow: /?s= Disallow: /busca/ Sitemap: https://seusite.com.br/sitemap_index.xml
Site com área de membros:
User-agent: * Disallow: /membros/ Disallow: /checkout/ Disallow: /minha-conta/ Disallow: /carrinho/ Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://seusite.com.br/sitemap.xml
Bloqueando bots de IA (opcional, crescentemente comum):
User-agent: GPTBot Disallow: / User-agent: CCBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://seusite.com.br/sitemap.xml
O que é o Sitemap XML?
O sitemap XML é um arquivo que lista as URLs do seu site de forma estruturada, junto com metadados opcionais (data de modificação, frequência de atualização, prioridade). Ele serve como um "mapa" para os mecanismos de busca encontrarem e priorizarem o rastreamento das suas páginas.
Embora o Google afirme que consegue descobrir a maioria das páginas sem sitemap, o sitemap é especialmente valioso para:
- Sites novos com poucos backlinks externos
- Sites grandes com milhares de páginas
- Páginas que não são bem linkadas internamente
- Conteúdo com metadados específicos (imagens, vídeos, notícias)
Tipos de Sitemap XML
Sitemap de URL (padrão)
O formato básico lista URLs com metadados opcionais. O elemento mais útil é o lastmod (data de última modificação), que ajuda o Google a priorizar o rastreamento de páginas alteradas recentemente:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://seusite.com.br/artigo-importante/</loc>
<lastmod>2026-03-20</lastmod>
</url>
</urlset>
Sitemap de Imagens
Permite que o Google descubra imagens que não são encontradas facilmente por rastreamento comum. Importante para sites com portfólios, e-commerce e galerias:
<url>
<loc>https://seusite.com.br/galeria/</loc>
<image:image>
<image:loc>https://seusite.com.br/wp-content/uploads/2026/foto.jpg</image:loc>
<image:title>Título da imagem</image:title>
</image:image>
</url>
Sitemap de Vídeo
Para sites com conteúdo de vídeo, o sitemap de vídeo ajuda o Google a entender o conteúdo multimídia e elegibilidade para o Google Video Search. Inclui thumbnail, título, descrição e URL do arquivo de vídeo.
Sitemap de Notícias (Google News)
Para portais de notícias cadastrados no Google News, o sitemap de notícias é obrigatório e tem formato específico com a extensão de notícias. Inclui metadados como data de publicação e nome da publicação para eligibilidade no Top Stories do Google.
Limites e Sitemap Index
Um arquivo sitemap individual pode conter no máximo 50.000 URLs e ter no máximo 50MB descomprimido. Para sites maiores, usa-se um Sitemap Index — um arquivo que aponta para múltiplos sitemaps:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://seusite.com.br/sitemap-posts.xml</loc>
<lastmod>2026-03-24</lastmod>
</sitemap>
<sitemap>
<loc>https://seusite.com.br/sitemap-pages.xml</loc>
</sitemap>
<sitemap>
<loc>https://seusite.com.br/sitemap-images.xml</loc>
</sitemap>
</sitemapindex>
Plugins WordPress para Robots.txt e Sitemap
Yoast SEO
O Yoast SEO (grátis / premium a USD 118,80/ano) gera automaticamente um sitemap XML dinâmico em /sitemap_index.xml. Ele inclui sitemaps separados para posts, páginas, categorias, tags e post types customizados. As configurações permitem excluir tipos de conteúdo específicos do sitemap. O Yoast também inclui um editor visual de robots.txt na aba Ferramentas > Editor de Arquivos.
RankMath
O RankMath (grátis / Pro a USD 95,88/ano) gera sitemaps XML com suporte a imagens automático — cada post inclui suas imagens no sitemap de imagens sem configuração adicional. O RankMath Pro adiciona sitemap de vídeo e integração com Google News. A interface de gerenciamento do sitemap é mais visual que o Yoast, ideal para iniciantes.
All in One SEO
O All in One SEO (grátis / Pro a USD 49/ano) tem um módulo de sitemap robusto com controle granular de quais post types, taxonomias e arquivos de autor incluir. Bom para sites com estruturas de conteúdo complexas.
Como Submeter o Sitemap ao Google Search Console
Submeter o sitemap ao Google Search Console acelera a descoberta de páginas novas e fornece dados sobre indexação. Siga estes passos:
- Acesse o Google Search Console (search.google.com/search-console)
- Selecione a propriedade do seu site
- No menu lateral, clique em "Sitemaps"
- No campo "Adicionar um novo sitemap", insira o caminho relativo (ex: sitemap_index.xml)
- Clique em "Enviar"
O Google processará o sitemap em horas ou dias, dependendo da autoridade e tamanho do site. Depois de processado, você verá quantas URLs foram descobertas e quantas foram efetivamente indexadas — a diferença entre esses dois números é altamente informativa.
Bing Webmaster Tools
O Bing é responsável por cerca de 8-12% das buscas no Brasil e não deve ser ignorado. No Bing Webmaster Tools (bing.com/webmasters):
- Adicione seu site (verificação por meta tag, DNS ou arquivo HTML)
- Acesse "Sitemaps" no menu
- Clique em "Enviar sitemap" e insira a URL completa
O Bing também responde ao Sitemap declarado no robots.txt automaticamente, mas a submissão manual acelera o processo de indexação.
Sitemaps Internacionais com hreflang
Para sites com conteúdo em múltiplos idiomas ou variações regionais (ex: português do Brasil vs português de Portugal), o sitemap XML pode incluir anotações hreflang para indicar ao Google as relações entre versões:
<url>
<loc>https://seusite.com.br/artigo/</loc>
<xhtml:link rel="alternate" hreflang="pt-BR"
href="https://seusite.com.br/artigo/"/>
<xhtml:link rel="alternate" hreflang="pt-PT"
href="https://seusite.pt/artigo/"/>
</url>
Monitorando a Cobertura de Indexação
Depois de configurar robots.txt e sitemap, o monitoramento contínuo é essencial. No Google Search Console:
Relatório de Cobertura de Indexação
Acesse "Indexação" > "Páginas" para ver:
- Indexadas: URLs que o Google encontrou e incluiu no índice
- Não indexadas — excluídas: páginas que o Google decidiu não indexar, com motivos específicos
- Bloqueadas por robots.txt: páginas que o Googlebot tentou rastrear mas foi impedido
- Excluídas por tag noindex: páginas que o Google rastreou mas não indexou por instrução meta tag
Inspecionar URL
A ferramenta "Inspecionar URL" no Search Console permite verificar:
- Se uma URL específica está indexada
- Se o Googlebot consegue acessá-la
- A última vez que foi rastreada
- A versão renderizada (como o Google vê a página)
- Se há problemas de rastreamento ou cobertura
Testador de Robots.txt Integrado
No Search Console, acesse "Configurações" > "Robots.txt" para usar o testador integrado: insira uma URL e veja imediatamente se ela é permitida ou bloqueada pelo seu robots.txt atual. Indispensável antes de fazer alterações em produção.
Sitemaps Dinâmicos para Grandes Sites
Para sites com conteúdo gerado dinamicamente — portais de notícias com centenas de publicações por dia, e-commerces com catálogos mutáveis, diretórios de negócios — o sitemap precisa ser gerado dinamicamente pelo servidor, não como arquivo estático.
No WordPress, plugins como Yoast e RankMath já fazem isso automaticamente. Para outros frameworks:
- Next.js: use a API Route para gerar /sitemap.xml dinamicamente consultando o banco de dados
- Laravel/PHP: o pacote spatie/laravel-sitemap gera sitemaps programaticamente
- Sites estáticos (Hugo/Jekyll/Astro): plugins nativos de sitemap geram o arquivo durante o build
Veredicto Final
O robots.txt e o sitemap XML são fundações do SEO técnico — não são complexos, mas erros neles podem invalidar todo o trabalho de produção de conteúdo e link building. Uma única linha errada no robots.txt pode bloquear o site inteiro por semanas, e um sitemap desatualizado pode fazer o Google demorar meses para descobrir novas páginas.
As regras de ouro:
- Nunca bloqueie CSS, JavaScript ou imagens no robots.txt — o Google precisa deles para renderizar páginas.
- Use noindex em vez de robots.txt para conteúdo que você quer que o Google rastreie mas não indexe.
- Mantenha o sitemap atualizado — plugins como Yoast ou RankMath fazem isso automaticamente no WordPress.
- Submeta o sitemap ao Google Search Console e ao Bing Webmaster Tools após o lançamento do site e após grandes reestruturações de conteúdo.
- Monitore o relatório de cobertura mensalmente — ele revela oportunidades de indexação e problemas antes que afetem o ranqueamento.
Para sites WordPress, os plugins de SEO (Yoast ou RankMath) resolvem 90% das necessidades de robots.txt e sitemap de forma automática. O Search Console é a ferramenta de monitoramento indispensável — gratuita, oficial e com dados que nenhuma ferramenta de terceiros consegue replicar com a mesma precisão.