SEO
12 min de leitura
24 de março de 2026

Robots.txt e Sitemap XML: Guia Completo para SEO 2026

Aprenda a criar e configurar robots.txt e sitemap XML corretamente: diretivas, erros comuns, como submeter ao Google Search Console, plugins WordPress e monitoramento de cobertura de indexação.

O robots.txt e o sitemap XML são dois dos arquivos mais mal compreendidos do SEO técnico. O robots.txt é frequentemente mal configurado — bloqueando acidentalmente CSS e JavaScript que o Google precisa para renderizar páginas. O sitemap é frequentemente ignorado ou desatualizado, deixando páginas importantes sem ser descobertas. Neste guia, você vai entender como cada um funciona, como configurá-los corretamente e como monitorar se o Google está rastreando e indexando seu site da forma pretendida.

RankMath SEO — Gere Sitemap e Gerencie Robots.txt Automaticamente

O RankMath configura automaticamente seu robots.txt e sitemap XML no WordPress. Versão gratuita disponível — sem necessidade de editar arquivos manualmente.

Instalar RankMath Grátis →

O que é o Robots.txt?

O arquivo robots.txt é um arquivo de texto simples armazenado na raiz do seu domínio (exemplo: https://seusite.com.br/robots.txt) que instrui os robôs dos mecanismos de busca sobre quais partes do site eles devem ou não rastrear.

O robots.txt segue o protocolo REP (Robots Exclusion Protocol), estabelecido em 1994 e formalizado como RFC 9309 em 2022. Embora seja um padrão amplamente respeitado, é importante entender um princípio fundamental: o robots.txt é uma instrução, não uma barreira de segurança. Robôs bem-comportados (Googlebot, Bingbot) respeitam o arquivo. Bots maliciosos ignoram completamente.

Estrutura básica de um robots.txt

O arquivo é composto por "grupos" de regras, cada um começando com um User-agent. Exemplo de um robots.txt WordPress bem configurado:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://seusite.com.br/sitemap.xml

Diretivas do Robots.txt Explicadas

User-agent

Define para qual robô as regras seguintes se aplicam. Use asterisco para todos os bots, ou especifique um bot específico:

  • User-agent: * — aplica-se a todos os bots
  • User-agent: Googlebot — aplica-se apenas ao bot do Google
  • User-agent: Bingbot — aplica-se apenas ao bot do Bing
  • User-agent: GPTBot — aplica-se ao bot de treinamento da OpenAI

Disallow

Instrui o bot a não rastrear as URLs que correspondem ao padrão especificado:

  • Disallow: / — bloqueia TODO o site (nunca use acidentalmente em produção!)
  • Disallow: /categoria-privada/ — bloqueia uma seção específica
  • Disallow: /*.pdf$ — bloqueia todos os arquivos PDF (suporte de padrão varia por bot)
  • Disallow sem valor — significa "não bloquear nada", equivalente a Allow total

Allow

Permite o acesso a uma URL ou padrão específico, mesmo dentro de uma seção bloqueada pelo Disallow. No WordPress, é fundamental permitir /wp-admin/admin-ajax.php mesmo bloqueando /wp-admin/. A regra mais específica prevalece sobre a mais genérica.

Crawl-delay

Instrui o bot a aguardar N segundos entre requisições consecutivas. O Googlebot não respeita essa diretiva (usa seu próprio controle de velocidade, configurável no Search Console). O Bingbot respeita:

User-agent: Bingbot
Crawl-delay: 2

Sitemap

Indica a localização do sitemap XML. Pode ser declarado múltiplas vezes para diferentes sitemaps:

Sitemap: https://seusite.com.br/sitemap.xml
Sitemap: https://seusite.com.br/sitemap-imagens.xml

Erros Comuns no Robots.txt (e Como Evitá-los)

Erro crítico: Bloquear CSS e JavaScript. O Google precisa acessar os arquivos CSS e JS do seu site para renderizar as páginas e entender seu conteúdo visual. Bloquear esses recursos via robots.txt faz o Google ver um site mal formatado, afetando negativamente o ranqueamento e os Core Web Vitals. Nunca adicione Disallow para /wp-content/, /wp-includes/, /assets/ ou qualquer pasta que contenha CSS/JS críticos.

Outros erros frequentes:

  • Disallow total em modo de desenvolvimento esquecido em produção: é comum bloquear o site inteiro durante o desenvolvimento para evitar indexação prematura. Se esse bloqueio for para produção, o Google para de rastrear tudo. Verifique sempre o robots.txt após lançamentos e atualizações de hospedagem.
  • Usar robots.txt para "esconder" conteúdo: páginas bloqueadas pelo robots.txt podem ainda aparecer nos resultados se outros sites linkarem para elas. Para impedir indexação, use a meta tag noindex ou o header HTTP X-Robots-Tag: noindex.
  • Esquecer de incluir todos os sitemaps: se você tem sitemap de imagens, vídeos ou news separados, declare todos no robots.txt.
  • Caminho case-sensitive: o robots.txt é sensível a maiúsculas e minúsculas. "Disallow: /Categorias/" é diferente de "Disallow: /categorias/".
  • Bloquear páginas de paginação desnecessariamente: /page/2/, /page/3/ etc. geralmente não precisam ser bloqueadas. Deixe o Google rastrear naturalmente e use canonical ou noindex se necessário.

Quando o Google Ignora o Robots.txt

O Google pode ignorar as instruções do robots.txt em dois cenários:

  1. Para mostrar URLs linkadas por outros sites: se muitos sites linkam para uma página bloqueada, o Google pode mostrá-la nos resultados sem indexar o conteúdo — aparece como "URL blocked by robots.txt" no Search Console.
  2. Em situações de segurança pública: o Google reserva o direito de ignorar robots.txt para URLs associadas a conteúdo de interesse público em situações excepcionais.

Exemplos Práticos de Robots.txt

WordPress padrão (recomendado):

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?s=
Disallow: /busca/

Sitemap: https://seusite.com.br/sitemap_index.xml

Site com área de membros:

User-agent: *
Disallow: /membros/
Disallow: /checkout/
Disallow: /minha-conta/
Disallow: /carrinho/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://seusite.com.br/sitemap.xml

Bloqueando bots de IA (opcional, crescentemente comum):

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seusite.com.br/sitemap.xml

O que é o Sitemap XML?

O sitemap XML é um arquivo que lista as URLs do seu site de forma estruturada, junto com metadados opcionais (data de modificação, frequência de atualização, prioridade). Ele serve como um "mapa" para os mecanismos de busca encontrarem e priorizarem o rastreamento das suas páginas.

Embora o Google afirme que consegue descobrir a maioria das páginas sem sitemap, o sitemap é especialmente valioso para:

  • Sites novos com poucos backlinks externos
  • Sites grandes com milhares de páginas
  • Páginas que não são bem linkadas internamente
  • Conteúdo com metadados específicos (imagens, vídeos, notícias)

Tipos de Sitemap XML

Sitemap de URL (padrão)

O formato básico lista URLs com metadados opcionais. O elemento mais útil é o lastmod (data de última modificação), que ajuda o Google a priorizar o rastreamento de páginas alteradas recentemente:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://seusite.com.br/artigo-importante/</loc>
    <lastmod>2026-03-20</lastmod>
  </url>
</urlset>
Nota sobre changefreq e priority: o Google declarou publicamente que ignora essas tags — elas são vestígios do protocolo original que nunca foram amplamente respeitados pelos mecanismos modernos. Inclua lastmod com precisão, mas não se preocupe com as outras tags opcionais.

Sitemap de Imagens

Permite que o Google descubra imagens que não são encontradas facilmente por rastreamento comum. Importante para sites com portfólios, e-commerce e galerias:

<url>
  <loc>https://seusite.com.br/galeria/</loc>
  <image:image>
    <image:loc>https://seusite.com.br/wp-content/uploads/2026/foto.jpg</image:loc>
    <image:title>Título da imagem</image:title>
  </image:image>
</url>

Sitemap de Vídeo

Para sites com conteúdo de vídeo, o sitemap de vídeo ajuda o Google a entender o conteúdo multimídia e elegibilidade para o Google Video Search. Inclui thumbnail, título, descrição e URL do arquivo de vídeo.

Sitemap de Notícias (Google News)

Para portais de notícias cadastrados no Google News, o sitemap de notícias é obrigatório e tem formato específico com a extensão de notícias. Inclui metadados como data de publicação e nome da publicação para eligibilidade no Top Stories do Google.

Limites e Sitemap Index

Um arquivo sitemap individual pode conter no máximo 50.000 URLs e ter no máximo 50MB descomprimido. Para sites maiores, usa-se um Sitemap Index — um arquivo que aponta para múltiplos sitemaps:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://seusite.com.br/sitemap-posts.xml</loc>
    <lastmod>2026-03-24</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://seusite.com.br/sitemap-pages.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seusite.com.br/sitemap-images.xml</loc>
  </sitemap>
</sitemapindex>

Plugins WordPress para Robots.txt e Sitemap

Yoast SEO

O Yoast SEO (grátis / premium a USD 118,80/ano) gera automaticamente um sitemap XML dinâmico em /sitemap_index.xml. Ele inclui sitemaps separados para posts, páginas, categorias, tags e post types customizados. As configurações permitem excluir tipos de conteúdo específicos do sitemap. O Yoast também inclui um editor visual de robots.txt na aba Ferramentas > Editor de Arquivos.

RankMath

O RankMath (grátis / Pro a USD 95,88/ano) gera sitemaps XML com suporte a imagens automático — cada post inclui suas imagens no sitemap de imagens sem configuração adicional. O RankMath Pro adiciona sitemap de vídeo e integração com Google News. A interface de gerenciamento do sitemap é mais visual que o Yoast, ideal para iniciantes.

All in One SEO

O All in One SEO (grátis / Pro a USD 49/ano) tem um módulo de sitemap robusto com controle granular de quais post types, taxonomias e arquivos de autor incluir. Bom para sites com estruturas de conteúdo complexas.

Recomendação: para a maioria dos sites WordPress, o Yoast SEO gratuito ou o RankMath gratuito cobrem todas as necessidades de sitemap e robots.txt. A escolha entre eles depende mais de preferência de interface do que de capacidade técnica.

Como Submeter o Sitemap ao Google Search Console

Submeter o sitemap ao Google Search Console acelera a descoberta de páginas novas e fornece dados sobre indexação. Siga estes passos:

  1. Acesse o Google Search Console (search.google.com/search-console)
  2. Selecione a propriedade do seu site
  3. No menu lateral, clique em "Sitemaps"
  4. No campo "Adicionar um novo sitemap", insira o caminho relativo (ex: sitemap_index.xml)
  5. Clique em "Enviar"

O Google processará o sitemap em horas ou dias, dependendo da autoridade e tamanho do site. Depois de processado, você verá quantas URLs foram descobertas e quantas foram efetivamente indexadas — a diferença entre esses dois números é altamente informativa.

Bing Webmaster Tools

O Bing é responsável por cerca de 8-12% das buscas no Brasil e não deve ser ignorado. No Bing Webmaster Tools (bing.com/webmasters):

  1. Adicione seu site (verificação por meta tag, DNS ou arquivo HTML)
  2. Acesse "Sitemaps" no menu
  3. Clique em "Enviar sitemap" e insira a URL completa

O Bing também responde ao Sitemap declarado no robots.txt automaticamente, mas a submissão manual acelera o processo de indexação.

Sitemaps Internacionais com hreflang

Para sites com conteúdo em múltiplos idiomas ou variações regionais (ex: português do Brasil vs português de Portugal), o sitemap XML pode incluir anotações hreflang para indicar ao Google as relações entre versões:

<url>
  <loc>https://seusite.com.br/artigo/</loc>
  <xhtml:link rel="alternate" hreflang="pt-BR"
     href="https://seusite.com.br/artigo/"/>
  <xhtml:link rel="alternate" hreflang="pt-PT"
     href="https://seusite.pt/artigo/"/>
</url>

Monitorando a Cobertura de Indexação

Depois de configurar robots.txt e sitemap, o monitoramento contínuo é essencial. No Google Search Console:

Relatório de Cobertura de Indexação

Acesse "Indexação" > "Páginas" para ver:

  • Indexadas: URLs que o Google encontrou e incluiu no índice
  • Não indexadas — excluídas: páginas que o Google decidiu não indexar, com motivos específicos
  • Bloqueadas por robots.txt: páginas que o Googlebot tentou rastrear mas foi impedido
  • Excluídas por tag noindex: páginas que o Google rastreou mas não indexou por instrução meta tag

Inspecionar URL

A ferramenta "Inspecionar URL" no Search Console permite verificar:

  • Se uma URL específica está indexada
  • Se o Googlebot consegue acessá-la
  • A última vez que foi rastreada
  • A versão renderizada (como o Google vê a página)
  • Se há problemas de rastreamento ou cobertura

Testador de Robots.txt Integrado

No Search Console, acesse "Configurações" > "Robots.txt" para usar o testador integrado: insira uma URL e veja imediatamente se ela é permitida ou bloqueada pelo seu robots.txt atual. Indispensável antes de fazer alterações em produção.

Sitemaps Dinâmicos para Grandes Sites

Para sites com conteúdo gerado dinamicamente — portais de notícias com centenas de publicações por dia, e-commerces com catálogos mutáveis, diretórios de negócios — o sitemap precisa ser gerado dinamicamente pelo servidor, não como arquivo estático.

No WordPress, plugins como Yoast e RankMath já fazem isso automaticamente. Para outros frameworks:

  • Next.js: use a API Route para gerar /sitemap.xml dinamicamente consultando o banco de dados
  • Laravel/PHP: o pacote spatie/laravel-sitemap gera sitemaps programaticamente
  • Sites estáticos (Hugo/Jekyll/Astro): plugins nativos de sitemap geram o arquivo durante o build

Veredicto Final

O robots.txt e o sitemap XML são fundações do SEO técnico — não são complexos, mas erros neles podem invalidar todo o trabalho de produção de conteúdo e link building. Uma única linha errada no robots.txt pode bloquear o site inteiro por semanas, e um sitemap desatualizado pode fazer o Google demorar meses para descobrir novas páginas.

As regras de ouro:

  1. Nunca bloqueie CSS, JavaScript ou imagens no robots.txt — o Google precisa deles para renderizar páginas.
  2. Use noindex em vez de robots.txt para conteúdo que você quer que o Google rastreie mas não indexe.
  3. Mantenha o sitemap atualizado — plugins como Yoast ou RankMath fazem isso automaticamente no WordPress.
  4. Submeta o sitemap ao Google Search Console e ao Bing Webmaster Tools após o lançamento do site e após grandes reestruturações de conteúdo.
  5. Monitore o relatório de cobertura mensalmente — ele revela oportunidades de indexação e problemas antes que afetem o ranqueamento.

Para sites WordPress, os plugins de SEO (Yoast ou RankMath) resolvem 90% das necessidades de robots.txt e sitemap de forma automática. O Search Console é a ferramenta de monitoramento indispensável — gratuita, oficial e com dados que nenhuma ferramenta de terceiros consegue replicar com a mesma precisão.

robots txtsitemap xmlseo tecnicocrawling seoindexacao google
Ferramentas em Destaque

Compare as Melhores Ferramentas

Reviews honestos, preços atualizados e indicações para o mercado brasileiro.

Ver todas as ferramentas