Evitando conteúdo duplicado com o Robots.txt
May 26th, 2007
Eu já sabia da importância de usar o robots.txt para evitar penalidades do Google por conteúdo duplicado, mas vinha adiando a criação de um, por pura preguiça.
Depois de ler este post decidi deixar a preguiça de lado. Descobri que tenho 48 páginas no Google Supplemental Index, de acordo com o SEO for Firefox.
Copiei o robots.txt de John Chow, acrescentando um item: Disallow: /wp-content/
Que não quiser ter o trabalho de criar o arquivo - o que nem é tão trabalhoso assim - pode usar um plugin para eliminar conteúdo duplicado. Como profissional da área, resolvi criar vergonha e implementar o robots mesmo. Além de ser relativamente simples, evita o excesso de pugins.
Fique à vontade para copiar o meu Robots.txt, mas não se esqueça de mudar a primeira linha, que contém o endereço do sitemap (ou deletar se não tiver sitemap). E, claro, alterar as linhas do arquivo de posts, para refletir o seu próprio arquivo em meses.
Existe um modelo de robots.txt para Wordpress no SEO Brasil, mas achei que faltaram as categorias e o arquivo. Descobri algo interessante nos comentários: o Feedburner tem um recurso para evitar a indexação dos feeds: basta ativar o item NoIndex na aba Publicize.
Assinar por email:
Muito boa a sua dica. Já fiz aqui no Blog.
[]s e obrigado!
Agora é esperar os resultados. Se tudo der certo, daqui a 1 ou duas semanas não devem aparecer mais nas buscas os endereços de arquivo, categorias e feed.
Eu tinha usado o robots do BrPoint mas esse está mais completo.
Só espero que não diminua os acessos já que eu tenho muitas visitas via categoria.
Acabei de providenciar a mudança.
Valeu a dica!
Dá pra manter as categorias e tirar só os arquivos e os feeds, se for o caso. O negócio é monitorar as buscas por algumas semanas e fazer ajustes no arquivo.
Ronaldo, dê-me uma dica por gentileza. Tenho um site cracatoa.com.br e krakatoa.com.br. O segundo é só um apontamento. No entanto, se alguém acessa o conteúdo através dele a uri fica krakatoa.com.br/algumacoisa. Isso pode ser considerado conteúdo duplicado em relação ao cracatoa.com.br/algumacoisa? Se sim, o que devo fazer?
Deu uma olhada em seu robots.txt e notei que o comando para desindexar os arquivos de meses tem a estrutura 2007/0*. Isso não tiraria da indexação também as páginas individuais que têm a estrutura 2007/0*/algumacoisa?
Abraços!