Manter uma estrutura de URL simples

Uma estrutura de URL de um site deve ser a mais simples possível. Organize seu conteúdo de modo que os URLs sejam de fácil compreensão e elaborados de maneira lógica (quando possível, palavras legíveis em vez de longos números de ID). Por exemplo, se você procurar informações sobre aviação, um URL como http://pt.wikipedia.org/wiki/Aviação ajudará você a decidir se clica no link. Um URL como http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1 é menos atraente para os usuários.

Considere o uso de pontuação nos URLs. O URL http://www.example.com/vestido-verde.html é muito mais útil para nós do que http://www.example.com/vestidoverde.html. Recomendamos que você use hifens (-) em vez de sublinhados (_) nos URLs.

URLs muito complexos, especialmente os que contém vários parâmetros, podem causar problemas para os rastreadores, criando números desnecessariamente altos de URLs que apontam para um conteúdo idêntico ou semelhante no site. Como resultado, o Googlebot pode consumir mais largura de banda do que o necessário ou não indexar completamente o conteúdo do site.

Causas comuns desse problema

Um número desnecessariamente alto de URLs pode ser causado por vários problemas. Veja alguns deles:

  • Filtragem aditiva de um conjunto de itens. Vários sites oferecem diferentes modos de visualização do mesmo conjunto de itens ou resultados da pesquisa e, muitas vezes, permitem que o usuário filtre o conjunto usando um critério definido (por exemplo: hotéis na praia). Quando os filtros podem ser combinados de maneira aditiva (por exemplo: hotéis na praia e com academia), o número de URLs (modos de visualização de dados) nos sites explode. Criar muitas listas de hotéis com diferenças sutis é redundante, porque o Googlebot só precisa ver um número pequeno de listas com acesso à página de cada hotel. Por exemplo:
      .
    • Hotéis com tarifas promocionais:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Hotéis com tarifas promocionais na praia:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Hotéis com tarifas promocionais na praia e com academia:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Geração dinâmica de documentos. Isso pode resultar em pequenas mudanças por causa dos contadores, dos carimbos de data/hora ou dos anúncios.
  • Parâmetros problemáticos no URL. Os IDs de sessão, por exemplo, podem criar uma imensa quantidade de duplicação e um número maior ainda de URLs.
  • Parâmetros de classificação. Alguns grandes sites de compras oferecem várias maneiras de classificar os mesmos itens, o que resulta em um número muito maior de URLs. Por exemplo:
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance&search_category=25
  • Parâmetros irrelevantes no URL, como os de referência. Exemplo:
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Problemas de agenda. Uma agenda gerada de maneira dinâmica pode criar links para datas passadas e futuras sem restrições de início nem término. Exemplo:
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan
  • Links relativos corrompidos. Eles costumam causar espaços infinitos. Geralmente, esse problema ocorre devido a elementos de caminhos repetitivos. Exemplo:
    http://www.example.com/index.shtml/discuss/category/school/061121/html/interview/category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm

Resolver esse problema

Para evitar possíveis problemas com a estrutura do URL, é recomendável fazer o seguinte:

  • Considere usar um arquivo robots.txt para bloquear o acesso do Googlebot a URLs problemáticos. Em geral, costuma ser uma boa ideia bloquear URLs dinâmicos, como os que geram resultados da pesquisa ou URLs que podem criar espaços infinitos, como agendas. Usar expressões comuns no arquivo robots.txt permite bloquear um grande número de URLs com facilidade.
  • Sempre que possível, evite o uso de IDs de sessão nos URLs. Em vez disso, considere os cookies. Consulte as diretrizes para webmasters para ver mais informações.
  • Sempre que possível, abrevie URLs removendo parâmetros desnecessários.
  • Caso o site tenha uma agenda infinita, inclua um atributo nofollow aos links para as futuras páginas de agenda criadas dinamicamente.
  • Veja se há links relativos corrompidos no site.