PARTAGER

1.      Rappels sur le fichier Robots.txt

1

Le fichier Robots.txt a été inventé en 1994, à l’époque où le passage des robots de Google pouvait faire tomber un site internet pour surcharge d’activités sur le serveur. Il était alors nécessaire de limiter le passage des robots sur le site pour des raisons de capacité serveur.
Aujourd’hui, les capacités des serveurs ayant grandement augmentées, l’utilité de ce fichier est devenue tout autre. Google continue de crawler par défaut l’ensemble de votre site, dans le but d’indexer, ou non, les pages que ses robots considèrent comme utiles aux internautes au moment de leur recherche sur Google.fr.

Mais ce processus lui demande de plus en plus de temps et de ressources (énergétiques et économiques). Le passage des robots est donc aujourd’hui limité sur votre site et il est indispensable de profiter au maximum de ce temps accordé par Google et d’orienter les robots uniquement vers les pages intéressantes pour votre stratégie SEO. Le fichier Robots.txt fait partie des (nombreux) leviers qui vont vous permettre de réaliser cette optimisation.

Un fichier Robots.txt doit se trouver à la racine d’un site internet. Il peut contenir des commentaires avec la commande # et doit forcément s’appeler « robots.txt ». Il répond actuellement à 4 commandes : Disallow, pour bloquer une page ou un groupe de pages, Allow, pour autoriser une page particulière (par défaut, Google autorise toutes les pages), Sitemap, pour déclarer votre sitemap et User-Agent, pour définir le type de robots concerné par les requêtes.

Voici la liste des robots que vous pouvez gérer via le fichier Robots.txt :

Google

Code User-Agent Robot Google
Googlebot pour la recherche sur le web
Googlebot-News pour Google Actualités
Googlebot-Image pour Google Images
Googlebot-Video pour Google Vidéos
Googlebot-Mobile pour Google Mobile
Mediapartners-Google ou Mediapartners pour Google AdSense
AdsBot-Google pour le contrôle qualité de la page de destination Google AdsBot / Google AdWords

 

Bing

Code User-Agent Robot Bing
Bingbot Pour Bing (Standard)
Adixbot Pour le crawl des publicités

 

Yahoo

Code User-Agent Robot Yahoo
Slurp Yahoo

 

Comme expliquer dans notre article sur les sites multilingues, il est important que chaque version de votre site possède son propre fichier robots.txt (nom de domaine mais aussi par sous domaine).

 

2.      Quels types d’URLs bloquer

Voici nos conseils pour détecter les URLs à bloquer :

a) Lancer votre propre crawl !

La première action à réaliser sur votre site, c’est de connaitre la liste exhaustive de toutes ses URLs. Pour cela, des outils comme Screaming Frog vous permettront de connaitre l’ensemble de vos pages. Une discussion avec votre développeur vous permettra également de vous assurer que cette liste est complète et qu’il n’existe pas des URLs générés automatiquement par le site que le crawleur aurait raté.

b) Détecter les pages qui ne rentrent pas dans votre stratégie SEO

La reine de ces pages est bien sûr celle des mentions légales. Elle contient beaucoup de textes, séduit les robots mais n’a absolument aucun intérêt pour votre SEO. Bloquez-la.

Il existe également d’autres pages comme les conditions générales de vente, la page contact, les frais de livraison, espace abonnés ou utilisateur, les dossiers Images, les fichiers PDF…Parfois, il sera intéressant de bloquer votre moteur de recherche interne ou votre page Partenaires.

c) Détecter les pages qui génèrent de la duplication de contenu

Selon la technologie de votre site internet, il n’est pas toujours d’éviter une duplication de contenu. Pour éviter que Google crawle ces pages, il est recommandé de les bloquer avant toute mise en ligne. C’est notamment le cas pour les sites qui utilisent des filtres pour classer leurs produits selon le prix, le nom ou encore la matière. Cette étape est très sensible car, mal gérée, elle peut avoir un impact désastreux sur votre SEO. Si vous n’avez pas d’expérience en SEO et en gestion des filtres, nous vous recommandons vivement de passer par un professionnel.

d) Attention aux ressources de vos sites

Ne pas bloquer les CSS et les fichiers JS : indispensables pour le bon rendu et la compréhension de la structure et du contenu de vos pages par les robots.

e) Une analyse de logs pour lever les derniers doutes

La solution la plus efficace pour comprendre l’activité des robots sur votre site et détecter les pages sans intérêt qui sont crawlées régulièrement par Google reste l’analyse de logs. Celle-ci sera pertinente après quelques semaines d’activités sur le net (selon la nature de votre trafic). Retrouvez toutes les informations sur les audits de logs ici.

3.      Robots.txt et Sitemap

Il est possible de déclarer, en plus de Search Console, vos sitemaps directement dans votre fichier Robots.txt par une simple ligne :

Sitemap : http://www.example.fr/sitemap.xml

Sitemap : http://www.example.fr/sitemap-produits.xml

Petit rappel utile : Vérifiez toujours que vos sitemaps ne contiennent pas des URLs que vous souhaitez bloquer !

 

4.      Testez votre fichier Robots.txt!

Avant toute modification et nouvelle mise en production, il est important de tester votre fichier. Une erreur dans votre fichier Robots.txt peut avoir des conséquences dramatiques sur votre site et désindexer des pages stratégiques !

Pour éviter tout problème, Google vous permet de tester vos lignes de codes sur Search Console :

2

5.      Travailler son fichier AVANT la mise en production

Google consulte environ une fois par jour un fichier Robots.txt. Il est donc essentiel d’anticiper le crawl du robot et déclarer le plus tôt possible toute URL à bloquer. Il est possible d’accélérer cette prise en compte dans Search Console, mais les résultats ne sont pas garantis.

Pour cela, vous devez vous rendre dans l’outil de test du Robots et cliquer sur « Envoyer ».

3

Si votre lien a déjà été crawlé par Google et que vous souhaitez le voir disparaitre de l’index et qu’il ne soit plus crawlé, vous devrez passer par la balise meta robots, à mettre dans le head de la page : <meta name= »robots » content= »noindex, nofollow »>.

 

6.      Cas d’étude : Gérer les facettes avec son robots.txt

Les sites marchands ont dans la plupart des cas de grande difficulté à gérer leur duplication de contenu et leur budget crawl à cause de leurs facettes (paramètres de tri).

L’utilisation habile du robots.txt pour bloquer et débloquer certaines facettes permet ainsi d’améliorer les statistiques globales du site.

Pour rappel, il est indispensable de bien gérer les filtres, et notamment les filtres combinatoires (qui prennent en compte plusieurs paramètres). La meilleur des solutions est bien souvent de bloquer ces combinaisons, sauf certaines exceptions en cas de fort volume de recherche (chaussure noir en taille 42 par exemple).

Le risque de laisser les combinaisons accessibles aux robots est bien sûr de multiplier les pages créés et de perdre totalement les robots Google dans leur analyse de site :

  • 5 filtres : 25 combinaisons
  • 10 filtres : 100 combinaisons !
  • 20 filtres : 400 combinaisons !
  • 30 filtres : 900 combinaisons !

 

4

 

 

Voici un exemple d’un site qui ne gère malheureusement pas ses facettes, et un autre site qui a configuré son robots.txt en conséquence :

 

a.      Pas de gestion des facettes : Divinescence.com

5

Ni le robots.txt, ni la balise meta robots ne sont configurés pour gérer les paramètres du site malgré la présence de nombreux filtres et de duplication de contenu. Ces paramètres sont inclus dans l’URL du site directement et cela créé une duplication car les contenus ne sont pas toujours adaptés.

C’est par exemple le cas de deux pages indexées qui proposent un contenu très similaire. :

https://www.divinescence.com/fr/10-bagues-pour-femmes/forme_de_pierres-marquise

https://www.divinescence.com/fr/10-bagues-pour-femmes/forme_de_pierres-coeur

avec une page SERP qui pourrait être largement optimisée :

6

Le site pourrait gagner en performances en faisant ce travail d’optimisations des facettes et du crawl budget via le robots.txt.

b.      Gestion des facettes : Edenly.com

 

En revanche, le site Edenly a choisi de bloquer certaines facettes et maitrise ainsi ses paramètres et sa gestion de contenu :

7

Les résultats SERP sont ici de meilleures qualités :

8

En résumé, donnez de l’amour à votre fichier Robots.txt ! Il est votre meilleur allié dans la lutte contre la duplication de contenu sur les filtres, inhérents à tous les sites e-commerce. Il vous permettra d’optimiser les temps de passage des robots en leur proposant des pages de qualité, et d’améliorer de manière conséquente les performances de votre site.

VN:F [1.9.22_1171]
Avis: 10.0/10 (6 votes)
PARTAGER
Consultant SEO chez Open-linking

4 COMMENTAIRES

    • Bonjour Tanguy et merci pour votre message.
      Je confirme qu’il est bien possible de limiter/bloquer l’indexation des filtres prix ou facettes, en configurant correctement le fichier robots.txt pour qu’il bloque ces URLs, ou en configurant la balise meta robots en NoIndex sur ce type de pages.
      Attention cependant à bien faire les tests sur Search Console et s’assurer que les consignes ne bloquent pas d’autres URLs!
      Jean-Charles

  1. Sympa cet article.
    Je pense cependant que la bonne question à se poser avant de bloquer le crawl de toutes ces URLs, c’est s’il est bien utile de faire des liens vers celles-ci.
    Après tout, bloquer le crawl n’empêchera pas la perte de PageRank interne 😉

    • Bonjour Databulle, et merci pour votre retour 🙂
      Tout à fait, c’est une remarque pertinente et qui va dans le sens des recommandations Google : Pourquoi proposer des URLs aux utilisateurs si nous ne souhaitons pas qu’ils les trouvent ?

      Cependant, ce choix se complique en fonction de nombreux cas de figures, comme des habitudes du marché particulières, de l’expérience utilisateur souhaité sur le site, des objectifs purement marketing…une bonne discussion avec l’équipe marketing est toujours indispensable avant de prendre ce genre de décision.

      A bientôt,
      Jean-Charles

LAISSER UN COMMENTAIRE