Business

Comment désindexer/supprimer des pages de Google ?

Dossier mis à jour le 05/09/2023, publié initialement le 22/12/2015

Il y a de nombreux cas de figure et ce tuto les décrit a priori tous. Si vous êtes dans un cas particulier non listé, n’hésite pas à me l’indiquer ! Et si vous ne vous en sortez pas tout seul, contactez-moi pour du consulting.

A voir aussi : comment supprimer son historique de recherche sur Google ?

Pourquoi faut-il parfois désindexer des pages ?

Il y a plusieurs situations :

  • vous n’aviez pas réalisé que certaines pages étaient indexées – et ce n’était pas prévu
  • certaines pages créent du contenu dupliqué interne et vous souhaitez vous en débarrasser
  • vous estimez que des pages (de faible qualité) vous font prendre trop de risques avec l’algorithme de Google (ou même avec l’équipe qualité de la recherche si elle venait à passer par là) et vous souhaitez donc les supprimer de Google
  • une ou plusieurs pages vous posent des problèmes juridiques et vous devez les retirer au plus vite de votre site et de Google
  • votre site a subi un piratage
  • etc.

Si vous êtes déjà venu à ma formation, vous savez que je décris le concept de masse noire (des pages que Google crawle et parfois indexe et qui ne devraient pas l’être). Si la part de la masse noire devient trop importante sur votre site, il est grand temps de faire le ménage !

Quelle différence entre page indexable et page indexée ?

Une page indexable est une page qui respecte toutes les conditions techniques pour qu’elle soit indexée.

Une page indexée est une page que Google a crawlée et “décidé” d’ajouter à son index (il arrive que Google crawle une page indexable et ne l’indexe pas malgré tout).

Je rappelle que pour être indexable, une page doit évidemment être “crawlable” !

Une page crawlable est une page autorisée au crawl : en clair, non bloquée dans le fichier robots.txt même s’il existe un cas particulier que j’expose plus loin. Elle doit également être accessible (à Google) et d’un format pris en charge.

A l’inverse, une page non-indexable est une page pour laquelle on indique à Google qu’il ne doit pas l’indexer.

Comme vous l’avez deviné, pour désindexer une page de Google, vous devez suivre 2 étapes :

  1. la rendre non-indexable pour Google
  2. puis la désindexer

Je détaille ces 2 étapes ci-après, ainsi que des situations spéciales (désindexer tout un site, désindexer tout un sous-domaine).

Comment rendre une page non-indexable ?

La première question à vous poser est sans doute la suivante : la page que vous souhaitez désindexer doit-elle rester consultable par les internautes ?

Comment désindexer une page toujours accessible aux internautes ?

Dans ce cas de figure, vous devez choisir parmi ces solutions (les liens donnent les détails si besoin) :

  • ajouter une balise meta robots noindex (ou none) permet d’indiquer aux moteurs que vous ne souhaitez pas qu’elle soit indexée. Si jamais elle est actuellement indexée, elle sera désindexée quand Google détectera cette balise dans la page ; si elle n’est pas encore indexée, alors elle ne le sera pas non plus à l’avenir (il s’agit donc de prévention)
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c’est la même idée que la balise meta robots noindex. Elle s’impose quand le document à désindexer n’est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • définir une URL canonique différente de l’URL de la page à désindexer. Par exemple, une fiche produit est accessible aussi bien à l’URL A qu’à l’URL temporaire B pour cause de promotion. Vous pouvez définir dans la page B une URL canonique faisant référence à A. Attention, l’URL canonique est un indicateur que vous fournissez à Google, lequel ne s’engage pas à le respecter dans 100% des cas.

Ensuite, soit vous attendez que Google désindexe la page, soit vous accélérez le processus (voir ci-dessous).

Comme je sais que vous avez bien suivi mes explications, vous avez compris que votre page doit être crawlable, n’est-ce pas ? Car si vous interdisez à Google de la crawler, il ne pourra pas constater que vous demandez qu’elle soit désindexée. Je discute de ce cas de figure dans ce dossier.

#SEO mettre une meta robots noindex ET bloquer dans robots.txt = Google ne supprime pas la pageClick to Tweet

Comment désindexer une page qui n’est plus accessible ?

Dans ce cas de figure, vous devez choisir parmi ces solutions les plus courantes :

  • envoyer un code HTTP 404 ou 410 : ceci indique à Google que la page n’existe pas (404) ou plus (410). Le code 410 semble plus efficace, car avec un code 404 il peut se passer plusieurs mois avant que Google décide enfin de désindexer la page ! Si vous êtes perdu dans tous ces codes HTTP, consultez ma liste.
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c’est la même idée que la balise meta robots noindex. Elle s’impose quand le document à désindexer n’est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • rediriger en 301 vers une autre page : on utilise cette méthode quand on pense que l’URL à supprimer avait obtenu des (bons) backlinks (par exemple en ecommerce ou site de petites annonces). Pour éviter d’en perdre le bénéfice, il faut mettre en place une redirection permanente. Notez que si vous faites ça sur une grosse quantité d’URL, il est probable que Google considère ça comme des soft 404 et qu’au final les pages ne soient pas désindexées.

Ensuite, soit vous attendez que Google désindexe la page (ça peut être très long), soit vous accélérez le processus (voir ci-dessous).

Comment vérifier qu’une page est non-indexable ?

Vous pouvez utiliser différents outils pour vérifier que vous êtes bien dans une des situations exposées précédemment.

Je vous recommande néanmoins de passer par un logiciel spécialisé (comme RM Tech, celui que j’ai conçu chez My Ranking Metrics). Après une analyse exhaustive de votre site, il vous listera l’ensemble des URL des pages HTML non-indexables.

Vous pourrez ainsi confirmer que les pages non-indexables sont bien celles que vous avez prévues. Dans le cas contraire, si l’outil liste des pages non-indexables qui devraient être indexables, autant dire que c’est une erreur plutôt grave…

Voici un exemple de rapport d’audit qui montre qu’un très grand nombre d’URL sont interdites d’indexation à cause d’une balise meta robots noindex (espérons pour son propriétaire que c’est voulu) :

URL non indexables à cause de la balise meta robots noindex

Voici un autre exemple de rapport d’audit similaire avec de nombreuses URL non indexables en raison d’une URL canonique différente de l’URL crawlée :

URL non indexables à cause de l'URL canonique

En combien de temps Google supprimera mes pages ?

Maintenant que vous avez vérifié que la ou les pages à supprimer de Google sont “non-indexables”, qu’elles soient encore en ligne ou pas, vous devez attendre…

En effet, la page ne sera désindexée qu’au moment où Google cherchera à y accéder (la crawler). Et encore, dans le cas d’une erreur 404, je vous ai indiqué que ça pouvait prendre beaucoup de temps…

Mais vous pouvez accélérer le traitement !

Comment supprimer rapidement une page de Google ?

Supprimer une page grâce à Search Console

Si vous avez une seule page à supprimer, ou un petit nombre, le plus efficace est certainement de faire une demande explicite dans Google Search Console. Allez dans le module “Suppressions” et cliquez sur nouvelle demande.

faire une demande de suppression de page à Google
Pour faire une demande de suppression de page dans Google Search Console

Pour la suite des explications :

Si par contre vous avez de nombreuses URL, il sera peut-être fastidieux voire impossible en pratique de passer par des demandes individuelles dans la Search Console.

Rassurez-vous, j’ai une astuce 🙂

Elle n’est pas très connue et je vous l’offre ici : listez toutes les URL à désindexer dans un fichier sitemap ! Un simple fichier texte avec une URL par ligne suffit largement (encodage UTF-8), avec le nom de votre choix. Déclarez ce fichier dans Search Console (rubrique Exploration > Sitemaps) et patientez.

L’idée est qu’un sitemap ne sert pas à faire indexer des pages, mais à inciter Google à crawler des URL.

Grâce à ce sitemap :

  • Google viendra assez rapidement crawler toutes ces URL
  • il constatera qu’elles doivent être désindexées
  • au fur et à mesure qu’il viendra les crawler, il les désindexera
  • en plus, à chaque fois que vous irez consulter Search Console, vous saurez combien d’URL de ce sitemap sont encore présentes dans l’index.

Dès que toutes les URL sont désindexées, vous pouvez supprimer ce sitemap.

Résumé à partager sur Twitter :

Astuce #SEO : un sitemap peut lister des URL à faire désindexer, ça fait gagner du temps !Click to Tweet

Peut-on utiliser le fichier robots.txt pour désindexer des pages ?

Réponse rapide : “non”, pour la bonne raison que le fichier robots.txt ne gère pas l’indexation mais le crawl.

Concrètement, si vous ne faites qu’interdire le crawl d’une URL, Google ne viendra plus la crawler, c’est tout. Si jamais l’URL était indexée, il ne la désindexera pas ! Simplement, il ne viendra plus jamais la mettre à jour. C’est d’ailleurs une erreur classique, que vous pouvez partager sur Twitter :

#SEO Pour désindexer une page, n’utilisez pas le fichier robots.txt qui n’est pas prévu pour ça !Click to Tweet

Certes, il y a une petite remarque à faire : il est possible de supprimer une page via Search Console, et pour éviter qu’elle revienne à l’avenir dans l’index de Google, on la bloque dans le fichier robots.txt. Ce n’est donc pas le fait de la mettre dans le robots.txt qui la désindexe, mais la combinaison “demande de désindexation dans GSC + blocage dans robots.txt“.

Dernier point : la directive Noindex: située dans le fichier robots.txt, . Pendant des années, Google en a tenu compte alors qu’elle n’a jamais fait partie du standard et que Google n’en a jamais parlé nulle part dans ses pages d’aide. Mais en juillet 2019, Google a indiqué qu’il ne faut plus l’utiliser, car à partir du 1er septembre 2019 il arrêterait de la supporter.

Si vous souhaitez en savoir plus, consultez le dossier où j’ai testé le Noindex dans le robots.txt.

Comment supprimer/désindexer tout un site de Google ?

Pour désindexer tout un site, avec tous ses sous-domaines, il suffit de faire la demande dans Google Search Console.

  1. choisissez bien la propriété Search Console concernée :
    • si vous choisissez une propriété domaine, ça supprimera TOUS les sous-domaines
    • si vous choisissez une propriété “préfixe d’URL”, ça supprimera uniquement le sous-domaine de la propriété
  2. cliquez sur la gauche dans Suppressions puis sur “Nouvelle demande”
  3. dans l’onglet “Supprimer temporairement l’URL”, cochez “Supprimer toutes les URL avec ce préfixe”
  4. à l’endroit où vous devez indiquer une URL, mettez uniquement /
  5. validez

Comment supprimer/désindexer la préprod indexée par Google ?

Pour désindexer un sous-domaine de préprod que Google a indexé, faites une demande de suppression en choisissant une propriété Search Console de type préfixe d’URL qui correspond uniquement au sous-domaine concerné.

Suivez les explications données précédemment.

Ensuite, pour éviter de faire d’autres bêtises lors de vos prochaines refontes, suivez mon guide vidéo de la refonte SEO.

Besoin d’aide ?

J’ai passé pas mal de temps à rédiger ce dossier, ainsi qu’à organiser la logique de sa structure afin qu’il soit facile à comprendre.

Cet article vous a-t-il plu ?



Source link