Pourquoi l’indexation à 100 % n’est pas possible et pourquoi ça va


Lorsqu’il s’agit de sujets comme le budget de crawl, la rhétorique historique a toujours été qu’il s’agit d’un problème réservé aux grands sites Web (classés par Google à plus d’un million de pages Web) et aux sites Web de taille moyenne avec une fréquence élevée de changement de contenu.

Cependant, ces derniers mois, l’exploration et l’indexation sont devenues des sujets plus courants dans les forums SEO et dans les questions posées aux Googleurs sur Twitter.

D’après ma propre expérience anecdotique, les sites Web de différentes tailles et fréquences de changement ont depuis novembre connu des fluctuations et des rapports de changement plus élevés dans Google Search Console (à la fois les statistiques d’exploration et les rapports de couverture) que par le passé.

Plusieurs des principaux changements de couverture dont j’ai été témoin ont également été corrélés avec des mises à jour non confirmées de Google et une forte volatilité des capteurs/observateurs SERP. Dado que ninguno de los sitios web tiene demasiado en común en términos de pila, nicho o incluso problemas técnicos, ¿es esto una indicación de que el 100% indexado (para la mayoría de los sitios web) ahora no es posible, y eso está bien?

C’est logique.

Google, dans vos propres documents, décrit que le Web se développe à un rythme qui dépasse de loin sa propre capacité et ses propres moyens d’exploration (et d’indexation) de chaque URL.


Obtenez la confiance quotidienne des spécialistes du marketing par newsletter.


Dans la même documentation, Google décrit un certain nombre de facteurs qui affectent sa capacité d’exploration, ainsi que la demande d’exploration, notamment :

  • La popularité de vos URL (et de votre contenu).
  • Son rancissement.
  • La rapidité avec laquelle le site répond.
  • Connaissance de Google (inventaire perçu) des URL sur notre site Web.

D’après les conversations avec John Mueller de Google sur Twitter, la popularité de votre URL n’est pas nécessairement affectée par la popularité de votre marque et/ou de votre domaine.

Avoir eu une expérience directe d’un éditeur majeur n’ayant pas de contenu indexé en fonction de son caractère unique avec un contenu similaire déjà publié en ligne comme étant inférieur au seuil de qualité et n’ayant pas une valeur d’inclusion SERP suffisamment élevée.

Ainsi, lorsque je travaille avec tous les sites Web d’une certaine taille ou d’un certain type (par exemple, le commerce électronique), j’établis dès le premier jour qu’une indexation à 100 % n’est pas toujours une mesure de réussite.

Indexation des niveaux et des fragments

Google a été assez ouvert pour expliquer le fonctionnement de leur indexation.

Ils utilisent une indexation à plusieurs niveaux (une partie du contenu sur de meilleurs serveurs pour un accès plus rapide) et ont un index de service stocké dans plusieurs centres de données qui stocke essentiellement les données servies dans un SERP.

En simplifiant davantage :

Le contenu de la page Web (le document HTML) est tokenisé et stocké dans des extraits, et les extraits eux-mêmes sont indexés (comme un glossaire) afin qu’ils puissent être recherchés plus rapidement et plus facilement pour des mots clés spécifiques (lorsqu’un utilisateur effectue une recherche).

Souvent, les problèmes d’indexation sont attribués au référencement technique, et si vous n’avez pas d’index ou si vous avez des problèmes et des incohérences qui empêchent Google d’indexer votre contenu, alors c’est technique, mais le plus souvent c’est un problème de proposition de valeur.

Objectif bénéfique et valeur d’inclusion SERP

Lorsque je parle de proposition de valeur, je fais référence à deux concepts issus des Quality Rating Guidelines (QRG) de Google, qui sont :

  • but bénéfique
  • qualité des pages

Et combinés, ceux-ci créent quelque chose que j’appelle la valeur d’inclusion SERP.

C’est généralement la raison pour laquelle les pages Web entrent dans la catégorie Découvert, non indexé actuellement dans le rapport de couverture de Google Search Consoles.

Dans les QRG, Google fait cette déclaration :

N’oubliez pas que si une page n’a pas d’objectif bénéfique, elle doit toujours être classée comme la qualité de page la plus basse, quelle que soit la note des besoins satisfaits de la page ou la qualité de sa conception.

Qu’est ce que ça signifie? Qu’une page puisse cibler les bons mots clés et cocher les bonnes cases. Mais s’il est généralement passe-partout pour d’autres contenus et manque de valeur supplémentaire, Google peut choisir de ne pas l’indexer.

C’est là que nous rencontrons le seuil de qualité de Google, un concept permettant de savoir si une page répond à la qualité nécessaire pour être indexée.

Un élément clé du fonctionnement de ce seuil de qualité est qu’il est presque en temps réel et transparent.

Gary Illyes de Google l’a confirmé dans Twitteroù une URL peut être indexée lorsqu’elle est trouvée pour la première fois, puis supprimée lorsque de nouvelles (meilleures) URL sont trouvées ou même recevoir une mise à jour temporaire de la soumission manuelle dans GSC.

Découvrez si vous avez un problème

La première chose à remarquer est si vous voyez le nombre de pages dans le rapport de couverture de Google Search Console passer d’inclus à exclu.

Ce graphique seul et sorti de son contexte suffit à inquiéter la plupart des acteurs marketing.

Mais combien de ces pages comptent pour vous ? Combien de ces pages génèrent de la valeur ?

Vous pourrez l’identifier grâce à vos données collectives. Vous verrez si le trafic et les revenus/prospects diminuent sur votre plateforme d’analyse, et vous remarquerez sur les outils tiers si vous perdez de la visibilité et du classement général du marché.

Une fois que vous avez identifié si vous voyez des pages intéressantes disparaître de l’index de Google, les étapes suivantes consistent à comprendre pourquoi, et la Search Console décompose les exclusions en d’autres catégories. Les principaux que vous devez connaître et comprendre sont :

Suivi : actuellement non indexé

C’est quelque chose que j’ai trouvé plus avec le commerce électronique et l’immobilier que tout autre secteur vertical.

En 2021, le nombre d’enregistrements de nouvelles applications professionnelles aux États-Unis. battu des records précédentsEt avec plus d’entreprises en lice pour les utilisateurs, beaucoup de nouveaux contenus sont publiés, mais probablement pas beaucoup d’informations ou de perspectives nouvelles et uniques.

Découvert : actuellement non indexé

Lors du débogage des problèmes d’indexation, je trouve cela beaucoup sur les sites Web de commerce électronique ou les sites Web qui ont mis en œuvre une approche programmatique considérable de la création de contenu et ont publié un grand nombre de pages à la fois.

Les principales raisons pour lesquelles les pages entrent dans cette catégorie peuvent être dues au budget d’exploration, car vous venez de publier beaucoup de nouveaux contenus et URL et avez augmenté de manière exponentielle le nombre de pages explorables et indexables sur le site, ainsi que le budget de suivi que Google a déterminé. parce que votre site n’est pas conçu pour autant de pages.

Vous ne pouvez pas faire grand-chose pour influencer cela. Cependant, vous pouvez aider Google via des sitemaps XML, des sitemaps HTML et de bons liens internes pour transmettre le classement des pages importantes (indexées) à ces nouvelles pages.

La deuxième raison pour laquelle le contenu peut tomber dans cette catégorie est due à la qualité et cela est courant sur le contenu programmatique ou les sites de commerce électronique avec un grand nombre de produits et de PDP qui sont des produits similaires ou différents.

Google peut identifier des modèles dans les URL, et si vous visitez un pourcentage de ces pages et ne trouvez aucune valeur, il peut (et parfois va) supposer que les documents HTML avec des URL similaires seront de la même (faible) qualité, et le seront. choisissez de ne pas les suivre.

Beaucoup de ces pages auront été créées intentionnellement avec un objectif d’acquisition de clients, telles que des pages de placement programmatique ou des pages de comparaison ciblant des utilisateurs de niche, mais ces requêtes sont recherchées peu fréquemment, n’attirant probablement pas beaucoup de regards, et le contenu peut ne pas être assez unique par rapport à d’autres pages programmatiques, afin que Google n’indexe pas le contenu de proposition à faible valeur lorsque d’autres alternatives sont disponibles.

Si tel est le cas, vous devrez évaluer et déterminer si les objectifs peuvent être atteints dans les limites des ressources et des paramètres du projet sans que les pages excessives gênant l’exploration ne soient considérées comme sans valeur.

contenu dupliqué

Le contenu dupliqué est l’un des plus simples et est courant dans le commerce électronique, l’édition et la programmation.

Si le contenu principal de la page, qui contient la proposition de valeur, est dupliqué sur d’autres sites Web ou pages internes, Google n’investira pas la ressource dans l’indexation du contenu.

Ceci est également lié à la proposition de valeur et au concept de finalité bénéfique. J’ai trouvé de nombreux exemples où de grands sites Web faisant autorité n’ont pas de contenu indexé car il est identique à d’autres contenus disponibles qui n’offrent pas d’informations uniques ou de propositions de valeur uniques.

Prendre part

Pour la plupart des grands sites Web et des sites Web de taille moyenne, atteindre une indexation à 100 % ne sera que plus difficile, car Google doit traiter tout le contenu nouveau et existant sur le Web.

Si vous trouvez un contenu intéressant considéré comme inférieur au seuil de qualité, que devez-vous faire ?

  • Améliorer les liens internes des pages à forte valeur ajoutée: Cela ne signifie pas nécessairement les pages avec le plus de backlinks, mais les pages qui se classent pour un nombre élevé de mots-clés et ont une bonne visibilité peuvent envoyer des signaux positifs via des ancres descriptives à d’autres pages.
  • Éliminer le contenu de mauvaise qualité et de faible valeur. Si les pages exclues de l’index ont une faible valeur et ne génèrent aucune valeur (par exemple, pages vues, conversions), elles doivent être supprimées. Les avoir en direct gaspille simplement les ressources d’exploration de Google lorsqu’il choisit de les explorer, et cela peut affecter ses hypothèses de qualité basées sur la correspondance des modèles d’URL et l’inventaire perçu.

Les opinions exprimées dans cet article sont celles de l’auteur invité et pas nécessairement celles de Search Engine Land. Les auteurs du personnel sont répertoriés ici.


Nouveau sur Search Engine Land

A propos de l’auteur

Dan Taylor est responsable du référencement technique chez SALT.agenceun spécialiste du référencement technique basé au Royaume-Uni et lauréat du Queens Award 2022. Dan travaille avec et supervise une équipe qui travaille avec des entreprises allant des entreprises technologiques et SaaS aux entreprises de commerce électronique.





Cet article a été traduit par searchengineland

Laisser un commentaire