Googlebot explore et indexe les 15 premiers Mo de contenu HTML


Dans une mise à jour du document d’aide de Googlebot, Google a discrètement annoncé qu’il explorerait les 15 premiers Mo d’une page Web. Tout ce qui dépasse cette limite ne sera pas inclus dans les calculs de classement.

Google précise dans le document d’aide :

« Toutes les ressources référencées dans le HTML, telles que les images, les vidéos, le CSS et le JavaScript, sont récupérées séparément. Après les 15 premiers Mo du fichier, Googlebot arrête l’exploration et ne considère que les 15 premiers Mo du fichier pour l’indexation. La limite de taille de fichier s’applique aux données non compressées.”

est laissé certains dans la communauté SEO se demandent si cela signifiait que Googlebot ignorerait complètement le texte qui se trouvait sous les images dans la coupe des fichiers HTML.

“C’est spécifique au fichier HTML lui-même, tel qu’il est écrit”, a déclaré John Mueller, défenseur de la recherche Google, sur Twitter. “Les ressources/contenus intégrés extraits avec des balises IMG ne font pas partie du fichier HTML.”

Ce que cela signifie pour le référencement

Pour s’assurer que Googlebot le pondère, le contenu important doit désormais être inclus en haut des pages Web. Cela signifie que le code doit être structuré de manière à placer les informations pertinentes pour le référencement avec les 15 premiers Mo dans un fichier HTML ou texte compatible.

Cela signifie également que les images et les vidéos doivent être compressées et non directement encodées en HTML, dans la mesure du possible.

Les meilleures pratiques de référencement recommandent actuellement de maintenir les pages HTML à 100 Ko ou moins, de sorte que de nombreux sites ne seront pas affectés par ce changement. La taille de la page peut être vérifiée avec une variété d’outils, y compris Google Page Speed ​​​​Insights.

En théorie, il peut sembler inquiétant que vous puissiez potentiellement avoir du contenu sur une page qui n’est pas utilisée pour l’indexation. Cependant, en pratique, 15 Mo représentent une quantité considérable de HTML.

Comme le dit Google, les ressources telles que les images et les vidéos sont récupérées séparément. D’après la formulation de Google, il semble que cette limite de 15 Mo s’applique uniquement au HTML.

Il serait difficile de battre cette limite avec HTML à moins de publier le texte d’un livre entier sur une seule page.

Si vous avez des pages qui dépassent 15 Mo de HTML, vous avez probablement des problèmes sous-jacents qui doivent être corrigés de toute façon.


Police de caractère: Centre de recherche Google
Image en vedette : SNEHIT PHOTO/Shutterstock





Cet article a été traduit par searchenginejournal

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici