Comment bien indexer les pages de son site ?
Google, comme tout autre moteur de recherche (Bing, Qwant, Ecosia, Yandex, Baidu…), s’appuie sur un algorithme pour indexer les pages web au sein de ses résultats. Mais comment fonctionne l’indexation ? Sur quel algorithme l’indexation s’appuie-t-elle ? Et enfin, 12 conseils pour optimiser l’indexation de mon site web.
Sommaire
- Qu’est-ce-que l’indexation et comment fonctionne-t-elle ?
- Comment optimiser l’indexation de mon site web ?
- Comment savoir si mon site est indexé par Google ?
- Comment faire indexer mon site web par Google ?
- 1. Rendez le site indexable avec le fichier robots.txt
- 2. Facilitez le crawl aux robots avec le sitemap.xml
- 3. Utilisez Google Search Console pour surveiller l’indexation des pages
- 4. Demandez une ré-indexation des pages à Google
- 5. Proposez des pages responsive
- 6. Mettez vos pages régulièrement à jour
- 7. Optimisez le maillage interne
- 8. Optimisez vos en-têtes
- 9. Faites en sorte que vos pages chargent rapidement
- 10. Optimisez votre autorité
- 11. Faites du tri
- 12. Surveillez vos 404
Qu’est-ce-que l’indexation et comment fonctionne-t-elle ?
L’indexation d’une page web, c’est son apparition parmi les résultats de recherche lorsqu’un utilisateur formule une requête. Google compare son indexation au catalogue d’une bibliothèque, qui permettrait à l’utilisateur de trouver l’information dont il a besoin lorsqu’il en fait la demande.
“L'index Google est comparable au catalogue d'une bibliothèque, qui fournit des informations sur tous les livres disponibles dans la bibliothèque. Toutefois, en lieu et place d'informations sur les livres, l'index Google contient la liste de toutes les pages Web dont les systèmes Google ont connaissance.” Source : Support Google
L’indexation Google sert ainsi à répertorier les différents sites et pages web afin de permettre à l’utilisateur de parvenir à l’information recherchée lorsqu’il a formulé sa requête dans la barre de recherche. L’indexation désigne donc le fait d’inventorier et de hiérarchiser à la fois les contenus correspondant à une intention.
Indexation et positionnement : c’est la même chose ?
La plupart du temps, on estime que l’indexation d’une page et son positionnement désignent le même phénomène. Or, si l’on veut être précis, il convient de distinguer les deux. L’indexation correspond en effet plutôt à la prise en compte d'une page par un moteur de recherche, quand le positionnement désigne le placement de cette dernière parmi les résultats. Ainsi, le positionnement implique que l’indexation ait déjà eu lieu. L’indexation pourrait plutôt s’apparenter à l’acte de classifier la page, à son “repérage” par l’algorithme, tandis que le positionnement relève davantage de son placement une fois l’indexation effectuée et de son évolution au fur et à mesure.
Quelques informations au sujet des index Google
La saviez-vous ? Depuis 2003, Google utilise 2 index distincts.
Le premier index Google, ou son index principal, répertorie les pages auxquelles nous accédons via la SERP pendant une recherche classique.
Le second index Google, appelé index secondaire ou index complémentaire, est utilisé par Google pour classer les pages “de second choix”, c’est-à-dire les pages ne s’affichant qu’à la demande de l’utilisateur, lorsqu’il clique sur le bouton “Relancer la recherche en incluant les pages ignorées”. En effet, le web regorge de pages diverses et variées et parmi elles un grand nombre ne respecte pas les critères d’optimisation préconisés par Google, comme :
- l’interdiction du Duplicate Content,
- l’interdiction de créer des fermes de liens,
- l’interdiction de suroptimiser un contenu en utilisant un trop grand nombre de mots-clés,
- etc…
Les contenus “de second choix” sont des contenus jugés sans intérêt par Google : des contenus non pertinents, trop courts ou sur des sites aux capacités techniques insuffisantes (temps de chargement trop long par exemple).
Mais ces pages existent pourtant bel et bien et peuvent servir à de nombreux utilisateurs, notamment sur des sujets de niche ou pour des recherches très exhaustives. C’est pourquoi Google les indexe tout de même et permet aux utilisateurs consentants d’y accéder. La grande différence entre Google et ses concurrents français (Bing et Yahoo) tient justement à cette sélectivité puisque la concurrence utilise aussi les résultats de second choix en les mélangeant aux autres. En clair, la concurrence n’utilise pas d’algorithme de sélection aussi précis pour l’indexation de ses contenus et là où Google répartit les contenus de “qualité première” et les contenus de second choix, les moteurs de recherche concurrents ne font pas la différence.
Quelques chiffres sur l’indexation Google
- On comptait 130 milliards de pages indexées par Google en 2021 !
- Ce sont 20 milliards de sites web qui sont crawlés et indexés par Google au quotidien.
- 80 000 requêtes sont formulées chaque seconde. Pour une journée, cela correspond à 6,9 milliards.
- Parmi elles, 500 millions de requêtes sont nouvelles et n’avaient jamais été formulées jusqu’alors.
Comment optimiser l’indexation de mon site web ?
Il est possible de faire indexer son site web par Google si l’on constate que ce n’est pas chose faite. En ce cas, plusieurs facteurs différents sont à surveiller et il est possible de mettre en place certaines actions.
Comment savoir si mon site est indexé par Google ?
Pour savoir si un site est indexé par Google, rien de plus simple. Il faut saisir la requête suivante dans le moteur de recherche “site:www.votresite.com”. Si le site web apparaît dans les résultats, alors il est bel et bien indexé. Autrement, c’est qu’il ne l’est pas.
Comment faire indexer mon site web par Google ?
Vous êtes propriétaire d’un site web, mais malgré vos efforts, Google n’indexe pas votre site. Voici quelques pistes à suivre pour faire en sorte que Google indexe votre site.
1. Rendez le site indexable avec le fichier robots.txt
Parfois, certains sites n’apparaissent pas parmi les résultats de recherche Google simplement parce qu’ils ne respectent pas les critères fondamentaux d’indexabilité. L’indexabilité, c’est la manière dont le webmaster va montrer à Google que son site est disponible pour indexation. Pour cela, il est tout d’abord nécessaire de mettre à la disposition des robots crawlers un fichier robots.txt qui permet de signaler à Google quelles pages indexer. Car oui, sur un site, toute page n’est pas bonne à indexer (doublons, récapitulatif du panier, pages institutionnelles…). Cela permettra d’éviter d’indexer des pages qui n’ont pas lieu de l’être et qui pourraient pénaliser le référencement du site de manière globale.
2. Facilitez le crawl aux robots avec le sitemap.xml
Le sitemap est un fichier permettant aux robots de se repérer dans le plan du site, d’accéder aux pages les unes après les autres et de comprendre la logique de navigation entre chacune d’entre elles. Il facilite le crawl des robots et accélérerait ainsi l’indexation des pages d’un site.
3. Utilisez Google Search Console pour surveiller l’indexation des pages
Outil n°1 des webmasters, la Google Search Console permet d’inspecter chaque URL pour connaître son état d’indexation, grâce à l’inspecteur d’indexation. Il suffit alors de copier/coller l’URL dont on cherche à connaître l’état dans le formulaire de recherche.
4. Demandez une ré-indexation des pages à Google
Google Search Console permet également de demander une ré-indexation des contenus dans le cas où une ou plusieurs pages ont été récemment modifiées. En effet, des modifications apportées à certaines pages peuvent modifier leur optimisation et donc leur positionnement, c’est pourquoi il est alors important de demander à Google de les indexer à nouveau, c’est-à-dire de procéder à une nouvelle analyse. Afin de demander une ré-indexation, il suffit de cliquer sur le bouton éponyme.. Lorsque l’on dispose d’un grand nombre de pages, alors on demandera plutôt une réindexation du sitemap afin que Google effectue une analyse plus globale.
5. Proposez des pages responsive
Depuis le 4 novembre 2016, Google indexe les pages en se basant sur l’index Mobile First, c’est-à-dire en analysant les versions mobiles de chacune d’entre elles plutôt que les versions desktop (ordinateur) comme c’était le cas jusqu’alors. Ainsi donc, les sites web non responsive, c’est-à-dire ceux qui ne proposent pas de version mobile optimisée, connaissent une inéluctable évolution négative dans leur positionnement parmi les SERP. C’est pourquoi il est extrêmement important de proposer une version mobile de votre site optimisée, et adaptable à tous les appareils, qui privilégie toujours l’UX (l’expérience-utilisateur) malgré le changement de device.
6. Mettez vos pages régulièrement à jour
Plus les mises à jour sont nombreuses et plus un site web dispose d’un budget crawl important, c’est-à-dire qu’il va être indexé plus régulièrement si on le renouvelle de temps à autre. Ainsi, il convient de proposer des actualités, ou alors d'enrichir des articles, de proposer des edit en fonction des changement de data : autant de modifications qui incitent les robots à crawler régulièrement et à ré-indexer vos contenus.
7. Optimisez le maillage interne
Le saviez-vous ? On appelle les robots crawlers des spiders (araignées), et le web forme une toile. Il faut comprendre que chaque site forme une toile également et qu’il est plus facile pour les araignées de se déplacer si l’on a déjà pré-tissé la toile pour elles. Aussi, il est très important de créer des liens entre chaque page afin de proposer un chemin déterminé aux robots : ils ne vous référenceront que mieux et l’indexation sera facilitée.
8. Optimisez vos en-têtes
La définition et la hiérarchie des titres et des sous-titres n’est pas un accessoire : elle permet aux robots de Google de se repérer sur un contenu. N’oublions pas que les robots crawlers ne disposent pas de notre intelligence humaine, c’est pourquoi il est nécessaire de les assister dans l’analyse de nos pages en leur fournissant l’ossature rédactionnelle de chacune d’entre elles. A ce titre, les H1 doivent être représentatifs du contenu de chaque page (et foncièrement transparents) et les sous-titres doivent indiquer aux robots de quelle problématique précise traite chaque paragraphe.
9. Faites en sorte que vos pages chargent rapidement
Le saviez-vous ? Un utilisateur sur deux cesse sa navigation sur un site si les pages mettent plus de 3 secondes à charger. La même logique s’applique aux robots d’indexation : si une page met trop de temps à charger, alors le robot abandonne son analyse et n’indexe pas la page. Il est donc important que le temps de chargement des pages de votre site soit le plus rapide possible.
10. Optimisez votre autorité
Plus un site est reconnu parmi ses pairs pour son sérieux, sa pertinence et sa fiabilité et plus les robots crawlers analyseront ses pages. Ainsi, il convient de travailler l’acquisition de backlinks, d’obtenir des avis positifs sur Google My Business ou encore sur des solutions d’avis vérifiés. En clair, il est impératif d’optimiser les critères EEAT sur son site pour attirer les robots et augmenter son budget crawl.
11. Faites du tri
Imaginons une grande maison pleine de beaux objets mais aussi de nombreux bibelots sans intérêt. Ces bibelots ne mettent pas en valeur les beaux objets et la maison a peu de chance de se retrouver en couverture d’un magazine de décoration. Une fois que l’on a supprimé les vieux bibelots, la maison gagne en élégance et tous les visiteurs remarquent d’autant plus les beaux objets. C’est un peu le même principe pour l’indexation des pages d’un site : les pages sans valeur auront tendance à tirer l’indexation de toutes les autres vers le bas. Les robots estiment que le site n’est pas suffisamment pertinent et donc pas digne de confiance et ne l’indexeront pas ou dans une moindre mesure. Il est indispensable de faire du tri et d’alléger son site des pages pauvres et non pertinentes afin de mettre en valeur celles qui apportent une véritable valeur ajoutée.
12. Surveillez vos 404
Une page 404 est un peu comme une porte que l’on retrouverait fermée à clé : cela crée de la déception et surtout cela gâche le budget crawl du site. Alors mettez en place un plugin vous permettant de piloter et d’identifier les 404 et veillez à ne pas en laisser une seule sur votre site.