L'indexation des pages web
Depuis 2022, l'indexation des pages web est très aléatoire, en particulier pour les sites de faible autorité.
Certains ajustements techiques, qu'il est conseillé de confier à une entreprise de développement web, sont nécessaires pour optimiser les chances qu'une page soit indexée.
La phase de crawl
Le crawl d'un site web est la première action que les moteurs entreprennent pour découvrir un site. C’est seulement à la suite de cette étape de crawl que la page est indexée par le moteur de recherche et que ce contenu peut être trouvé via une simple requête.
Le crawl est donc l'exploration d'un site web par un robot de moteur de recherche. Le robot capture le contenu (code HTML) de la page, pour l'envoyer au moteur. Il identifie les liens sortants (internes et externes) de la page pour les suivre et explorer d'autres pages où il fera la même action, et ainsi de suite. Le crawl est donc utilisé pour découvrir les pages web et sauvegarder leur contenu. Googlebot, par exemple, explore des dizaines de milliards de sites web par jour.
Le sitemap : une aide essentielle pour le crawl
Un plan de Sitemap XML est un fichier qui répertorie les URL d'un site web en proposant éventuellement un certain nombre d'informations connexes pour chacune d'entre elles : URL de la page, date de la dernière modification, fréquence de modification, importance relative par rapport aux autres pages du site, etc.
Ces informations sont utilisées par le moteur pour réaliser un meilleur crawl du site.
Les sitemaps XML sont donc des fichiers qui contiennent une liste au format XML de toutes les pages qui composent un site web. Ces fichiers sont utiles aux robots des moteurs de recherche, qui utilisent les informations du sitemap pour effectuer un crawl efficace du site web, ce qui se traduit par une meilleure indexation des pages et par l'amélioration de leur positionnement.
Le fichier sitemap est composé d'une série de balises XML, un langage utilisé pour structurer les informations. Avec ce fichier, les webmasters peuvent fournir aux moteurs de recherche des données supplémentaires pour chacune des pages incluses dans un site web.
Le plan du site pour les internautes
Un plan de site pour les internautes est une page web qui liste une série de liens internes. Selon la Google Search Console, le sitemap est un : "Fichier dans lequel vous donnez des informations sur les pages, les vidéos et les autres fichiers présents sur votre site, et dans lequel vous indiquez les relations entre ces fichiers. Les moteurs de recherche tels que Google lisent ce fichier pour explorer plus intelligemment votre site."
Il sert à raccourcir le nombre de clics pour accéder aux différentes pages web, afin de mieux les crawler. Les sites qui comptent des dizaines de milliers de pages web ou davantage, sont confrontés aux difficultés d'une indexation exhaustive de leur contenu, surtout si le "siloing" de leur arborescence est trop profond. Dans ce cas, le sitemap pour internautes s'avère utile.