Qu’est-ce que le fichier robots.txt et comment le créer ?

Agence Marketing Digital

17/03/2020

Progrès de la lecture

Fichier Robots.txt

Le fichier Robots.txt est l’un des éléments les plus célèbres dans le domaine du SEO. Plus précisément dans l’optimisation du budget de crawl. Ce fichier recommande aux robots de Google le contenu qui doit être indexé et celui qui ne doit pas l’être.

Qu’est-ce que le fichier Robots.txt ?

La définition officielle de Google pour ce fichier est la suivante :

«Un fichier robots.txt est un fichier qui se trouve à la racine d’un site et qui indique les parties auxquelles vous ne voulez pas que les robots des moteurs de recherche aient accès. Le fichier utilise la norme d’exclusion des robots, qui est un protocole comportant un petit ensemble de commandes pouvant être utilisées pour indiquer l’accès au site web par section et par des types spécifiques de crawlers web (tels que les crawlers mobiles ou les crawlers informatiques)».

Les robots sont largement utilisés par les moteurs de recherche pour organiser et classer le contenu d’un site web

Ce fichier texte est une série de directives qui sont spécifiées aux robots de Google lorsqu’ils accèdent à une page Web. De cette manière, vous pouvez gérer le contenu de votre site Web que vous souhaitez voir figurer dans l’index de Google.

Comme expliqué dans la définition, ce fichier doit être hébergé à la racine de votre site web, c’est-à-dire accroché directement au domaine. Ainsi, lorsque les robots de Google voudront pénétrer sur votre site Web, la première chose qu’ils trouveront sera ce fichier, qui leur indiquera le contenu à vérifier et celui à ne pas vérifier.

En ce sens, robots.txt agit comme un «gardien» lorsque vous arrivez dans une pièce. Il vérifie votre entrée et vous indique si et où vous pouvez entrer.

Comment fonctionne le fichier Robots.txt ?

Le fichier robots.txt est un simple fichier de texte brut, comme celui que vous créez avec un éditeur de texte normal. Il doit donc suivre un protocole standard d’exclusion des robots.

Néanmoins, les directives dont nous parlons concernant l’indexation ou non d’un contenu sont plutôt des recommandations auxquelles, en général, les robots d’exploration de Google prêtent attention, mais d’autres moteurs de recherche tels que Yandex ou Bing ne sont pas tenus de le faire.

S’il est vrai que le fichier robots.txt est commun, il est bon de considérer que chaque moteur de recherche est différent.
Le fichier robots.txt contient les normes internationales, cependant, il est nécessaire de connaître la syntaxe de chacune d’entre elles, en l’occurrence non seulement de Google mais aussi de Bing, Yahoo ou d’un autre moteur de recherche.

Les «directives ou recommandations» sont écrites dans le fichier et respectent des règles de mise en œuvre spécifiques, c’est-à-dire que vous ne pouvez pas écrire les directives comme vous le souhaitez. Ils fonctionnent grâce à des commandes reconnues par le moteur de recherche et des expressions régulières pour spécifier les répertoires ou les plages pour les directives.

Google fait principalement la distinction entre deux types de bots :

– User-Agent: Il est utilisé pour rechercher et donner des instructions, pour utiliser ce bot tapez la commande user-agent:*..
– Googlebots: il s’agit des bots Google les plus courants, il en existe plusieurs, comme le bot d’image, mobile (pour les mobiles), etc….

Comment créer correctement le fichier robots.txt ?

Tout d’abord, créez un nouveau document en texte brut.

Afin d’établir correctement les directives dans le fichier robots.txt, des commandes sont utilisées pour dicter l’ordre et des expressions régulières sont utilisées pour déterminer l’accès à donner aux robots de Google.

Le premier bot à déclarer est le user-agent avec le «*» pour indiquer que l’utilisateur admin peut accéder à tous les contenus, répertoires, etc. Cela ressemblerait à ceci :

user-agent:*

Ensuite, vous devez spécifier les endroits où vous ne voulez pas que les robots de Google entrent. Pour cela, il y a principalement 2 commandes, «Allow» et «Disallow».

– Autoriser la commande dans le fichier robots.txt :

Il s’agit de la commande «allow», c’est-à-dire que la commande «allow» indique au robot Google qu’il peut analyser et indexer le contenu que vous spécifiez pour cette commande.

par exemple :

allow:/ «Cette commande indique aux robots de Google qu’ils peuvent accéder à tout, puisque le «/» indique «tous les répertoires».

Si vous proposez «allow : /images», vous indiquez que les robots peuvent accéder aux répertoires et sous-répertoires qui pendent de «images».

À l’inverse, la directive «disallow» conseille aux robots de Google de ne pas accéder à ces adresses spécifiques ou de les «ignorer».

EXEMPLES D’UTILISATION DE ROBOTS.TXT

Les cas les plus fréquents pour robots.txt

Comme vous pouvez l‘imaginer, robots.txt ne consiste pas à refuser l’accès à tout ou à l’activer, ce fichier fonctionne précisément pour personnaliser l’accès des robots. Voici les situations de configuration les plus courantes pour ce fichier.

Refuser tout accès aux robots de Google

Refuser tout accès aux robots de Google

User-agent: *
Disallow: /

Là, la commande «disallow» interdit l’accès à tous les bots, et la barre oblique «/» interdit l’accès à tous les fichiers et répertoires du répertoire racine.

Autoriser l’accès à un seul robot

User-agent: nombredelbot#
Disallow:
User-agent: *
Disallow: /

Ainsi, seul un robot (celui que vous avez spécifié) pourra accéder à votre contenu..

Refuser à un bot spécifique l’accès à un répertoire spécifique

User-agent: nombredelbot#
Disallow: /private/

Dans ce cas, le robot que vous spécifiez n’entrera pas dans le répertoire privé ou ses sous-dossiers.

Interdire à tous les bots l’accès à un répertoire spécifique

User-agent: *
Disallow: /directory/file.html

Dans ce cas, nous demandons à tous les robots de Google de ne pas entrer dans le fichier spécifique «/répertoire/fichier.html».

Refuser l’accès à toutes les images de votre site web (désindexer les images dans Google images).

User-agent: Googlebot-Image
Disallow: /

De cette façon, nous ordonnons au robot Google Images de ne pas accéder à quoi que ce soit, de sorte qu’il finira par n’indexer aucune image dans «Google Images».

Commentaire sur un fichier robots.txt

Si vous devez préciser les directives que vous mettez en œuvre dans un fichier robots.txt, vous pouvez utiliser des commentaires. Ceux-ci sont créés en saisissant le symbole «#» avant le commentaire lui-même ou à la fin d’un répertoire.

De cette façon, le commentaire ne fera pas partie des directives ou des exécutions.

User-agent: * # tous les bots
Disallow: / # empêcher leur entrée

Dans cet exemple, «#tous les bots» et «#empêcher leur entrée» ne font pas partie du code d’instruction, ce sont de simples informations.

COMMANDES UTILES DANS ROBOTS.TXT

– Déclarez l’adresse du plan Sitemap :

«url où votre sitemap.xml»

Il est fortement recommandé d’indiquer dans le fichier robots.txt l’adresse de vos sitemaps. Ce faisant, vous aidez Google à reconnaître plus facilement et en premier lieu la structure complète de votre site Web, avant même d’y accéder

– Gestion du budget de rampement avec la directive sur les délais de rampement

Cette commande indique au robot Google combien de temps (en secondes) il doit attendre le chargement de la page entre deux pages. Il s’agit d’une commande largement utilisée dans le domaine du SEO pour optimiser la vitesse de chargement des serveurs.

Exemple de robots txt

Voici un exemple d’un vrai fichier robots.txt. Il montre comment sont spécifiés les répertoires auxquels les robots de Google n’ont pas accès et, à la fin, l’adresse du sitemap.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tudominio.com/sitemap.xml

Disallow: /*.pdf$
Disallow: /*.docx$
Disallow: /area-privada/
Disallow: /tutorial/*
Disallow: /privado*
Disallow: /blog/page/
Disallow: /oxy_testimonial/
Disallow: /oxy_swatch/
Disallow: /equipo/
Disallow: /author/
Disallow: /portfolio/
Disallow: /registro/
Disallow: /login/
Disallow: /our-services/
Disallow: /oxy_portfolio_features/
Disallow: /woocommerce-tienda-online-wordpress/top-10-ecommerce-world/
Disallow: /woocommerce-tienda-online-wordpress/producto-variable-woocommerce*/
Disallow: /woocommerce-tienda-online-wordpress/informacion-producto-woocommerce*/
Disallow: /woocommerce-tienda-online-wordpress/atributos-woocommerce/
Disallow: /woocommerce-tienda-online-wordpress/ajustes-woocommerce-envio*/
Disallow: /woocommerce-tienda-online-wordpress/ajustes*/
Disallow: /velocidad-carga-rapida-wordpress/p3*/
Disallow: /seguridad-y-proteger-wordpress/permisos-carpeta-wordpress/
Disallow: /guia-tutorial-facebook-ads-anuncios/fb*/
Disallow: /aumentar-ventas-tienda-online/redes-sociales/

Robots.txt

Vous savez déjà ce qu’est le fichier robots.txt et dans quels cas il est le plus couramment utilisé. C’est maintenant à vous de le créer pour votre site web. Si vous avez besoin d’aide pour créer votre fichier robots.txt ou pour tout autre besoin de marketing digital, à posición web nous sommes heureux de vous aider. Contactez-nousç et nous pourrons vous conseiller sans engagement et vous aider à développer votre activité online.

Nous sommes une agence de marketing digital et un Google Partner, vous serez entre de bonnes mains.