Comment créer un fichier robot.txt

Tout le monde aime les “hacks”.

Je ne fais pas exception : j’aime trouver des moyens de rendre ma vie meilleure et plus facile.

C’est pourquoi la technique dont je vais vous parler aujourd’hui est l’une de mes préférées. C’est un hack SEO légitime que vous pouvez commencer à utiliser tout de suite.

C’est un moyen d’augmenter votre référencement en profitant d’une partie naturelle de chaque site web dont on parle rarement. Ce n’est pas difficile à mettre en œuvre non plus.

Il s’agit du fichier robots.txt (également appelé protocole ou norme d’exclusion des robots).

Ce minuscule fichier texte fait partie de tous les sites web sur Internet, mais la plupart des gens ne le connaissent même pas.

Il est conçu pour fonctionner avec les moteurs de recherche, mais étonnamment, c’est une source de jus de référencement qui n’attend que d’être débloquée.

J’ai vu de nombreux clients se plier en quatre pour essayer d’améliorer leur référencement. Quand je leur dis qu’ils peuvent modifier un petit fichier texte, ils ne me croient presque pas.

Cependant, il existe de nombreuses méthodes pour améliorer le référencement qui ne sont ni difficiles ni longues, et celle-ci en est une.

Il n’est pas nécessaire d’avoir une expérience technique pour exploiter la puissance de robots.txt. Si vous pouvez trouver le code source de votre site web, vous pouvez l’utiliser.

Quand vous serez prêt, suivez-moi et je vous montrerai exactement comment modifier votre fichier robots.txt pour que les moteurs de recherche l’adorent.

Pourquoi le fichier robots.txt est important
Tout d’abord, voyons pourquoi le fichier robots.txt est si important.

Le fichier robots.txt, également appelé protocole ou norme d’exclusion des robots, est un fichier texte qui indique aux robots du web (le plus souvent les moteurs de recherche) les pages de votre site à explorer.

Il indique également aux robots web les pages qu’ils ne doivent pas explorer.

Disons qu’un moteur de recherche est sur le point de visiter un site. Avant de visiter la page cible, il consulte le fichier robots.txt pour obtenir des instructions.

Il existe différents types de fichiers robots.txt. Voyons donc quelques exemples différents de ce à quoi ils ressemblent.

Supposons que le moteur de recherche trouve cet exemple de fichier robots.txt :

Il s’agit du squelette de base d’un fichier robots.txt.

L’astérisque après “user-agent” signifie que le fichier robots.txt s’applique à tous les robots web qui visitent le site.

La barre oblique après “Disallow” indique au robot de ne visiter aucune page du site.

Vous vous demandez peut-être pourquoi quelqu’un voudrait empêcher les robots web de visiter son site.

Après tout, l’un des principaux objectifs du référencement est d’amener les moteurs de recherche à explorer votre site facilement afin d’améliorer votre classement.

C’est là qu’intervient le secret de ce hack SEO.

Vous avez probablement beaucoup de pages sur votre site, n’est-ce pas ? Même si vous pensez que ce n’est pas le cas, allez vérifier. Vous pourriez être surpris.

Si un moteur de recherche explore votre site, il explorera chacune de vos pages.

Et si vous avez beaucoup de pages, le robot du moteur de recherche mettra un certain temps à les parcourir, ce qui peut avoir des effets négatifs sur votre classement.

C’est parce que Googlebot (le robot du moteur de recherche de Google) a un “budget d’exploration”.

Cela se décompose en deux parties. La première est la limite du taux de crawl. Voici comment Google explique cela :

La deuxième partie est la demande de crawl :

En gros, le budget d’indexation est “le nombre d’URL que Googlebot peut et veut indexer”.

Vous voulez aider Googlebot à dépenser son budget de crawl pour votre site de la meilleure façon possible. En d’autres termes, il doit explorer vos pages les plus précieuses.

Certains facteurs peuvent, selon Google, “affecter négativement l’exploration et l’indexation d’un site”.

Voici ces facteurs :

Revenons donc à robots.txt.

Si vous créez la bonne page robots.txt, vous pouvez dire aux robots des moteurs de recherche (et surtout à Googlebot) d’éviter certaines pages.

Pensez aux conséquences. Si vous dites aux robots des moteurs de recherche de n’explorer que le contenu le plus utile, les robots exploreront et indexeront votre site en se basant uniquement sur ce contenu.

Comme le dit Google :

“Vous ne voulez pas que votre serveur soit submergé par le crawler de Google ou gaspiller votre budget de crawl en parcourant des pages sans importance ou similaires sur votre site”.

En utilisant votre robots.txt de la bonne manière, vous pouvez dire aux robots des moteurs de recherche de dépenser leur budget de crawl de manière judicieuse. Et c’est ce qui rend le fichier robots.txt si utile dans un contexte de référencement.

Vous êtes intrigué par la puissance du fichier robots.txt ?

Vous devriez l’être ! Parlons de la façon de le trouver et de l’utiliser.

Trouver votre fichier robots.txt


Si vous souhaitez simplement jeter un coup d’œil à votre fichier robots.txt, il existe un moyen super facile de le consulter.

En fait, cette méthode fonctionnera pour n’importe quel site. Vous pouvez donc jeter un coup d’œil sur les fichiers des autres sites et voir ce qu’ils font.

Il vous suffit de taper l’URL de base du site dans la barre de recherche de votre navigateur (par exemple, neilpatel.com, quicksprout.com, etc.). ). Ajoutez ensuite /robots.txt à la fin.

L’une des trois situations suivantes se produira :

1) Vous trouverez un fichier robots.txt.

2) Vous trouverez un fichier vide.

Par exemple, il semble manquer à Disney un fichier robots.txt :

3) Vous obtiendrez un 404.

La méthode retourne un 404 pour robots.txt :

Prenez une seconde et regardez le fichier robots.txt de votre propre site.

Si vous trouvez un fichier vide ou un 404, vous voudrez y remédier.

Si vous trouvez un fichier valide, il est probablement défini sur les paramètres par défaut qui ont été créés lors de la création de votre site.

J’aime particulièrement cette méthode pour regarder les fichiers robots.txt d’autres sites. Une fois que vous aurez appris les tenants et aboutissants du fichier robots.txt, cela peut être un exercice précieux.

Voyons maintenant comment modifier votre fichier robots.txt.

Trouver votre fichier robots.txt
Vos prochaines étapes vont toutes dépendre du fait que vous ayez ou non un fichier robots.txt. (Vérifiez si vous en avez un en utilisant la méthode décrite ci-dessus).

Si vous n’avez pas de fichier robots.txt, vous devrez en créer un à partir de zéro. Ouvrez un éditeur de texte brut comme Notepad (Windows) ou TextEdit (Mac.)

Utilisez uniquement un éditeur de texte brut pour cela. Si vous utilisez des programmes comme Microsoft Word, le programme pourrait insérer du code supplémentaire dans le texte.

Editpad.org est une excellente option gratuite, et c’est ce que vous me verrez utiliser dans cet article.

Retour à robots.txt. Si vous avez un fichier robots.txt, vous devez le localiser dans le répertoire racine de votre site.

Si vous n’avez pas l’habitude de fouiller dans le code source, il peut être un peu difficile de localiser la version modifiable de votre fichier robots.txt.

En général, vous pouvez trouver votre répertoire racine en vous rendant sur le site web de votre compte d’hébergement, en vous connectant et en vous rendant dans la section de gestion des fichiers ou FTP de votre site.

Vous devriez voir quelque chose qui ressemble à ceci :

Trouvez votre fichier robots.txt et ouvrez-le pour l’éditer. Supprimez tout le texte, mais conservez le fichier.

Remarque : si vous utilisez WordPress, vous verrez peut-être un fichier robots.txt lorsque vous vous rendrez sur yoursite.com/robots.txt, mais vous ne pourrez pas le trouver dans vos fichiers.

En effet, WordPress crée un fichier robots.txt virtuel s’il n’y a pas de fichier robots.txt dans le répertoire racine.

Si cela vous arrive, vous devrez créer un nouveau fichier robots.txt.

Création d’un fichier robots.txt
Vous pouvez créer un nouveau fichier robots.txt en utilisant l’éditeur de texte brut de votre choix. (N’oubliez pas de n’utiliser qu’un éditeur de texte en clair).

Si vous avez déjà un fichier robots.txt, assurez-vous d’avoir supprimé le texte (mais pas le fichier).

Tout d’abord, vous devez vous familiariser avec la syntaxe utilisée dans un fichier robots.txt.

Google propose une explication agréable de certains termes de base du fichier robots.txt :

Je vais vous montrer comment configurer un simple fichier robots.txt, puis nous verrons comment le personnaliser pour le référencement.

Commencez par définir le terme user-agent. Nous allons le définir de manière à ce qu’il s’applique à tous les robots du web.

Pour ce faire, utilisez un astérisque après le terme user-agent, comme ceci :

Ensuite, tapez “Disallow :” mais ne tapez rien après cela.

Puisqu’il n’y a rien après le “Disallow”, les robots web seront dirigés pour explorer votre site en entier. Pour l’instant, tout ce qui se trouve sur votre site est équitable.

Pour l’instant, votre fichier robots.txt devrait ressembler à ceci :

Je sais que ça a l’air super simple, mais ces deux lignes font déjà beaucoup.

Vous pouvez aussi faire un lien vers votre plan de site XML, mais ce n’est pas nécessaire. Si vous le souhaitez, voici ce qu’il faut taper :

Croyez-le ou non, voici à quoi ressemble un fichier robots.txt de base.

Passons maintenant à l’étape suivante et transformons ce petit fichier en un booster de référencement.

Optimiser le fichier robots.txt pour le référencement


La façon dont vous optimisez robots.txt dépend du contenu de votre site. Il existe toutes sortes de façons d’utiliser le fichier robots.txt à votre avantage.

Je vais passer en revue quelques-unes des façons les plus courantes de l’utiliser.

(Gardez à l’esprit que vous ne devez pas utiliser robots.txt pour bloquer les pages des moteurs de recherche. C’est un gros non-non).

L’une des meilleures utilisations du fichier robots.txt est de maximiser le budget d’exploration des moteurs de recherche en leur disant de ne pas explorer les parties de votre site qui ne sont pas affichées au public.

Par exemple, si vous visitez le fichier robots.txt de ce site (neilpatel.com), vous verrez qu’il interdit la page de connexion (wp-admin).

Cette page n’étant utilisée que pour se connecter à l’arrière-plan du site, il ne serait pas logique que les robots des moteurs de recherche perdent leur temps à la parcourir.

(Si vous avez WordPress, vous pouvez utiliser exactement la même ligne d’interdiction).

Vous pouvez utiliser une directive (ou une commande) similaire pour empêcher les robots d’explorer des pages spécifiques. Après la ligne d’interdiction, entrez la partie de l’URL qui vient après le .com. Placez cette partie entre deux barres obliques.

Ainsi, si vous voulez dire à un robot de ne pas explorer votre page http://yoursite.com/page/, vous pouvez taper ceci :

Vous vous demandez peut-être précisément quels types de pages exclure de l’indexation. Voici quelques scénarios courants dans lesquels cela pourrait se produire :

Contenu dupliqué à des fins précises. Bien que la duplication du contenu soit généralement une mauvaise chose, il existe quelques cas où elle est nécessaire et acceptable.

Par exemple, si vous avez une version imprimable d’une page, vous avez techniquement un contenu en double. Dans ce cas, vous pouvez dire aux robots de ne pas explorer l’une de ces versions (généralement la version imprimable).

Cela est également pratique si vous testez des pages qui ont le même contenu mais des conceptions différentes.

Pages de remerciement. La page de remerciement est l’une des pages préférées des spécialistes du marketing car elle signifie une nouvelle piste.

…N’est-ce pas ?

Il s’avère que certaines pages de remerciement sont accessibles via Google. Cela signifie que les gens peuvent accéder à ces pages sans passer par le processus de saisie de prospects, et c’est une mauvaise nouvelle.

En bloquant vos pages de remerciement, vous pouvez vous assurer que seuls les prospects qualifiés les voient.

Disons que votre page de remerciement se trouve à l’adresse https://yoursite.com/thank-you/. Dans votre fichier robots.txt, le blocage de cette page ressemblerait à ceci :

Comme il n’existe pas de règles universelles pour déterminer les pages à bloquer, votre fichier robots.txt sera unique à votre site. Utilisez votre jugement ici.

Il y a deux autres directives que vous devez connaître : noindex et nofollow.

Vous connaissez la directive d’interdiction que nous utilisons ? Elle n’empêche pas réellement la page d’être indexée.

Donc, en théorie, vous pouvez interdire une page, mais elle peut quand même se retrouver dans l’index.

En général, vous ne voulez pas cela.

C’est pourquoi vous avez besoin de la directive de non-indexation. Elle fonctionne avec la directive “disallow” pour s’assurer que les robots ne visitent pas ou n’indexent pas certaines pages.

Si vous avez des pages que vous ne voulez pas voir indexées (comme ces précieuses pages de remerciement), vous pouvez utiliser les deux directives disallow et noindex :

Cette page n’apparaîtra pas dans les SERPs.

Enfin, il y a la directive nofollow. C’est en fait la même chose qu’un lien nofollow. En bref, elle dit aux robots web de ne pas explorer les liens d’une page.

Mais la directive nofollow va être appliquée un peu différemment car elle ne fait pas partie du fichier robots.txt.

Cependant, la directive nofollow donne toujours des instructions aux robots du web, donc c’est le même concept. La seule différence est l’endroit où elle a lieu.

Trouvez le code source de la page que vous voulez modifier, et assurez-vous que vous êtes entre les balises .

Ensuite, collez cette ligne :

Il devrait donc ressembler à ceci :

Assurez-vous que vous ne mettez pas cette ligne entre d’autres balises, juste les balises .

C’est une autre bonne option pour les pages de remerciement, car les robots du web n’exploreront pas les liens vers des aimants en plomb ou d’autres contenus exclusifs.

Si vous voulez ajouter les directives noindex et nofollow, utilisez cette ligne de code :

Cela donnera aux robots du web les deux directives en même temps.

Tout tester


Enfin, testez votre fichier robots.txt pour vous assurer que tout est valide et fonctionne correctement.

Google propose un testeur robots.txt gratuit dans le cadre des outils pour webmasters.

Tout d’abord, connectez-vous à votre compte de webmestre en cliquant sur “Connexion” dans le coin supérieur droit.

Sélectionnez votre propriété (c’est-à-dire votre site web) et cliquez sur “Crawl” dans la barre latérale gauche.

Vous verrez alors apparaître “robots.txt Tester”. Cliquez sur ce lien.

S’il y a déjà un code dans la case, supprimez-le et remplacez-le par votre nouveau fichier robots.txt.

Cliquez sur “Test” dans la partie inférieure droite de l’écran.

Si le texte “Test” devient “Autorisé”, cela signifie que votre fichier robots.txt est valide.

Voici quelques informations supplémentaires sur l’outil afin que vous puissiez apprendre ce que tout cela signifie en détail.

Enfin, téléchargez votre fichier robots.txt dans votre répertoire racine (ou enregistrez-le à cet endroit si vous en avez déjà un). Vous êtes maintenant armé d’un fichier puissant, et vous devriez constater une augmentation de la visibilité de votre recherche.

Conclusion


J’ai toujours aimé partager des “hacks” SEO peu connus qui peuvent vous donner un réel avantage à plus d’un titre.

En configurant votre fichier robots.txt de la bonne manière, vous n’améliorez pas seulement votre propre référencement. Vous aidez également vos visiteurs.

Si les robots des moteurs de recherche peuvent dépenser leur budget de crawl de manière judicieuse, ils organiseront et afficheront votre contenu dans les SERP de la meilleure manière possible, ce qui signifie que vous serez plus visible.

La configuration de votre fichier robots.txt ne demande pas non plus beaucoup d’efforts. Il s’agit principalement d’une installation unique, et vous pouvez y apporter de petites modifications si nécessaire.

Que vous lanciez votre premier ou votre cinquième site, l’utilisation de robots.txt peut faire une grande différence. Je vous recommande de le faire tourner si vous ne l’avez pas encore fait.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *