SEOtika
Intermédiaire

Robots.txt : Contrôler l'Accès des Robots à votre Site

Le fichier robots.txt indique aux robots quelles pages explorer ou ignorer. Une mauvaise configuration peut bloquer l'indexation de votre site.

Thomas Dupont
28 min de lecture

Le fichier robots.txt est la première chose que consultent les robots de Google. Il leur indique quelles parties de votre site explorer ou éviter. Une mauvaise configuration peut avoir des conséquences désastreuses sur votre SEO.

Ce que vous allez apprendre

Ce guide premium couvre la configuration complète du robots.txt : syntaxe, directives avancées, cas d'usage courants, et erreurs à éviter. Avec 3 études de cas et des exercices pratiques.

Qu'est-ce que le robots.txt ?

Le robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots (crawlers) des moteurs de recherche. Il fait partie du "Robots Exclusion Protocol" (REP).

emplacement.txt
# Emplacement obligatoire
https://example.com/robots.txt

# Le fichier doit être accessible publiquement
# Il est sensible à la casse (robots.txt ≠ Robots.TXT)

Ce que peut faire le robots.txt

  • ✓ Indiquer quels répertoires/pages ne pas explorer
  • ✓ Spécifier des règles pour des robots spécifiques
  • ✓ Indiquer l'emplacement du sitemap
  • ✓ Contrôler le crawl budget

Ce que NE peut PAS faire le robots.txt

  • ✗ Empêcher l'indexation (utilisez noindex)
  • ✗ Protéger du contenu sensible (utilisez l'authentification)
  • ✗ Bloquer les robots malveillants (ils l'ignorent)
  • ✗ Cacher des URLs (elles restent visibles dans le fichier)

Confusion fréquente

Bloquer une page dans robots.txt N'empêche PAS son indexation. Si d'autres sites lient vers cette page, Google peut l'indexer sans la crawler. Pour bloquer l'indexation, utilisez la balise meta noindex.

Syntaxe du robots.txt

Les directives principales

DirectiveDescriptionExemple
User-agentSpécifie le robot ciblé (* = tous)User-agent: Googlebot
DisallowInterdit l'accès à un cheminDisallow: /admin/
AllowAutorise l'accès (priorité sur Disallow)Allow: /admin/public/
SitemapIndique l'URL du sitemapSitemap: https://site.fr/sitemap.xml
Crawl-delayDélai entre requêtes (non supporté par Google)Crawl-delay: 10

Règles de syntaxe

syntaxe.txt
# Ceci est un commentaire (ignoré par les robots)

# Chaque bloc commence par User-agent
User-agent: *

# Les chemins sont sensibles à la casse
Disallow: /Admin/   # Bloque /Admin/ mais pas /admin/

# Le / à la fin est important
Disallow: /private   # Bloque /private, /private-page, /private/...
Disallow: /private/  # Bloque uniquement le dossier /private/

# Wildcards (*)
Disallow: /*.pdf$    # Bloque tous les PDF
Disallow: /page?*    # Bloque les URLs avec paramètres

Exemples de configuration

Configuration minimale recommandée

robots-minimal.txt
# Robots.txt minimal pour tout site
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Configuration pour blog/site vitrine

robots-blog.txt
# Robots.txt pour blog/site vitrine
User-agent: *
Allow: /

# Bloquer les pages d'administration
Disallow: /wp-admin/
Disallow: /admin/

# Bloquer les pages de connexion
Disallow: /login
Disallow: /register

# Bloquer les pages de recherche
Disallow: /search
Disallow: /?s=

# Bloquer les pages de tags (souvent peu utiles)
Disallow: /tag/

Sitemap: https://example.com/sitemap.xml

Configuration pour e-commerce

robots-ecommerce.txt
# Robots.txt pour e-commerce
User-agent: *
Allow: /

# Administration et checkout
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

# Filtres et tris (éviter duplicate content)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=

# Résultats de recherche
Disallow: /search/

# Pages de comparaison
Disallow: /compare/

# Listes de souhaits
Disallow: /wishlist/

Sitemap: https://shop.example.com/sitemap_index.xml

Bloquer des robots spécifiques

robots-specifiques.txt
# Règles par défaut
User-agent: *
Allow: /

# Bloquer les crawlers d'IA (si souhaité)
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

# Bloquer les robots agressifs
User-agent: AhrefsBot
Crawl-delay: 10

User-agent: SemrushBot
Crawl-delay: 10

Sitemap: https://example.com/sitemap.xml

Étude de cas n°1 : Site e-commerce invisible

Contexte

Un site e-commerce de 3000 produits avec seulement 50 pages indexées. Le client pensait avoir un problème de contenu.

TechShop.fr avait lancé son site depuis 6 mois mais n'apparaissait presque jamais dans Google. L'audit a révélé un problème de robots.txt.

Le robots.txt problématique

robots-erreur.txt
# Ce que contenait le fichier (ERREUR)
User-agent: *
Disallow: /products/
Disallow: /categories/
Disallow: /brands/

# Le développeur avait copié un fichier de staging
# qui bloquait tout le contenu produit !

Correction appliquée

robots-corrige.txt
# Robots.txt corrigé
User-agent: *
Allow: /products/
Allow: /categories/
Allow: /brands/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=

Sitemap: https://techshop.fr/sitemap.xml

Résultats

MétriqueAvantAprès 2 mois
Pages indexées502 850
Trafic organique~100/mois8 500/mois
CA organique500€45 000€

Leçon clé

Toujours vérifier le robots.txt après un lancement ou une migration. Un fichier de staging oublié peut bloquer tout votre site.

Étude de cas n°2 : Crawl budget gaspillé

Contexte

Un site média avec 50 000 pages. Les nouveaux articles mettaient des semaines à être indexés. Crawl budget gaspillé sur des pages inutiles.

InfoNews.fr publiait 30 articles/jour mais Google crawlait principalement les archives et pages de tags inutiles.

Analyse du problème

  • 50 000 pages de tags (1 article par tag)
  • 30 000 pages d'archives par date
  • 10 000 pages d'auteur (profils vides)
  • Seulement 10 000 vrais articles de valeur

Optimisation du robots.txt

robots-optimise.txt
# Robots.txt optimisé pour le crawl budget
User-agent: *
Allow: /

# Bloquer les pages à faible valeur
Disallow: /tag/
Disallow: /author/
Disallow: /archives/
Disallow: /page/

# Bloquer les paramètres de tri/filtre
Disallow: /*?orderby=
Disallow: /*?filter=

# Autoriser les catégories principales
Allow: /category/actualites/
Allow: /category/tech/
Allow: /category/business/

Sitemap: https://infonews.fr/sitemap-articles.xml

Résultats

  • Nouveaux articles indexés en 24-48h (vs 2-3 semaines)
  • Crawl des articles de valeur : +180%
  • Crawl des pages inutiles : -90%
  • Trafic Google News : +35%

Étude de cas n°3 : Fuite de données sensibles

Contexte

Un site B2B avait des pages internes indexées dans Google, incluant des documents confidentiels. Le robots.txt révélait les chemins sensibles.

ConsultingPro.fr avait utilisé le robots.txt pour "cacher" des dossiers confidentiels. Erreur : le fichier est public et les URLs étaient listées en clair.

Le problème

robots-fuite.txt
# Ce que contenait le robots.txt (MAUVAISE PRATIQUE)
User-agent: *
Disallow: /internal-docs/
Disallow: /client-reports/
Disallow: /financial-data/
Disallow: /admin-panel/

# N'importe qui pouvait voir ces chemins sensibles !
# Et les pages étaient accessibles si on connaissait l'URL

Solution correcte

  • 1. Authentification obligatoire sur les dossiers sensibles
  • 2. Balise noindex sur les pages qui doivent rester accessibles
  • 3. Robots.txt simplifié sans révéler les chemins
  • 4. Suppression des pages indexées via Search Console
robots-securise.txt
# Robots.txt sécurisé
User-agent: *
Allow: /

# Ne pas lister les chemins sensibles !
# Protéger via authentification serveur

Sitemap: https://consultingpro.fr/sitemap.xml

Règle de sécurité

Le robots.txt n'est PAS une mesure de sécurité. Tout ce qui y est listé devient public. Pour protéger du contenu sensible, utilisez l'authentification.

Tester votre robots.txt

Outil de test Search Console

Google Search Console propose un testeur de robots.txt :

  • 1. Allez dans Search Console > Paramètres > robots.txt
  • 2. Ou utilisez l'ancien outil : search.google.com/search-console/robots-testing-tool
  • 3. Testez des URLs spécifiques pour voir si elles sont autorisées

Vérifications importantes

  • Le fichier est accessible (pas d'erreur 404 ou 500)
  • Les pages importantes ne sont pas bloquées
  • Le sitemap est bien référencé
  • Pas de typos dans les chemins

Exercices pratiques

Exercice 1 : Analyser votre robots.txt

Ouvrez votre fichier robots.txt et répondez :

QuestionRéponse
URL du fichier...
Le sitemap est-il présent ?Oui/Non
Y a-t-il des Disallow ?...
Des pages importantes sont-elles bloquées ?Oui/Non

Exercice 2 : Créer un robots.txt

Créez un robots.txt pour un blog avec ces besoins :

  • Bloquer /wp-admin/ sauf /wp-admin/admin-ajax.php
  • Bloquer les pages de tags
  • Bloquer les résultats de recherche
  • Autoriser tout le reste
  • Indiquer le sitemap

Exercice 3 : Diagnostiquer un problème

Utilisez Search Console pour tester ces URLs contre votre robots.txt :

  • Votre page d'accueil
  • Une page produit/article
  • Une page de catégorie
  • Votre sitemap
  • Une page admin

Exercice 4 : Optimiser pour le crawl budget

Identifiez sur votre site les pages qui gaspillent le crawl budget :

  • 1. Search Console > Paramètres > Statistiques d'exploration
  • 2. Identifiez les pages souvent crawlées mais peu utiles
  • 3. Listez les patterns d'URLs à bloquer
  • 4. Testez les nouvelles règles avant de les appliquer

Quiz : Robots.txt

Quiz : Robots.txt

Question 1 / 10

Où doit être placé le fichier robots.txt ?

Ressources complémentaires

Pour approfondir le contrôle de l'accès des robots, consultez ces articles :

  • Indexation Google : Faire indexer vos pages rapidement - Comprendre le processus complet
  • Sitemap XML : Créer et optimiser votre plan de site - Complémentaire au robots.txt
  • Guide complet SEO Technique - Vue d'ensemble du SEO technique

Continuez votre apprentissage

Découvrez maintenant comment créer et optimiser votre sitemap XML pour une meilleure indexation.

Sitemap XML

Questions fréquentes

T

Thomas Dupont

Expert SEO & Fondateur

Thomas travaille dans le SEO depuis 2012. Il a accompagné plus de 200 entreprises dans leur stratégie de référencement naturel et formé des milliers de professionnels du marketing digital. Spécialisé dans le SEO technique et les nouvelles approches GEO.

SEO Technique
GEO
Stratégie de contenu
Audit SEO

Articles connexes

L'indexation est le processus par lequel Google ajoute vos pages à son index. Sans indexation, pas de visibilité dans les résultats de recherche.

Lire l'article

Le sitemap XML aide Google à découvrir toutes vos pages importantes. Un sitemap bien configuré améliore la couverture d'indexation.

Lire l'article

Le SEO technique assure que Google peut explorer et indexer votre site efficacement. Sans bases techniques solides, vos efforts SEO seront limités.

Lire l'article

Continuez votre apprentissage

Accédez à toutes les formations SEO et GEO.

Voir la formation