Robots.txt : Contrôler l'Accès des Robots à votre Site
Le fichier robots.txt indique aux robots quelles pages explorer ou ignorer. Une mauvaise configuration peut bloquer l'indexation de votre site.
Le fichier robots.txt est la première chose que consultent les robots de Google. Il leur indique quelles parties de votre site explorer ou éviter. Une mauvaise configuration peut avoir des conséquences désastreuses sur votre SEO.
Ce que vous allez apprendre
Qu'est-ce que le robots.txt ?
Le robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots (crawlers) des moteurs de recherche. Il fait partie du "Robots Exclusion Protocol" (REP).
# Emplacement obligatoire
https://example.com/robots.txt
# Le fichier doit être accessible publiquement
# Il est sensible à la casse (robots.txt ≠ Robots.TXT)Ce que peut faire le robots.txt
- ✓ Indiquer quels répertoires/pages ne pas explorer
- ✓ Spécifier des règles pour des robots spécifiques
- ✓ Indiquer l'emplacement du sitemap
- ✓ Contrôler le crawl budget
Ce que NE peut PAS faire le robots.txt
- ✗ Empêcher l'indexation (utilisez noindex)
- ✗ Protéger du contenu sensible (utilisez l'authentification)
- ✗ Bloquer les robots malveillants (ils l'ignorent)
- ✗ Cacher des URLs (elles restent visibles dans le fichier)
Confusion fréquente
Syntaxe du robots.txt
Les directives principales
| Directive | Description | Exemple |
|---|---|---|
| User-agent | Spécifie le robot ciblé (* = tous) | User-agent: Googlebot |
| Disallow | Interdit l'accès à un chemin | Disallow: /admin/ |
| Allow | Autorise l'accès (priorité sur Disallow) | Allow: /admin/public/ |
| Sitemap | Indique l'URL du sitemap | Sitemap: https://site.fr/sitemap.xml |
| Crawl-delay | Délai entre requêtes (non supporté par Google) | Crawl-delay: 10 |
Règles de syntaxe
# Ceci est un commentaire (ignoré par les robots)
# Chaque bloc commence par User-agent
User-agent: *
# Les chemins sont sensibles à la casse
Disallow: /Admin/ # Bloque /Admin/ mais pas /admin/
# Le / à la fin est important
Disallow: /private # Bloque /private, /private-page, /private/...
Disallow: /private/ # Bloque uniquement le dossier /private/
# Wildcards (*)
Disallow: /*.pdf$ # Bloque tous les PDF
Disallow: /page?* # Bloque les URLs avec paramètresExemples de configuration
Configuration minimale recommandée
# Robots.txt minimal pour tout site
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xmlConfiguration pour blog/site vitrine
# Robots.txt pour blog/site vitrine
User-agent: *
Allow: /
# Bloquer les pages d'administration
Disallow: /wp-admin/
Disallow: /admin/
# Bloquer les pages de connexion
Disallow: /login
Disallow: /register
# Bloquer les pages de recherche
Disallow: /search
Disallow: /?s=
# Bloquer les pages de tags (souvent peu utiles)
Disallow: /tag/
Sitemap: https://example.com/sitemap.xmlConfiguration pour e-commerce
# Robots.txt pour e-commerce
User-agent: *
Allow: /
# Administration et checkout
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
# Filtres et tris (éviter duplicate content)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=
# Résultats de recherche
Disallow: /search/
# Pages de comparaison
Disallow: /compare/
# Listes de souhaits
Disallow: /wishlist/
Sitemap: https://shop.example.com/sitemap_index.xmlBloquer des robots spécifiques
# Règles par défaut
User-agent: *
Allow: /
# Bloquer les crawlers d'IA (si souhaité)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
# Bloquer les robots agressifs
User-agent: AhrefsBot
Crawl-delay: 10
User-agent: SemrushBot
Crawl-delay: 10
Sitemap: https://example.com/sitemap.xmlÉtude de cas n°1 : Site e-commerce invisible
Contexte
TechShop.fr avait lancé son site depuis 6 mois mais n'apparaissait presque jamais dans Google. L'audit a révélé un problème de robots.txt.
Le robots.txt problématique
# Ce que contenait le fichier (ERREUR)
User-agent: *
Disallow: /products/
Disallow: /categories/
Disallow: /brands/
# Le développeur avait copié un fichier de staging
# qui bloquait tout le contenu produit !Correction appliquée
# Robots.txt corrigé
User-agent: *
Allow: /products/
Allow: /categories/
Allow: /brands/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=
Sitemap: https://techshop.fr/sitemap.xmlRésultats
| Métrique | Avant | Après 2 mois |
|---|---|---|
| Pages indexées | 50 | 2 850 |
| Trafic organique | ~100/mois | 8 500/mois |
| CA organique | 500€ | 45 000€ |
Leçon clé
Étude de cas n°2 : Crawl budget gaspillé
Contexte
InfoNews.fr publiait 30 articles/jour mais Google crawlait principalement les archives et pages de tags inutiles.
Analyse du problème
- 50 000 pages de tags (1 article par tag)
- 30 000 pages d'archives par date
- 10 000 pages d'auteur (profils vides)
- Seulement 10 000 vrais articles de valeur
Optimisation du robots.txt
# Robots.txt optimisé pour le crawl budget
User-agent: *
Allow: /
# Bloquer les pages à faible valeur
Disallow: /tag/
Disallow: /author/
Disallow: /archives/
Disallow: /page/
# Bloquer les paramètres de tri/filtre
Disallow: /*?orderby=
Disallow: /*?filter=
# Autoriser les catégories principales
Allow: /category/actualites/
Allow: /category/tech/
Allow: /category/business/
Sitemap: https://infonews.fr/sitemap-articles.xmlRésultats
- Nouveaux articles indexés en 24-48h (vs 2-3 semaines)
- Crawl des articles de valeur : +180%
- Crawl des pages inutiles : -90%
- Trafic Google News : +35%
Étude de cas n°3 : Fuite de données sensibles
Contexte
ConsultingPro.fr avait utilisé le robots.txt pour "cacher" des dossiers confidentiels. Erreur : le fichier est public et les URLs étaient listées en clair.
Le problème
# Ce que contenait le robots.txt (MAUVAISE PRATIQUE)
User-agent: *
Disallow: /internal-docs/
Disallow: /client-reports/
Disallow: /financial-data/
Disallow: /admin-panel/
# N'importe qui pouvait voir ces chemins sensibles !
# Et les pages étaient accessibles si on connaissait l'URLSolution correcte
- 1. Authentification obligatoire sur les dossiers sensibles
- 2. Balise noindex sur les pages qui doivent rester accessibles
- 3. Robots.txt simplifié sans révéler les chemins
- 4. Suppression des pages indexées via Search Console
# Robots.txt sécurisé
User-agent: *
Allow: /
# Ne pas lister les chemins sensibles !
# Protéger via authentification serveur
Sitemap: https://consultingpro.fr/sitemap.xmlRègle de sécurité
Tester votre robots.txt
Outil de test Search Console
Google Search Console propose un testeur de robots.txt :
- 1. Allez dans Search Console > Paramètres > robots.txt
- 2. Ou utilisez l'ancien outil : search.google.com/search-console/robots-testing-tool
- 3. Testez des URLs spécifiques pour voir si elles sont autorisées
Vérifications importantes
- Le fichier est accessible (pas d'erreur 404 ou 500)
- Les pages importantes ne sont pas bloquées
- Le sitemap est bien référencé
- Pas de typos dans les chemins
Exercices pratiques
Exercice 1 : Analyser votre robots.txt
Ouvrez votre fichier robots.txt et répondez :
| Question | Réponse |
|---|---|
| URL du fichier | ... |
| Le sitemap est-il présent ? | Oui/Non |
| Y a-t-il des Disallow ? | ... |
| Des pages importantes sont-elles bloquées ? | Oui/Non |
Exercice 2 : Créer un robots.txt
Créez un robots.txt pour un blog avec ces besoins :
- Bloquer /wp-admin/ sauf /wp-admin/admin-ajax.php
- Bloquer les pages de tags
- Bloquer les résultats de recherche
- Autoriser tout le reste
- Indiquer le sitemap
Exercice 3 : Diagnostiquer un problème
Utilisez Search Console pour tester ces URLs contre votre robots.txt :
- Votre page d'accueil
- Une page produit/article
- Une page de catégorie
- Votre sitemap
- Une page admin
Exercice 4 : Optimiser pour le crawl budget
Identifiez sur votre site les pages qui gaspillent le crawl budget :
- 1. Search Console > Paramètres > Statistiques d'exploration
- 2. Identifiez les pages souvent crawlées mais peu utiles
- 3. Listez les patterns d'URLs à bloquer
- 4. Testez les nouvelles règles avant de les appliquer
Quiz : Robots.txt
Quiz : Robots.txt
Où doit être placé le fichier robots.txt ?
Ressources complémentaires
Pour approfondir le contrôle de l'accès des robots, consultez ces articles :
- Indexation Google : Faire indexer vos pages rapidement - Comprendre le processus complet
- Sitemap XML : Créer et optimiser votre plan de site - Complémentaire au robots.txt
- Guide complet SEO Technique - Vue d'ensemble du SEO technique
Continuez votre apprentissage
Découvrez maintenant comment créer et optimiser votre sitemap XML pour une meilleure indexation.
Questions fréquentes
Thomas Dupont
Thomas travaille dans le SEO depuis 2012. Il a accompagné plus de 200 entreprises dans leur stratégie de référencement naturel et formé des milliers de professionnels du marketing digital. Spécialisé dans le SEO technique et les nouvelles approches GEO.
Articles connexes
Indexation Google : Faire Indexer vos Pages Rapidement
L'indexation est le processus par lequel Google ajoute vos pages à son index. Sans indexation, pas de visibilité dans les résultats de recherche.
Lire l'articleSitemap XML : Créer et Optimiser votre Plan de Site
Le sitemap XML aide Google à découvrir toutes vos pages importantes. Un sitemap bien configuré améliore la couverture d'indexation.
Lire l'articleSEO Technique : Guide Complet pour Optimiser les Fondations de votre Site
Le SEO technique assure que Google peut explorer et indexer votre site efficacement. Sans bases techniques solides, vos efforts SEO seront limités.
Lire l'articleContinuez votre apprentissage
Accédez à toutes les formations SEO et GEO.