Le robots.txt peut-il empêcher l'indexation ?

Il empêche le crawl, pas l'indexation. Une page peut être indexée sans être crawlée (via des liens). Pour empêcher l'indexation, utilisez noindex.

Où placer le fichier robots.txt ?

À la racine du site : votresite.fr/robots.txt. Il doit être accessible publiquement.

Que se passe-t-il si je n'ai pas de robots.txt ?

Google considère que tout est autorisé. Ce n'est pas grave pour un petit site, mais recommandé pour contrôler le crawl et indiquer le sitemap.

Les robots respectent-ils toujours le robots.txt ?

Les robots légitimes (Googlebot, Bingbot) respectent le robots.txt. Les robots malveillants peuvent l'ignorer. Ce n'est pas une mesure de sécurité.

SEO Technique

Intermédiaire

Robots.txt : Contrôler l'Accès des Robots à votre Site

Le fichier robots.txt indique aux robots quelles pages explorer ou ignorer. Une mauvaise configuration peut bloquer l'indexation de votre site.

Thomas Dupont

Mis à jour le 14 janvier 2026

28 min de lecture

Le fichier robots.txt est la première chose que consultent les robots de Google. Il leur indique quelles parties de votre site explorer ou éviter. Une mauvaise configuration peut avoir des conséquences désastreuses sur votre SEO.

Ce que vous allez apprendre

Ce guide premium couvre la configuration complète du robots.txt : syntaxe, directives avancées, cas d'usage courants, et erreurs à éviter. Avec 3 études de cas et des exercices pratiques.

Qu'est-ce que le robots.txt ?

Le robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots (crawlers) des moteurs de recherche. Il fait partie du "Robots Exclusion Protocol" (REP).

emplacement.txt

# Emplacement obligatoire
https://example.com/robots.txt

# Le fichier doit être accessible publiquement
# Il est sensible à la casse (robots.txt ≠ Robots.TXT)

Ce que peut faire le robots.txt

✓ Indiquer quels répertoires/pages ne pas explorer
✓ Spécifier des règles pour des robots spécifiques
✓ Indiquer l'emplacement du sitemap
✓ Contrôler le crawl budget

Ce que NE peut PAS faire le robots.txt

✗ Empêcher l'indexation (utilisez noindex)
✗ Protéger du contenu sensible (utilisez l'authentification)
✗ Bloquer les robots malveillants (ils l'ignorent)
✗ Cacher des URLs (elles restent visibles dans le fichier)

Confusion fréquente

Bloquer une page dans robots.txt N'empêche PAS son indexation. Si d'autres sites lient vers cette page, Google peut l'indexer sans la crawler. Pour bloquer l'indexation, utilisez la balise meta noindex.

Syntaxe du robots.txt

Les directives principales

Directive	Description	Exemple
User-agent	Spécifie le robot ciblé (* = tous)	User-agent: Googlebot
Disallow	Interdit l'accès à un chemin	Disallow: /admin/
Allow	Autorise l'accès (priorité sur Disallow)	Allow: /admin/public/
Sitemap	Indique l'URL du sitemap	Sitemap: https://site.fr/sitemap.xml
Crawl-delay	Délai entre requêtes (non supporté par Google)	Crawl-delay: 10

Règles de syntaxe

syntaxe.txt

# Ceci est un commentaire (ignoré par les robots)

# Chaque bloc commence par User-agent
User-agent: *

# Les chemins sont sensibles à la casse
Disallow: /Admin/   # Bloque /Admin/ mais pas /admin/

# Le / à la fin est important
Disallow: /private   # Bloque /private, /private-page, /private/...
Disallow: /private/  # Bloque uniquement le dossier /private/

# Wildcards (*)
Disallow: /*.pdf$    # Bloque tous les PDF
Disallow: /page?*    # Bloque les URLs avec paramètres

Exemples de configuration

Configuration minimale recommandée

robots-minimal.txt

# Robots.txt minimal pour tout site
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Configuration pour blog/site vitrine

robots-blog.txt

# Robots.txt pour blog/site vitrine
User-agent: *
Allow: /

# Bloquer les pages d'administration
Disallow: /wp-admin/
Disallow: /admin/

# Bloquer les pages de connexion
Disallow: /login
Disallow: /register

# Bloquer les pages de recherche
Disallow: /search
Disallow: /?s=

# Bloquer les pages de tags (souvent peu utiles)
Disallow: /tag/

Sitemap: https://example.com/sitemap.xml

Configuration pour e-commerce

robots-ecommerce.txt

# Robots.txt pour e-commerce
User-agent: *
Allow: /

# Administration et checkout
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

# Filtres et tris (éviter duplicate content)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=

# Résultats de recherche
Disallow: /search/

# Pages de comparaison
Disallow: /compare/

# Listes de souhaits
Disallow: /wishlist/

Sitemap: https://shop.example.com/sitemap_index.xml

Bloquer des robots spécifiques

robots-specifiques.txt

# Règles par défaut
User-agent: *
Allow: /

# Bloquer les crawlers d'IA (si souhaité)
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

# Bloquer les robots agressifs
User-agent: AhrefsBot
Crawl-delay: 10

User-agent: SemrushBot
Crawl-delay: 10

Sitemap: https://example.com/sitemap.xml

Étude de cas n°1 : Site e-commerce invisible

Contexte

Un site e-commerce de 3000 produits avec seulement 50 pages indexées. Le client pensait avoir un problème de contenu.

TechShop.fr avait lancé son site depuis 6 mois mais n'apparaissait presque jamais dans Google. L'audit a révélé un problème de robots.txt.

Le robots.txt problématique

robots-erreur.txt

# Ce que contenait le fichier (ERREUR)
User-agent: *
Disallow: /products/
Disallow: /categories/
Disallow: /brands/

# Le développeur avait copié un fichier de staging
# qui bloquait tout le contenu produit !

Correction appliquée

robots-corrige.txt

# Robots.txt corrigé
User-agent: *
Allow: /products/
Allow: /categories/
Allow: /brands/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=

Sitemap: https://techshop.fr/sitemap.xml

Résultats

Métrique	Avant	Après 2 mois
Pages indexées	50	2 850
Trafic organique	~100/mois	8 500/mois
CA organique	500€	45 000€

Leçon clé

Toujours vérifier le robots.txt après un lancement ou une migration. Un fichier de staging oublié peut bloquer tout votre site.

Étude de cas n°2 : Crawl budget gaspillé

Contexte

Un site média avec 50 000 pages. Les nouveaux articles mettaient des semaines à être indexés. Crawl budget gaspillé sur des pages inutiles.

InfoNews.fr publiait 30 articles/jour mais Google crawlait principalement les archives et pages de tags inutiles.

Analyse du problème

50 000 pages de tags (1 article par tag)
30 000 pages d'archives par date
10 000 pages d'auteur (profils vides)
Seulement 10 000 vrais articles de valeur

Optimisation du robots.txt

robots-optimise.txt

# Robots.txt optimisé pour le crawl budget
User-agent: *
Allow: /

# Bloquer les pages à faible valeur
Disallow: /tag/
Disallow: /author/
Disallow: /archives/
Disallow: /page/

# Bloquer les paramètres de tri/filtre
Disallow: /*?orderby=
Disallow: /*?filter=

# Autoriser les catégories principales
Allow: /category/actualites/
Allow: /category/tech/
Allow: /category/business/

Sitemap: https://infonews.fr/sitemap-articles.xml

Résultats

Nouveaux articles indexés en 24-48h (vs 2-3 semaines)
Crawl des articles de valeur : +180%
Crawl des pages inutiles : -90%
Trafic Google News : +35%

Étude de cas n°3 : Fuite de données sensibles

Contexte

Un site B2B avait des pages internes indexées dans Google, incluant des documents confidentiels. Le robots.txt révélait les chemins sensibles.

ConsultingPro.fr avait utilisé le robots.txt pour "cacher" des dossiers confidentiels. Erreur : le fichier est public et les URLs étaient listées en clair.

Le problème

robots-fuite.txt

# Ce que contenait le robots.txt (MAUVAISE PRATIQUE)
User-agent: *
Disallow: /internal-docs/
Disallow: /client-reports/
Disallow: /financial-data/
Disallow: /admin-panel/

# N'importe qui pouvait voir ces chemins sensibles !
# Et les pages étaient accessibles si on connaissait l'URL

Solution correcte

1. Authentification obligatoire sur les dossiers sensibles
2. Balise noindex sur les pages qui doivent rester accessibles
3. Robots.txt simplifié sans révéler les chemins
4. Suppression des pages indexées via Search Console

robots-securise.txt

# Robots.txt sécurisé
User-agent: *
Allow: /

# Ne pas lister les chemins sensibles !
# Protéger via authentification serveur

Sitemap: https://consultingpro.fr/sitemap.xml

Règle de sécurité

Le robots.txt n'est PAS une mesure de sécurité. Tout ce qui y est listé devient public. Pour protéger du contenu sensible, utilisez l'authentification.

Tester votre robots.txt

Outil de test Search Console

Google Search Console propose un testeur de robots.txt :

1. Allez dans Search Console > Paramètres > robots.txt
2. Ou utilisez l'ancien outil : search.google.com/search-console/robots-testing-tool
3. Testez des URLs spécifiques pour voir si elles sont autorisées

Vérifications importantes

Le fichier est accessible (pas d'erreur 404 ou 500)
Les pages importantes ne sont pas bloquées
Le sitemap est bien référencé
Pas de typos dans les chemins

Exercices pratiques

Exercice 1 : Analyser votre robots.txt

Ouvrez votre fichier robots.txt et répondez :

Question	Réponse
URL du fichier	...
Le sitemap est-il présent ?	Oui/Non
Y a-t-il des Disallow ?	...
Des pages importantes sont-elles bloquées ?	Oui/Non

Exercice 2 : Créer un robots.txt

Créez un robots.txt pour un blog avec ces besoins :

Bloquer /wp-admin/ sauf /wp-admin/admin-ajax.php
Bloquer les pages de tags
Bloquer les résultats de recherche
Autoriser tout le reste
Indiquer le sitemap

Exercice 3 : Diagnostiquer un problème

Utilisez Search Console pour tester ces URLs contre votre robots.txt :

Votre page d'accueil
Une page produit/article
Une page de catégorie
Votre sitemap
Une page admin

Exercice 4 : Optimiser pour le crawl budget

Identifiez sur votre site les pages qui gaspillent le crawl budget :

1. Search Console > Paramètres > Statistiques d'exploration
2. Identifiez les pages souvent crawlées mais peu utiles
3. Listez les patterns d'URLs à bloquer
4. Testez les nouvelles règles avant de les appliquer

Quiz : Robots.txt

Question 1 / 10

Où doit être placé le fichier robots.txt ?

Ressources complémentaires

Pour approfondir le contrôle de l'accès des robots, consultez ces articles :

Indexation Google : Faire indexer vos pages rapidement - Comprendre le processus complet
Sitemap XML : Créer et optimiser votre plan de site - Complémentaire au robots.txt
Guide complet SEO Technique - Vue d'ensemble du SEO technique

Continuez votre apprentissage

Découvrez maintenant comment créer et optimiser votre sitemap XML pour une meilleure indexation.

Sitemap XML

Questions fréquentes

Thomas Dupont

Expert SEO & Fondateur

Thomas travaille dans le SEO depuis 2012. Il a accompagné plus de 200 entreprises dans leur stratégie de référencement naturel et formé des milliers de professionnels du marketing digital. Spécialisé dans le SEO technique et les nouvelles approches GEO.

SEO Technique

GEO

Stratégie de contenu

Audit SEO

Qu'est-ce que le robots.txt ?

Ce que peut faire le robots.txt

Ce que NE peut PAS faire le robots.txt

Syntaxe du robots.txt

Les directives principales

Règles de syntaxe

Exemples de configuration

Configuration minimale recommandée

Configuration pour blog/site vitrine

Configuration pour e-commerce

Bloquer des robots spécifiques

Étude de cas n°1 : Site e-commerce invisible

Le robots.txt problématique

Correction appliquée

Résultats

Étude de cas n°2 : Crawl budget gaspillé

Analyse du problème

Optimisation du robots.txt

Résultats

Étude de cas n°3 : Fuite de données sensibles

Le problème

Solution correcte

Tester votre robots.txt

Outil de test Search Console

Vérifications importantes

Exercices pratiques

Exercice 1 : Analyser votre robots.txt

Exercice 2 : Créer un robots.txt

Exercice 3 : Diagnostiquer un problème

Exercice 4 : Optimiser pour le crawl budget

Quiz : Robots.txt

Quiz : Robots.txt

Ressources complémentaires

Continuez votre apprentissage

Questions fréquentes

Le robots.txt peut-il empêcher l'indexation ?

Où placer le fichier robots.txt ?

Que se passe-t-il si je n'ai pas de robots.txt ?

Les robots respectent-ils toujours le robots.txt ?

Thomas Dupont

Articles connexes

Indexation Google : Faire Indexer vos Pages Rapidement

Sitemap XML : Créer et Optimiser votre Plan de Site

SEO Technique : Guide Complet pour Optimiser les Fondations de votre Site

Continuez votre apprentissage