Votre site tourne bien, mais votre hébergement chauffe, vos pages mettent plus longtemps à répondre, et dans vos stats vous voyez passer des dizaines de visites “bizarres” qui ne lisent rien… et reviennent toutes les 3 minutes. Très souvent, ce sont juste des bots. Pas toujours des bots “méchants” au sens film d’action. Ce sont des robots qui crawlent votre site pour aspirer des données, vérifier des liens, remplir des bases de données, ou nourrir des services d’analyse. Le problème, c’est que beaucoup d’entre eux ne vous apportent rien, et consomment pourtant vos ressources. Découvrez comment bloquer les bots inutiles sans impacter votre SEO grâce aux fichiers robots.txt et .htaccess.
- Identifier rapidement quels robots méritent d’être stoppés, lesquels laisser passer, et éviter les erreurs qui peuvent casser votre visibilité sur Google.
- Réduire la charge serveur, limiter le scraping et retrouver des statistiques plus propres grâce à des blocages efficaces adaptés à votre site.
- Choisir la bonne méthode de blocage selon votre objectif (simple consigne ou blocage réel) avec des fichiers prêts à l’emploi.
Dans ce tutoriel, on va voir comment bloquer les bots inutiles proprement, en partant de zéro, avec une méthode claire, des exemples concrets, et surtout sans se tirer une balle dans le pied côté SEO.
- Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?
- Pourquoi bloquer les bots ? Les vrais avantages et les limites
- La liste complète des bots qu’il ne faut pas bloquer
- Liste “complète” des bots souvent utiles à bloquer (par catégorie)
- Robots.txt ou .htaccess : lequel choisir ?
- Exemple concret : comment repérer les bots à bloquer
- Fichier robots.txt complet pour bloquer les bots indésirables
- Fichier .htaccess complet pour bloquer tous les bots indésirables
- Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?
- La méthode simple et propre
- Reprendre le contrôle sans devenir parano
Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?
Un bot (ou robot, ou crawler) est un programme automatique qui visite des pages web comme un humain le ferait… sauf qu’il ne clique pas “pour lire”. Il enchaîne les URLs, récupère le HTML, analyse des liens, télécharge des fichiers, et repart.
Dans le monde du web, il existe plusieurs grandes familles de bots :
- Les bots de moteurs de recherche, qui explorent votre site pour l’indexer (Google, Bing…).
- Les bots “SEO”, qui veulent analyser votre site ou celui des concurrents (audit, backlinks, performance…).
- Les bots de scraping, qui copient vos contenus (articles, produits, prix…).
- Les bots d’IA, qui collectent des pages pour entraîner ou alimenter des outils.
- Les bots “techniques” (monitoring, uptime, outils dev…).
- Et enfin, les bots toxiques (tentatives de brute force, scan de failles, etc.).
Le point important à comprendre, c’est que tous les bots ne sont pas mauvais. Certains sont essentiels à votre visibilité. D’autres sont neutres. Et certains, oui, sont des sangsues.
Pourquoi bloquer les bots ? Les vrais avantages et les limites
Réduire la charge serveur
Chaque visite de bot consomme des ressources : CPU, mémoire, bande passante, requêtes PHP/MySQL… Sur un petit hébergement mutualisé, ça peut suffire à rendre le site lent. Et un site lent, c’est des visiteurs qui partent et parfois un SEO qui souffre.
Protéger votre contenu contre le scraping
Vous écrivez un article, vous le publiez, et parfois il se retrouve copié ailleurs en 24h. C’est rageant, et ce n’est pas rare. Bloquer certains bots connus pour scrapper peut réduire le problème (pas le supprimer à 100%, mais réduire fortement).
Éviter les faux signaux dans vos statistiques
Certains bots font gonfler le trafic, déclenchent des événements, chargent des pages au hasard… Résultat : GA4 devient une soupe. Bloquer les bots les plus envahissants permet de retrouver des données propres.
Sécuriser un minimum
Bloquer des robots qui scannent des URLs sensibles (/wp-login.php, /xmlrpc.php, /admin, etc.) ne remplace pas un vrai pare-feu, mais ça enlève déjà une partie du bruit.
La limite importante
Bloquer les bots n’est pas magique. Un bot sérieux peut :
- changer son User-Agent,
- utiliser des IPs renouvelées,
- ignorer votre
robots.txt.
Donc l’objectif n’est pas “zéro bot”. L’objectif, c’est moins de parasites.
La liste complète des bots qu’il ne faut pas bloquer
Ici, on touche au nerf de la guerre. Parce que bloquer un bot utile peut casser votre visibilité.
Bots des moteurs de recherche (à garder absolument)
Ces bots sont essentiels pour que votre contenu remonte dans les résultats :
| Moteur | User-Agent bot | À garder ? |
|---|---|---|
| Google Search | Googlebot | Oui |
| Google Images | Googlebot-Image | Oui |
| Google Mobile | Googlebot Smartphone | Oui |
| Bing | Bingbot | Oui |
| Bing Ads/Indexation | msnbot | Oui |
| DuckDuckGo | DuckDuckBot | Oui |
| Qwant (souvent via Bing) | (varie) | Oui |
| Yahoo (souvent via Bing) | Slurp (rare), ou via Bing | Oui |
| Yandex | YandexBot | Si vous ciblez l’international, oui |
| Baidu | Baiduspider | Si vous ciblez la Chine, oui |
Bots SEO connus (à garder, la plupart du temps)
Certains bots viennent “observer” votre site, mais peuvent aussi vous être utiles indirectement :
| Bot / User-Agent | Origine | Pourquoi le bloquer ? |
|---|---|---|
| AhrefsBot | USA | Crawl massif SEO |
| SemrushBot | USA | Crawl massif SEO |
| MJ12bot | UK | Crawl SEO |
| DotBot | USA | Crawl SEO (Moz) |
| BLEXBot | Europe | Crawl SEO/données |
| SEOkicks-Robot | Europe | Crawl backlinks |
| DataForSeoBot | USA | Crawl SEO |
| AdsBot | Monde | Crawl publicitaire / tracking |
| Sogou web spider | Chine | Crawl moteur chinois |
Pourquoi les garder ? Parce que ces outils alimentent des bases de données SEO. Par exemple, si votre site apparaît dans des analyses externes, ça peut parfois participer à votre visibilité (backlinks, mentions, etc.). Ce n’est pas “obligatoire”, mais en général, les bloquer n’apporte pas un gain énorme, sauf si vous subissez une charge serveur.
Bots “vérification technique” (à garder)
| Usage | User-Agent bot | À garder ? |
|---|---|---|
| Uptime / monitoring | UptimeRobot | Oui si vous l’utilisez |
| Vérification pages | Pingdom | Oui si vous l’utilisez |
| Validation W3C | W3C_Validator | Oui |
Bots “réseaux sociaux” (souvent inutiles si vous ne partagez pas)
| Bot / User-Agent | Origine | Pourquoi le bloquer ? |
|---|---|---|
| facebookexternalhit | USA | Aperçus Facebook |
| Facebot | USA | Crawl Facebook |
| Twitterbot | USA | Aperçus X/Twitter |
| LinkedInBot | USA | Aperçus LinkedIn |
| Pinterestbot | USA | Crawl Pinterest |
| Discordbot | USA | Aperçus Discord |
| TelegramBot | Russie/Monde | Aperçus Telegram |
| USA | Aperçus WhatsApp |
Astuce : si vous publiez souvent vos liens sur réseaux, ne bloquez pas ceux-là, sinon vos partages auront des miniatures cassées.
Liste “complète” des bots souvent utiles à bloquer (par catégorie)
Ici on parle des bots qui reviennent très souvent dans les logs, et qui ont tendance à crawler sans vous apporter grand-chose.
Bots IA / datasets (souvent bloqués)
| Bot / User-Agent | Origine (souvent) | Pourquoi le bloquer ? |
|---|---|---|
| GPTBot | USA (OpenAI) | Crawl IA, pas utile pour le SEO Google |
| ChatGPT-User | USA (OpenAI) | Requêtes IA “assistées”, peut crawler vos pages |
| OAI-SearchBot | USA (OpenAI) | Indexation IA / recherche IA |
| ClaudeBot | USA (Anthropic) | Collecte IA |
| anthropic-ai | USA (Anthropic) | Collecte IA (UA vu sur certains crawls) |
| Google-Extended | USA (Google IA) | Utilisé pour collecte IA (différent de Googlebot) |
| CCBot | USA (Common Crawl) | Crawl massif, charge serveur |
| PerplexityBot | USA (Perplexity) | Crawl IA / réponses IA |
| YouBot | Europe (You.com) | Crawl IA |
| Bytespider | Chine (ByteDance) | Crawl très agressif fréquent |
| AlibabaCloudCrawler | Chine (Alibaba) | Crawl infra / dataset |
| PetalBot | Chine (Huawei) | Crawl moteur/IA Huawei |
| Applebot-Extended | USA (Apple) | Collecte IA / recherche (différent d’Applebot) |
Bots scrapers / “aspirateurs”
| Bot / User-Agent | Origine | Pourquoi le bloquer ? |
|---|---|---|
| Scrapy | Monde | Framework scraping très utilisé |
| Python-urllib | Monde | Scripts Python basiques (scraping/scan) |
| python-requests | Monde | Scripts Python automatisés |
| aiohttp | Monde | Bot maison Python (souvent scrap) |
| httpx | Monde | Scripts automatisés |
| libwww-perl | Monde | Bot Perl ancien, souvent scrap |
| Go-http-client | Monde | Scripts Go (scraping/scan) |
| Java/ | Monde | Bots Java (scraping/scan) |
| Apache-HttpClient | Monde | Scraping Java/scan |
| curl | Monde | Requêtes automatiques, scraping |
| Wget | Monde | Aspiration site |
| HTTrack | Monde | Copier un site entier |
| WinHTTrack | Monde | Copier un site entier |
| Selenium | Monde | Navigation automatisée (scraping) |
| HeadlessChrome | Monde | Chrome sans interface (bots) |
| PhantomJS | Monde | Bot headless ancien |
| Puppeteer | Monde | Headless bot moderne |
| Playwright | Monde | Headless bot moderne |
Bots douteux / scanners
| Bot / User-Agent | Origine | Pourquoi le bloquer ? |
|---|---|---|
| sqlmap | Monde | Scan injection SQL |
| nikto | Monde | Scanner de vulnérabilités web |
| nmap | Monde | Scan réseau |
| masscan | Monde | Scan massif d’IP/ports |
| zgrab | Monde | Scanner automatisé |
| ZMap | Monde | Scan Internet global |
| WPScan | Monde | Scan WordPress |
| wpscan | Monde | Variante du même |
| Nessus | Monde | Scanner de sécurité |
| OpenVAS | Monde | Scanner de sécurité |
| Acunetix | Monde | Scanner failles web |
| Netsparker | Monde | Scanner failles web |
| DirBuster | Monde | Bruteforce de dossiers |
| gobuster | Monde | Bruteforce endpoints |
| ffuf | Monde | Fuzzing endpoints |
| Hydra | Monde | Bruteforce identifiants |
| zmEu | Monde | vieux scanner agressif |
| BlackWidow | Monde | aspirateur + scan |
Ces derniers sont clairement des candidats parfaits pour une règle serveur : ça ne “discute” pas, ça dégage.
Bots russes (souvent à bloquer)
| Bot / User-Agent | Pourquoi le bloquer ? |
|---|---|
| YandexBot | Si vous ne ciblez pas la Russie (crawl inutile) |
| YandexImages | Pareil |
| YandexMetrika | Tracking / crawl |
| SputnikBot | Robot rare, pas utile en France |
| Mail.RU_Bot | Crawl russe souvent inutile |
| Zao | Ancien bot russe (rare) |
Bots chinois (souvent à bloquer)
| Bot / User-Agent | Pourquoi le bloquer ? |
|---|---|
| Baiduspider | Si vous ne ciblez pas la Chine |
| Sogou web spider | Crawl chinois souvent agressif |
| Sogou inst spider | Pareil |
| Bytespider | Très agressif (ByteDance) |
| PetalBot | Huawei, souvent inutile FR |
| 360Spider | Crawl chinois (Qihoo 360) |
| YoudaoBot | Crawl / traduction / indexation |
| HaosouSpider | Moteur chinois (varie) |
| AlibabaCloudCrawler | Crawl infra/dataset |
Robots.txt ou .htaccess : lequel choisir ?
Très bonne question. Et la réponse, c’est : les deux ne jouent pas dans la même cour.
robots.txt : une demande polie
Le fichier robots.txt sert à dire :
“Bonjour robot, évitez de crawler ces pages.”
C’est une consigne. Pas une barrière. Un bot “bien élevé” obéit. Un bot malveillant s’en moque totalement.
Donc, si votre but est surtout de gérer l’exploration (crawl budget, pages inutiles, IA respectueuse), robots.txt est utile.
.htaccess : une barrière serveur plus efficace
Le fichier .htaccess (sur Apache) permet de bloquer réellement des accès :
“Tu es ce bot ? Réponse 403. Tu ne passes pas.”
C’est beaucoup plus solide pour réduire la charge, bloquer des scrapers, et calmer les scanners.
Le bon raisonnement est simple :
- Pour orienter les bots :
robots.txt - Pour bloquer les bots vraiment :
.htaccess
Exemple concret : comment repérer les bots à bloquer
Avant de bloquer au hasard, le bon réflexe est de regarder ce qui passe sur votre site.
Sur un hébergement Linux, vous avez souvent accès à des logs Apache/Nginx. Vous pouvez repérer les User-Agents les plus fréquents.
Exemple de ligne typique :

Des formations informatique pour tous !
Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…
Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.
Découvrez mes formations Qui suis-je ?66.249.66.1 - - [30/Jan/2026:21:10:01 +0100] "GET /mon-article HTTP/1.1" 200 12543 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"Ici, aucun doute : Googlebot, on garde.
Mais si vous voyez :
185.12.34.56 - - [30/Jan/2026:21:10:01 +0100] "GET /wp-login.php HTTP/1.1" 404 532 "-" "sqlmap/1.7"Là, c’est un “au revoir”.
En regardant des logs pour un petit site vitrine qui “ramait”, j’ai cru que le serveur avait un souci. En réalité, ce n’était pas un bug PHP, ni une extension WordPress… c’était juste un bot qui hitait 200 pages par minute comme un stagiaire trop motivé. Après un blocage propre, le site est redevenu fluide. Le genre de “réparation” qui fait plaisir, parce qu’elle prend 10 minutes et vous avez l’impression d’avoir changé d’hébergeur.
Fichier robots.txt complet pour bloquer les bots indésirables
Voici un robots.txt prêt à l’emploi pour bloquer un gros lot de bots IA, scrapers, scanners connus. Important : ce fichier ne bloque pas Googlebot/Bingbot.
Créez un fichier /robots.txt à la racine de votre site web :
Voici un robots.txt complet et “exhaustif” (très large) pour bloquer un maximum de bots inutiles (IA, scraping, scanners, crawlers agressifs), sans bloquer Googlebot / Bingbot.
⚠️ Important : Un robots.txt reste une consigne (les bots malveillants peuvent l’ignorer). Pour un blocage réel, il faudra ensuite un .htaccess / firewall.
# ============================================================
# robots.txt - Blocage massif de bots inutiles / scraping / IA
# Objectif : protéger le crawl, limiter le scraping, réduire charge
# Attention : robots.txt n'est pas un "mur", certains bots ignorent
# ============================================================
User-agent: *
Disallow:
# -----------------------------
# BOTS IA / LLM / COLLECTE DATA
# -----------------------------
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: Sogou inst spider
Disallow: /
User-agent: 360Spider
Disallow: /
User-agent: HaosouSpider
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: AlibabaCloudCrawler
Disallow: /
# -----------------------------
# SCRAPERS / ASPIRATEURS
# -----------------------------
User-agent: Scrapy
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: WinHTTrack
Disallow: /
User-agent: WebCopy
Disallow: /
User-agent: SiteSucker
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: wget
Disallow: /
User-agent: Wget
Disallow: /
User-agent: curl
Disallow: /
User-agent: Curl
Disallow: /
User-agent: python-requests
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: urllib
Disallow: /
User-agent: aiohttp
Disallow: /
User-agent: httpx
Disallow: /
User-agent: Go-http-client
Disallow: /
User-agent: libwww-perl
Disallow: /
User-agent: LWP::Simple
Disallow: /
User-agent: Java
Disallow: /
User-agent: Apache-HttpClient
Disallow: /
User-agent: okhttp
Disallow: /
User-agent: HeadlessChrome
Disallow: /
User-agent: PhantomJS
Disallow: /
User-agent: Puppeteer
Disallow: /
User-agent: Playwright
Disallow: /
User-agent: Selenium
Disallow: /
# -----------------------------
# SCANNERS / OUTILS D'ATTAQUE
# -----------------------------
User-agent: sqlmap
Disallow: /
User-agent: nikto
Disallow: /
User-agent: nmap
Disallow: /
User-agent: masscan
Disallow: /
User-agent: zgrab
Disallow: /
User-agent: zmap
Disallow: /
User-agent: Nessus
Disallow: /
User-agent: OpenVAS
Disallow: /
User-agent: Acunetix
Disallow: /
User-agent: Netsparker
Disallow: /
User-agent: WPScan
Disallow: /
User-agent: wpscan
Disallow: /
User-agent: DirBuster
Disallow: /
User-agent: gobuster
Disallow: /
User-agent: ffuf
Disallow: /
User-agent: Hydra
Disallow: /
User-agent: Metasploit
Disallow: /
User-agent: Nuclei
Disallow: /
User-agent: Jaeles
Disallow: /
User-agent: Zao
Disallow: /
User-agent: BlackWidow
Disallow: /
# -----------------------------
# BOTS SEO / BACKLINKS (souvent agressifs)
# (à bloquer si vous voulez limiter le crawl concurrent)
# -----------------------------
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: SEOkicks-Robot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: linkdexbot
Disallow: /
User-agent: MegaIndex
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: serpstatbot
Disallow: /
User-agent: SEOdiver
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: SeznamBot
Disallow: /
# -----------------------------
# BOTS RUSSES (souvent inutiles en FR)
# (Ne pas bloquer si vous ciblez la Russie)
# -----------------------------
User-agent: YandexBot
Disallow: /
User-agent: YandexImages
Disallow: /
User-agent: YandexVideo
Disallow: /
User-agent: YandexMedia
Disallow: /
User-agent: YandexMetrika
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: SputnikBot
Disallow: /
# -----------------------------
# BOTS DOUTEUX / DIVERS (souvent bruyants)
# -----------------------------
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: Trendictionbot
Disallow: /
User-agent: SeobilityBot
Disallow: /
User-agent: Rogerbot
Disallow: /
User-agent: Screaming Frog SEO Spider
Disallow: /
User-agent: UptimeRobot
Disallow: /
User-agent: Pingdom
Disallow: /
User-agent: GTmetrix
Disallow: /
# -----------------------------
# FIN
# -----------------------------
Deux conseils importants
- Ce robots.txt est volontairement “énorme” : parfait si vous voulez être agressif, mais vous pouvez retirer ce que vous souhaitez (ex : Ahrefs/Semrush, archive.org, etc.).
- Si vous voulez un vrai blocage qui marche même sur les bots qui ignorent robots.txt, il vous faut la version .htaccess complète correspondante.
Fichier .htaccess complet pour bloquer tous les bots indésirables
Ici, on fait du blocage réel.
Attention : .htaccess s’applique sur Apache. Si votre serveur est en Nginx pur, ce fichier ne fera rien (il faudra des règles Nginx).
Collez ceci dans votre .htaccess (idéalement à la racine du site) :
# ----------------------------------------------------
# BLOQUER LES BOTS INDÉSIRABLES (User-Agent)
# ----------------------------------------------------
<IfModule mod_rewrite.c>
RewriteEngine On
# Bloquer bots IA / datasets
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|Amazonbot|Bytespider) [NC,OR]
# Bloquer scrapers génériques
RewriteCond %{HTTP_USER_AGENT} (Scrapy|curl|wget|python-urllib|Go-http-client) [NC,OR]
# Bloquer scanners / outils agressifs
RewriteCond %{HTTP_USER_AGENT} (sqlmap|wpscan|masscan|nikto|zgrab) [NC]
RewriteRule ^ - [F,L]
</IfModule>Ce code renvoie un 403 Forbidden. Résultat : le bot est stoppé net.
Variante “plus stricte” (optionnelle)
Voici un .htaccess complet et “exhaustif” (blocage très large) pour bloquer un maximum de bots inutiles par User-Agent, sans toucher à Googlebot / Bingbot.
Attention : Ce blocage est efficace, mais un bot peut falsifier son User-Agent. Le meilleur combo reste .htaccess + pare-feu (Cloudflare/WAF) + rate limiting.
Copiez/collez tel quel en haut de votre .htaccess (ou juste après vos règles WordPress si vous préférez, mais l’idéal est avant les réécritures).
# ============================================================
# .htaccess - Blocage massif de bots inutiles / scraping / IA
# Objectif : 403 direct pour réduire crawl, scraping et charge
# Prérequis : Apache + mod_rewrite
# IMPORTANT : Ne bloque pas Googlebot/Bingbot (volontaire)
# ============================================================
<IfModule mod_rewrite.c>
RewriteEngine On
# ------------------------------------------------------------
# 1) IA / LLM / COLLECTE (souvent à bloquer)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT-User|OAI-SearchBot|ClaudeBot|anthropic-ai|Google-Extended|CCBot|PerplexityBot|YouBot|Applebot-Extended|Amazonbot|Bytespider|PetalBot|AlibabaCloudCrawler) [NC,OR]
# Chine / moteurs / crawlers souvent agressifs (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (Baiduspider|Sogou[\ _-]?web[\ _-]?spider|Sogou[\ _-]?inst[\ _-]?spider|360Spider|HaosouSpider|YoudaoBot) [NC,OR]
# Russie (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (YandexBot|YandexImages|YandexVideo|YandexMedia|YandexMetrika|Mail\.RU_Bot|SputnikBot) [NC,OR]
# ------------------------------------------------------------
# 2) SCRAPERS / ASPIRATEURS / OUTILS D'AUTOMATION
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (Scrapy|HTTrack|WinHTTrack|WebCopy|SiteSucker|Offline[\ _-]?Explorer|Teleport|WebZIP|EmailSiphon|EmailCollector) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (wget|curl|python-requests|Python-urllib|urllib|aiohttp|httpx|Go-http-client|libwww-perl|LWP::Simple|Apache-HttpClient|okhttp) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (HeadlessChrome|PhantomJS|Puppeteer|Playwright|Selenium) [NC,OR]
# ------------------------------------------------------------
# 3) SCANNERS / BRUTE FORCE / OUTILS D'ATTAQUE
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (sqlmap|nikto|nmap|masscan|zgrab|zmap|Nessus|OpenVAS|Acunetix|Netsparker|WPScan|wpscan|DirBuster|gobuster|ffuf|Hydra|Metasploit|Nuclei|Jaeles|BlackWidow) [NC,OR]
# ------------------------------------------------------------
# 4) SEO / BACKLINKS AGRESSIFS (souvent à bloquer sur petit serveur)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|SEOkicks-Robot|DataForSeoBot|serpstatbot|XoviBot|MegaIndex|MegaIndex\.ru|linkdexbot) [NC,OR]
# ------------------------------------------------------------
# 5) DIVERS “BRUYANTS” (optionnel mais souvent inutile)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (ia_archiver|archive\.org_bot|Trendictionbot|SeobilityBot|Rogerbot) [NC
# ------------------------------------------------------------
# ACTION : 403 Forbidden
# ------------------------------------------------------------
RewriteRule ^ - [F,L]
</IfModule>
# ============================================================
# OPTION : bloquer les requêtes sans User-Agent (souvent suspect)
# (À activer seulement si vous voyez beaucoup de UA vides dans les logs)
# ============================================================
# <IfModule mod_rewrite.c>
# RewriteEngine On
# RewriteCond %{HTTP_USER_AGENT} ^-?$ [NC]
# RewriteRule ^ - [F,L]
# </IfModule>
Important
Ce fichier est “exhaustif” au sens très large, mais il y a 2 points à connaître :
- Il inclut aussi des bots qu’on peut parfois garder (ex : certains bots SEO). Si vous voulez préserver votre “visibilité” dans certaines bases SEO.
- Les bots sérieux peuvent usurper un User-Agent. Pour les scrapers vraiment insistants, le blocage par IP / ASN, ou Cloudflare, est souvent nécessaire.
Pour aller plus loin avec le fichier .htaccess : 20 snippets .htaccess essentiels
Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?
C’est LA question moderne.
Si vous bloquez des bots d’IA via robots.txt ou .htaccess, vous limitez leur capacité à lire et ingérer votre contenu. Donc oui, dans une certaine mesure, ça peut diminuer :
- leur capacité à citer votre site,
- la possibilité qu’un assistant vous “recommande”,
- l’apparition de vos pages dans certains moteurs basés sur IA.
Mais il faut remettre ça dans le contexte réel : aujourd’hui, le trafic IA reste souvent faible par rapport à Google, Bing ou même les réseaux sociaux (ça change, mais doucement). Donc si votre priorité est la stabilité serveur, la protection contre le scraping, et un site rapide, bloquer les bots IA peut être logique.
En revanche, si vous cherchez à être visible partout, notamment dans les outils d’IA, alors vous pouvez choisir une approche plus fine : vous bloquez les scrapers agressifs, les scanners, mais vous laissez certains bots IA autorisés. C’est un choix stratégique, pas une vérité absolue.
Dans la pratique, beaucoup de sites font un compromis : ils bloquent les bots IA qui crawlent comme des bulldozers, mais laissent les moteurs de recherche classiques respirer.
La méthode simple et propre
Si vous débutez et que vous voulez une méthode sans prise de tête :
Vous commencez par mettre le robots.txt avec les bots IA + scrapers connus. C’est une première barrière “soft”.
Ensuite, si vous voyez encore une charge serveur élevée, vous mettez le .htaccess. Là, vous passez au niveau supérieur et vous bloquez les bots qui abusent vraiment.
Enfin, vous surveillez 7 jours. Parce que ce qui compte, ce n’est pas “avoir bloqué”, c’est d’avoir un site plus rapide et plus stable.
Reprendre le contrôle sans devenir parano
Bloquer les bots, ce n’est pas déclarer la guerre à Internet. C’est juste reprendre un peu la main sur votre site, surtout quand vous sentez que votre serveur travaille pour des robots… et pas pour vos vrais visiteurs.
Le point le plus important, c’est de garder une philosophie simple : vous laissez passer les moteurs de recherche utiles, vous filtrez les bots IA si ça colle à vos objectifs, et vous bloquez sans hésiter les scrapers et scanners agressifs. À partir de là, vous avez déjà fait 80% du travail, sans toucher à des systèmes complexes.
Et si vous voulez aller encore plus loin plus tard, vous pourrez ajouter un vrai WAF, limiter le taux de requêtes, ou mettre en place des protections avancées. Mais honnêtement ? Dans énormément de cas, un bon bot robots.txt et un bon bot .htaccess bien pensé suffisent pour retrouver un site propre, rapide, et agréable à gérer.

Fondateur de l’agence Créa-troyes, affiliée France Num
Intervenant en Freelance.
Contactez-moi
