Bloquer les bots inutiles sans casser le SEO

Votre site tourne bien, mais votre hébergement chauffe, vos pages mettent plus longtemps à répondre, et dans vos stats vous voyez passer des dizaines de visites “bizarres” qui ne lisent rien… et reviennent toutes les 3 minutes. Très souvent, ce sont juste des bots. Pas toujours des bots “méchants” au sens film d’action. Ce sont des robots qui crawlent votre site pour aspirer des données, vérifier des liens, remplir des bases de données, ou nourrir des services d’analyse. Le problème, c’est que beaucoup d’entre eux ne vous apportent rien, et consomment pourtant vos ressources. Découvrez comment bloquer les bots inutiles sans impacter votre SEO grâce aux fichiers robots.txt et .htaccess.

Identifier rapidement quels robots méritent d’être stoppés, lesquels laisser passer, et éviter les erreurs qui peuvent casser votre visibilité sur Google.
Réduire la charge serveur, limiter le scraping et retrouver des statistiques plus propres grâce à des blocages efficaces adaptés à votre site.
Choisir la bonne méthode de blocage selon votre objectif (simple consigne ou blocage réel) avec des fichiers prêts à l’emploi.

Dans ce tutoriel, on va voir comment bloquer les bots inutiles proprement, en partant de zéro, avec une méthode claire, des exemples concrets, et surtout sans se tirer une balle dans le pied côté SEO.

Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?
Pourquoi bloquer les bots ? Les vrais avantages et les limites
La liste complète des bots qu’il ne faut pas bloquer
Liste “complète” des bots souvent utiles à bloquer (par catégorie)
Robots.txt ou .htaccess : lequel choisir ?
- robots.txt : une demande polie
- .htaccess : une barrière serveur plus efficace
Exemple concret : comment repérer les bots à bloquer
Fichier robots.txt complet pour bloquer les bots indésirables
Fichier .htaccess complet pour bloquer tous les bots indésirables
- Variante “plus stricte” (optionnelle)
Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?
La méthode simple et propre
Reprendre le contrôle sans devenir parano

Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?

Un bot (ou robot, ou crawler) est un programme automatique qui visite des pages web comme un humain le ferait… sauf qu’il ne clique pas “pour lire”. Il enchaîne les URLs, récupère le HTML, analyse des liens, télécharge des fichiers, et repart.

Dans le monde du web, il existe plusieurs grandes familles de bots :

Les bots de moteurs de recherche, qui explorent votre site pour l’indexer (Google, Bing…).
Les bots “SEO”, qui veulent analyser votre site ou celui des concurrents (audit, backlinks, performance…).
Les bots de scraping, qui copient vos contenus (articles, produits, prix…).
Les bots d’IA, qui collectent des pages pour entraîner ou alimenter des outils.
Les bots “techniques” (monitoring, uptime, outils dev…).
Et enfin, les bots toxiques (tentatives de brute force, scan de failles, etc.).

Le point important à comprendre, c’est que tous les bots ne sont pas mauvais. Certains sont essentiels à votre visibilité. D’autres sont neutres. Et certains, oui, sont des sangsues.

Pourquoi bloquer les bots ? Les vrais avantages et les limites

Réduire la charge serveur

Chaque visite de bot consomme des ressources : CPU, mémoire, bande passante, requêtes PHP/MySQL… Sur un petit hébergement mutualisé, ça peut suffire à rendre le site lent. Et un site lent, c’est des visiteurs qui partent et parfois un SEO qui souffre.

Protéger votre contenu contre le scraping

Vous écrivez un article, vous le publiez, et parfois il se retrouve copié ailleurs en 24h. C’est rageant, et ce n’est pas rare. Bloquer certains bots connus pour scrapper peut réduire le problème (pas le supprimer à 100%, mais réduire fortement).

Éviter les faux signaux dans vos statistiques

Certains bots font gonfler le trafic, déclenchent des événements, chargent des pages au hasard… Résultat : GA4 devient une soupe. Bloquer les bots les plus envahissants permet de retrouver des données propres.

Sécuriser un minimum

Bloquer des robots qui scannent des URLs sensibles (/wp-login.php, /xmlrpc.php, /admin, etc.) ne remplace pas un vrai pare-feu, mais ça enlève déjà une partie du bruit.

La limite importante

Bloquer les bots n’est pas magique. Un bot sérieux peut :

changer son User-Agent,
utiliser des IPs renouvelées,
ignorer votre robots.txt.

Donc l’objectif n’est pas “zéro bot”. L’objectif, c’est moins de parasites.

La liste complète des bots qu’il ne faut pas bloquer

Ici, on touche au nerf de la guerre. Parce que bloquer un bot utile peut casser votre visibilité.

Bots des moteurs de recherche (à garder absolument)

Ces bots sont essentiels pour que votre contenu remonte dans les résultats :

Moteur	User-Agent bot	À garder ?
Google Search	Googlebot	Oui
Google Images	Googlebot-Image	Oui
Google Mobile	Googlebot Smartphone	Oui
Bing	Bingbot	Oui
Bing Ads/Indexation	msnbot	Oui
DuckDuckGo	DuckDuckBot	Oui
Qwant (souvent via Bing)	(varie)	Oui
Yahoo (souvent via Bing)	Slurp (rare), ou via Bing	Oui
Yandex	YandexBot	Si vous ciblez l’international, oui
Baidu	Baiduspider	Si vous ciblez la Chine, oui

Bots SEO connus (à garder, la plupart du temps)

Certains bots viennent “observer” votre site, mais peuvent aussi vous être utiles indirectement :

Bot / User-Agent	Origine	Pourquoi le bloquer ?
AhrefsBot	USA	Crawl massif SEO
SemrushBot	USA	Crawl massif SEO
MJ12bot	UK	Crawl SEO
DotBot	USA	Crawl SEO (Moz)
BLEXBot	Europe	Crawl SEO/données
SEOkicks-Robot	Europe	Crawl backlinks
DataForSeoBot	USA	Crawl SEO
AdsBot	Monde	Crawl publicitaire / tracking
Sogou web spider	Chine	Crawl moteur chinois

Pourquoi les garder ? Parce que ces outils alimentent des bases de données SEO. Par exemple, si votre site apparaît dans des analyses externes, ça peut parfois participer à votre visibilité (backlinks, mentions, etc.). Ce n’est pas “obligatoire”, mais en général, les bloquer n’apporte pas un gain énorme, sauf si vous subissez une charge serveur.

Bots “vérification technique” (à garder)

Usage	User-Agent bot	À garder ?
Uptime / monitoring	UptimeRobot	Oui si vous l’utilisez
Vérification pages	Pingdom	Oui si vous l’utilisez
Validation W3C	W3C_Validator	Oui

Bots “réseaux sociaux” (souvent inutiles si vous ne partagez pas)

Bot / User-Agent	Origine	Pourquoi le bloquer ?
facebookexternalhit	USA	Aperçus Facebook
Facebot	USA	Crawl Facebook
Twitterbot	USA	Aperçus X/Twitter
LinkedInBot	USA	Aperçus LinkedIn
Pinterestbot	USA	Crawl Pinterest
Discordbot	USA	Aperçus Discord
TelegramBot	Russie/Monde	Aperçus Telegram
WhatsApp	USA	Aperçus WhatsApp

Astuce : si vous publiez souvent vos liens sur réseaux, ne bloquez pas ceux-là, sinon vos partages auront des miniatures cassées.

Liste “complète” des bots souvent utiles à bloquer (par catégorie)

Ici on parle des bots qui reviennent très souvent dans les logs, et qui ont tendance à crawler sans vous apporter grand-chose.

Bots IA / datasets (souvent bloqués)

Bot / User-Agent	Origine (souvent)	Pourquoi le bloquer ?
GPTBot	USA (OpenAI)	Crawl IA, pas utile pour le SEO Google
ChatGPT-User	USA (OpenAI)	Requêtes IA “assistées”, peut crawler vos pages
OAI-SearchBot	USA (OpenAI)	Indexation IA / recherche IA
ClaudeBot	USA (Anthropic)	Collecte IA
anthropic-ai	USA (Anthropic)	Collecte IA (UA vu sur certains crawls)
Google-Extended	USA (Google IA)	Utilisé pour collecte IA (différent de Googlebot)
CCBot	USA (Common Crawl)	Crawl massif, charge serveur
PerplexityBot	USA (Perplexity)	Crawl IA / réponses IA
YouBot	Europe (You.com)	Crawl IA
Bytespider	Chine (ByteDance)	Crawl très agressif fréquent
AlibabaCloudCrawler	Chine (Alibaba)	Crawl infra / dataset
PetalBot	Chine (Huawei)	Crawl moteur/IA Huawei
Applebot-Extended	USA (Apple)	Collecte IA / recherche (différent d’Applebot)

Bots scrapers / “aspirateurs”

Bot / User-Agent	Origine	Pourquoi le bloquer ?
Scrapy	Monde	Framework scraping très utilisé
Python-urllib	Monde	Scripts Python basiques (scraping/scan)
python-requests	Monde	Scripts Python automatisés
aiohttp	Monde	Bot maison Python (souvent scrap)
httpx	Monde	Scripts automatisés
libwww-perl	Monde	Bot Perl ancien, souvent scrap
Go-http-client	Monde	Scripts Go (scraping/scan)
Java/	Monde	Bots Java (scraping/scan)
Apache-HttpClient	Monde	Scraping Java/scan
curl	Monde	Requêtes automatiques, scraping
Wget	Monde	Aspiration site
HTTrack	Monde	Copier un site entier
WinHTTrack	Monde	Copier un site entier
Selenium	Monde	Navigation automatisée (scraping)
HeadlessChrome	Monde	Chrome sans interface (bots)
PhantomJS	Monde	Bot headless ancien
Puppeteer	Monde	Headless bot moderne
Playwright	Monde	Headless bot moderne

Bots douteux / scanners

Bot / User-Agent	Origine	Pourquoi le bloquer ?
sqlmap	Monde	Scan injection SQL
nikto	Monde	Scanner de vulnérabilités web
nmap	Monde	Scan réseau
masscan	Monde	Scan massif d’IP/ports
zgrab	Monde	Scanner automatisé
ZMap	Monde	Scan Internet global
WPScan	Monde	Scan WordPress
wpscan	Monde	Variante du même
Nessus	Monde	Scanner de sécurité
OpenVAS	Monde	Scanner de sécurité
Acunetix	Monde	Scanner failles web
Netsparker	Monde	Scanner failles web
DirBuster	Monde	Bruteforce de dossiers
gobuster	Monde	Bruteforce endpoints
ffuf	Monde	Fuzzing endpoints
Hydra	Monde	Bruteforce identifiants
zmEu	Monde	vieux scanner agressif
BlackWidow	Monde	aspirateur + scan

Ces derniers sont clairement des candidats parfaits pour une règle serveur : ça ne “discute” pas, ça dégage.

Bots russes (souvent à bloquer)

Bot / User-Agent	Pourquoi le bloquer ?
YandexBot	Si vous ne ciblez pas la Russie (crawl inutile)
YandexImages	Pareil
YandexMetrika	Tracking / crawl
SputnikBot	Robot rare, pas utile en France
Mail.RU_Bot	Crawl russe souvent inutile
Zao	Ancien bot russe (rare)

Bots chinois (souvent à bloquer)

Bot / User-Agent	Pourquoi le bloquer ?
Baiduspider	Si vous ne ciblez pas la Chine
Sogou web spider	Crawl chinois souvent agressif
Sogou inst spider	Pareil
Bytespider	Très agressif (ByteDance)
PetalBot	Huawei, souvent inutile FR
360Spider	Crawl chinois (Qihoo 360)
YoudaoBot	Crawl / traduction / indexation
HaosouSpider	Moteur chinois (varie)
AlibabaCloudCrawler	Crawl infra/dataset

Robots.txt ou .htaccess : lequel choisir ?

Très bonne question. Et la réponse, c’est : les deux ne jouent pas dans la même cour.

robots.txt : une demande polie

Le fichier robots.txt sert à dire :

“Bonjour robot, évitez de crawler ces pages.”

C’est une consigne. Pas une barrière. Un bot “bien élevé” obéit. Un bot malveillant s’en moque totalement.

Donc, si votre but est surtout de gérer l’exploration (crawl budget, pages inutiles, IA respectueuse), robots.txt est utile.

.htaccess : une barrière serveur plus efficace

Le fichier .htaccess (sur Apache) permet de bloquer réellement des accès :

“Tu es ce bot ? Réponse 403. Tu ne passes pas.”

C’est beaucoup plus solide pour réduire la charge, bloquer des scrapers, et calmer les scanners.

Le bon raisonnement est simple :

Pour orienter les bots : robots.txt
Pour bloquer les bots vraiment : .htaccess

Exemple concret : comment repérer les bots à bloquer

Avant de bloquer au hasard, le bon réflexe est de regarder ce qui passe sur votre site.

Sur un hébergement Linux, vous avez souvent accès à des logs Apache/Nginx. Vous pouvez repérer les User-Agents les plus fréquents.

Exemple de ligne typique :

Formation web et informatique - Alban Guillier - Formateur

Des formations informatique pour tous !

Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…

Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.

Découvrez mes formations Qui suis-je ?

66.249.66.1 - - [30/Jan/2026:21:10:01 +0100] "GET /mon-article HTTP/1.1" 200 12543 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

Ici, aucun doute : Googlebot, on garde.

Mais si vous voyez :

185.12.34.56 - - [30/Jan/2026:21:10:01 +0100] "GET /wp-login.php HTTP/1.1" 404 532 "-" "sqlmap/1.7"

Là, c’est un “au revoir”.

En regardant des logs pour un petit site vitrine qui “ramait”, j’ai cru que le serveur avait un souci. En réalité, ce n’était pas un bug PHP, ni une extension WordPress… c’était juste un bot qui hitait 200 pages par minute comme un stagiaire trop motivé. Après un blocage propre, le site est redevenu fluide. Le genre de “réparation” qui fait plaisir, parce qu’elle prend 10 minutes et vous avez l’impression d’avoir changé d’hébergeur.

Fichier robots.txt complet pour bloquer les bots indésirables

Voici un robots.txt prêt à l’emploi pour bloquer un gros lot de bots IA, scrapers, scanners connus. Important : ce fichier ne bloque pas Googlebot/Bingbot.

Créez un fichier /robots.txt à la racine de votre site web :

Voici un robots.txt complet et “exhaustif” (très large) pour bloquer un maximum de bots inutiles (IA, scraping, scanners, crawlers agressifs), sans bloquer Googlebot / Bingbot.

⚠️ Important : Un robots.txt reste une consigne (les bots malveillants peuvent l’ignorer). Pour un blocage réel, il faudra ensuite un .htaccess / firewall.

# ============================================================
# robots.txt - Blocage massif de bots inutiles / scraping / IA
# Objectif : protéger le crawl, limiter le scraping, réduire charge
# Attention : robots.txt n'est pas un "mur", certains bots ignorent
# ============================================================

User-agent: *
Disallow:

# -----------------------------
# BOTS IA / LLM / COLLECTE DATA
# -----------------------------

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: Sogou inst spider
Disallow: /

User-agent: 360Spider
Disallow: /

User-agent: HaosouSpider
Disallow: /

User-agent: YoudaoBot
Disallow: /

User-agent: AlibabaCloudCrawler
Disallow: /

# -----------------------------
# SCRAPERS / ASPIRATEURS
# -----------------------------

User-agent: Scrapy
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: WinHTTrack
Disallow: /

User-agent: WebCopy
Disallow: /

User-agent: SiteSucker
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: wget
Disallow: /

User-agent: Wget
Disallow: /

User-agent: curl
Disallow: /

User-agent: Curl
Disallow: /

User-agent: python-requests
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: urllib
Disallow: /

User-agent: aiohttp
Disallow: /

User-agent: httpx
Disallow: /

User-agent: Go-http-client
Disallow: /

User-agent: libwww-perl
Disallow: /

User-agent: LWP::Simple
Disallow: /

User-agent: Java
Disallow: /

User-agent: Apache-HttpClient
Disallow: /

User-agent: okhttp
Disallow: /

User-agent: HeadlessChrome
Disallow: /

User-agent: PhantomJS
Disallow: /

User-agent: Puppeteer
Disallow: /

User-agent: Playwright
Disallow: /

User-agent: Selenium
Disallow: /

# -----------------------------
# SCANNERS / OUTILS D'ATTAQUE
# -----------------------------

User-agent: sqlmap
Disallow: /

User-agent: nikto
Disallow: /

User-agent: nmap
Disallow: /

User-agent: masscan
Disallow: /

User-agent: zgrab
Disallow: /

User-agent: zmap
Disallow: /

User-agent: Nessus
Disallow: /

User-agent: OpenVAS
Disallow: /

User-agent: Acunetix
Disallow: /

User-agent: Netsparker
Disallow: /

User-agent: WPScan
Disallow: /

User-agent: wpscan
Disallow: /

User-agent: DirBuster
Disallow: /

User-agent: gobuster
Disallow: /

User-agent: ffuf
Disallow: /

User-agent: Hydra
Disallow: /

User-agent: Metasploit
Disallow: /

User-agent: Nuclei
Disallow: /

User-agent: Jaeles
Disallow: /

User-agent: Zao
Disallow: /

User-agent: BlackWidow
Disallow: /

# -----------------------------
# BOTS SEO / BACKLINKS (souvent agressifs)
# (à bloquer si vous voulez limiter le crawl concurrent)
# -----------------------------

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: ZoominfoBot
Disallow: /

User-agent: linkdexbot
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: MegaIndex.ru
Disallow: /

User-agent: serpstatbot
Disallow: /

User-agent: SEOdiver
Disallow: /

User-agent: XoviBot
Disallow: /

User-agent: SeznamBot
Disallow: /

# -----------------------------
# BOTS RUSSES (souvent inutiles en FR)
# (Ne pas bloquer si vous ciblez la Russie)
# -----------------------------

User-agent: YandexBot
Disallow: /

User-agent: YandexImages
Disallow: /

User-agent: YandexVideo
Disallow: /

User-agent: YandexMedia
Disallow: /

User-agent: YandexMetrika
Disallow: /

User-agent: Mail.RU_Bot
Disallow: /

User-agent: SputnikBot
Disallow: /

# -----------------------------
# BOTS DOUTEUX / DIVERS (souvent bruyants)
# -----------------------------

User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: Trendictionbot
Disallow: /

User-agent: SeobilityBot
Disallow: /

User-agent: Rogerbot
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: UptimeRobot
Disallow: /

User-agent: Pingdom
Disallow: /

User-agent: GTmetrix
Disallow: /

# -----------------------------
# FIN
# -----------------------------

Deux conseils importants

Ce robots.txt est volontairement “énorme” : parfait si vous voulez être agressif, mais vous pouvez retirer ce que vous souhaitez (ex : Ahrefs/Semrush, archive.org, etc.).
Si vous voulez un vrai blocage qui marche même sur les bots qui ignorent robots.txt, il vous faut la version .htaccess complète correspondante.

Fichier .htaccess complet pour bloquer tous les bots indésirables

Ici, on fait du blocage réel.

Attention : .htaccess s’applique sur Apache. Si votre serveur est en Nginx pur, ce fichier ne fera rien (il faudra des règles Nginx).

Collez ceci dans votre .htaccess (idéalement à la racine du site) :

# ----------------------------------------------------
# BLOQUER LES BOTS INDÉSIRABLES (User-Agent)
# ----------------------------------------------------

<IfModule mod_rewrite.c>
RewriteEngine On

# Bloquer bots IA / datasets
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|Amazonbot|Bytespider) [NC,OR]

# Bloquer scrapers génériques
RewriteCond %{HTTP_USER_AGENT} (Scrapy|curl|wget|python-urllib|Go-http-client) [NC,OR]

# Bloquer scanners / outils agressifs
RewriteCond %{HTTP_USER_AGENT} (sqlmap|wpscan|masscan|nikto|zgrab) [NC]

RewriteRule ^ - [F,L]
</IfModule>

Ce code renvoie un 403 Forbidden. Résultat : le bot est stoppé net.

Variante “plus stricte” (optionnelle)

Voici un .htaccess complet et “exhaustif” (blocage très large) pour bloquer un maximum de bots inutiles par User-Agent, sans toucher à Googlebot / Bingbot.

Attention : Ce blocage est efficace, mais un bot peut falsifier son User-Agent. Le meilleur combo reste .htaccess + pare-feu (Cloudflare/WAF) + rate limiting.

Copiez/collez tel quel en haut de votre .htaccess (ou juste après vos règles WordPress si vous préférez, mais l’idéal est avant les réécritures).

# ============================================================
# .htaccess - Blocage massif de bots inutiles / scraping / IA
# Objectif : 403 direct pour réduire crawl, scraping et charge
# Prérequis : Apache + mod_rewrite
# IMPORTANT : Ne bloque pas Googlebot/Bingbot (volontaire)
# ============================================================

<IfModule mod_rewrite.c>
RewriteEngine On

# ------------------------------------------------------------
# 1) IA / LLM / COLLECTE (souvent à bloquer)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT-User|OAI-SearchBot|ClaudeBot|anthropic-ai|Google-Extended|CCBot|PerplexityBot|YouBot|Applebot-Extended|Amazonbot|Bytespider|PetalBot|AlibabaCloudCrawler) [NC,OR]

# Chine / moteurs / crawlers souvent agressifs (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (Baiduspider|Sogou[\ _-]?web[\ _-]?spider|Sogou[\ _-]?inst[\ _-]?spider|360Spider|HaosouSpider|YoudaoBot) [NC,OR]

# Russie (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (YandexBot|YandexImages|YandexVideo|YandexMedia|YandexMetrika|Mail\.RU_Bot|SputnikBot) [NC,OR]

# ------------------------------------------------------------
# 2) SCRAPERS / ASPIRATEURS / OUTILS D'AUTOMATION
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (Scrapy|HTTrack|WinHTTrack|WebCopy|SiteSucker|Offline[\ _-]?Explorer|Teleport|WebZIP|EmailSiphon|EmailCollector) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (wget|curl|python-requests|Python-urllib|urllib|aiohttp|httpx|Go-http-client|libwww-perl|LWP::Simple|Apache-HttpClient|okhttp) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (HeadlessChrome|PhantomJS|Puppeteer|Playwright|Selenium) [NC,OR]

# ------------------------------------------------------------
# 3) SCANNERS / BRUTE FORCE / OUTILS D'ATTAQUE
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (sqlmap|nikto|nmap|masscan|zgrab|zmap|Nessus|OpenVAS|Acunetix|Netsparker|WPScan|wpscan|DirBuster|gobuster|ffuf|Hydra|Metasploit|Nuclei|Jaeles|BlackWidow) [NC,OR]

# ------------------------------------------------------------
# 4) SEO / BACKLINKS AGRESSIFS (souvent à bloquer sur petit serveur)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|SEOkicks-Robot|DataForSeoBot|serpstatbot|XoviBot|MegaIndex|MegaIndex\.ru|linkdexbot) [NC,OR]

# ------------------------------------------------------------
# 5) DIVERS “BRUYANTS” (optionnel mais souvent inutile)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (ia_archiver|archive\.org_bot|Trendictionbot|SeobilityBot|Rogerbot) [NC

# ------------------------------------------------------------
# ACTION : 403 Forbidden
# ------------------------------------------------------------
RewriteRule ^ - [F,L]

</IfModule>

# ============================================================
# OPTION : bloquer les requêtes sans User-Agent (souvent suspect)
# (À activer seulement si vous voyez beaucoup de UA vides dans les logs)
# ============================================================
# <IfModule mod_rewrite.c>
# RewriteEngine On
# RewriteCond %{HTTP_USER_AGENT} ^-?$ [NC]
# RewriteRule ^ - [F,L]
# </IfModule>

Important

Ce fichier est “exhaustif” au sens très large, mais il y a 2 points à connaître :

Il inclut aussi des bots qu’on peut parfois garder (ex : certains bots SEO). Si vous voulez préserver votre “visibilité” dans certaines bases SEO.
Les bots sérieux peuvent usurper un User-Agent. Pour les scrapers vraiment insistants, le blocage par IP / ASN, ou Cloudflare, est souvent nécessaire.

Pour aller plus loin avec le fichier .htaccess : 20 snippets .htaccess essentiels

Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?

C’est LA question moderne.

Si vous bloquez des bots d’IA via robots.txt ou .htaccess, vous limitez leur capacité à lire et ingérer votre contenu. Donc oui, dans une certaine mesure, ça peut diminuer :

leur capacité à citer votre site,
la possibilité qu’un assistant vous “recommande”,
l’apparition de vos pages dans certains moteurs basés sur IA.

Mais il faut remettre ça dans le contexte réel : aujourd’hui, le trafic IA reste souvent faible par rapport à Google, Bing ou même les réseaux sociaux (ça change, mais doucement). Donc si votre priorité est la stabilité serveur, la protection contre le scraping, et un site rapide, bloquer les bots IA peut être logique.

En revanche, si vous cherchez à être visible partout, notamment dans les outils d’IA, alors vous pouvez choisir une approche plus fine : vous bloquez les scrapers agressifs, les scanners, mais vous laissez certains bots IA autorisés. C’est un choix stratégique, pas une vérité absolue.

Dans la pratique, beaucoup de sites font un compromis : ils bloquent les bots IA qui crawlent comme des bulldozers, mais laissent les moteurs de recherche classiques respirer.

La méthode simple et propre

Si vous débutez et que vous voulez une méthode sans prise de tête :

Vous commencez par mettre le robots.txt avec les bots IA + scrapers connus. C’est une première barrière “soft”.

Ensuite, si vous voyez encore une charge serveur élevée, vous mettez le .htaccess. Là, vous passez au niveau supérieur et vous bloquez les bots qui abusent vraiment.

Enfin, vous surveillez 7 jours. Parce que ce qui compte, ce n’est pas “avoir bloqué”, c’est d’avoir un site plus rapide et plus stable.

Reprendre le contrôle sans devenir parano

Bloquer les bots, ce n’est pas déclarer la guerre à Internet. C’est juste reprendre un peu la main sur votre site, surtout quand vous sentez que votre serveur travaille pour des robots… et pas pour vos vrais visiteurs.

Le point le plus important, c’est de garder une philosophie simple : vous laissez passer les moteurs de recherche utiles, vous filtrez les bots IA si ça colle à vos objectifs, et vous bloquez sans hésiter les scrapers et scanners agressifs. À partir de là, vous avez déjà fait 80% du travail, sans toucher à des systèmes complexes.

Et si vous voulez aller encore plus loin plus tard, vous pourrez ajouter un vrai WAF, limiter le taux de requêtes, ou mettre en place des protections avancées. Mais honnêtement ? Dans énormément de cas, un bon bot robots.txt et un bon bot .htaccess bien pensé suffisent pour retrouver un site propre, rapide, et agréable à gérer.

Alban Guillier

Fondateur de l’agence Créa-troyes, affiliée France Num
Intervenant en Freelance.
Contactez-moi

crea-troyes.fr

Créa-blog

Bloquer les bots inutiles sans casser le SEO | htacces et robots.txt

Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?

Pourquoi bloquer les bots ? Les vrais avantages et les limites

Réduire la charge serveur

Protéger votre contenu contre le scraping

Éviter les faux signaux dans vos statistiques

Sécuriser un minimum

La limite importante

La liste complète des bots qu’il ne faut pas bloquer

Bots des moteurs de recherche (à garder absolument)

Bots SEO connus (à garder, la plupart du temps)

Bots “vérification technique” (à garder)

Bots “réseaux sociaux” (souvent inutiles si vous ne partagez pas)

Liste “complète” des bots souvent utiles à bloquer (par catégorie)

Bots IA / datasets (souvent bloqués)

Bots scrapers / “aspirateurs”

Bots douteux / scanners

Bots russes (souvent à bloquer)

Bots chinois (souvent à bloquer)

Robots.txt ou .htaccess : lequel choisir ?

robots.txt : une demande polie

.htaccess : une barrière serveur plus efficace

Exemple concret : comment repérer les bots à bloquer

Des formations informatique pour tous !

Fichier robots.txt complet pour bloquer les bots indésirables

Deux conseils importants

Fichier .htaccess complet pour bloquer tous les bots indésirables

Variante “plus stricte” (optionnelle)

Important

Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?

La méthode simple et propre

Reprendre le contrôle sans devenir parano

Bloquer les bots inutiles sans casser le SEO | htacces et robots.txt

Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?

Pourquoi bloquer les bots ? Les vrais avantages et les limites

Réduire la charge serveur

Protéger votre contenu contre le scraping

Éviter les faux signaux dans vos statistiques

Sécuriser un minimum

La limite importante

La liste complète des bots qu’il ne faut pas bloquer

Bots des moteurs de recherche (à garder absolument)

Bots SEO connus (à garder, la plupart du temps)

Bots “vérification technique” (à garder)

Bots “réseaux sociaux” (souvent inutiles si vous ne partagez pas)

Liste “complète” des bots souvent utiles à bloquer (par catégorie)

Bots IA / datasets (souvent bloqués)

Bots scrapers / “aspirateurs”

Bots douteux / scanners

Bots russes (souvent à bloquer)

Bots chinois (souvent à bloquer)

Robots.txt ou .htaccess : lequel choisir ?

robots.txt : une demande polie

.htaccess : une barrière serveur plus efficace

Exemple concret : comment repérer les bots à bloquer

Des formations informatique pour tous !

Fichier robots.txt complet pour bloquer les bots indésirables

Deux conseils importants

Fichier .htaccess complet pour bloquer tous les bots indésirables

Variante “plus stricte” (optionnelle)

Important

Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?

La méthode simple et propre

Reprendre le contrôle sans devenir parano

Recevez chaque semaine nos articles et tutoriels directement sur votre boîte mail

Articles relatifs