609 tutoriels en ligne

Créa-blog

#100JoursPourCoder
Projet Créa-code

Ressources pour développeur web

Théme de la semaine : Google Analytics

Bloquer les bots inutiles sans casser le SEO | htacces et robots.txt

Temps de lecture estimé : 9 minutes
Accueil Sécurité Bloquer les bots inutiles sans casser le SEO | htacces et robots.txt

Votre site tourne bien, mais votre hébergement chauffe, vos pages mettent plus longtemps à répondre, et dans vos stats vous voyez passer des dizaines de visites “bizarres” qui ne lisent rien… et reviennent toutes les 3 minutes. Très souvent, ce sont juste des bots. Pas toujours des bots “méchants” au sens film d’action. Ce sont des robots qui crawlent votre site pour aspirer des données, vérifier des liens, remplir des bases de données, ou nourrir des services d’analyse. Le problème, c’est que beaucoup d’entre eux ne vous apportent rien, et consomment pourtant vos ressources. Découvrez comment bloquer les bots inutiles sans impacter votre SEO grâce aux fichiers robots.txt et .htaccess.

  • Identifier rapidement quels robots méritent d’être stoppés, lesquels laisser passer, et éviter les erreurs qui peuvent casser votre visibilité sur Google.
  • Réduire la charge serveur, limiter le scraping et retrouver des statistiques plus propres grâce à des blocages efficaces adaptés à votre site.
  • Choisir la bonne méthode de blocage selon votre objectif (simple consigne ou blocage réel) avec des fichiers prêts à l’emploi.

Dans ce tutoriel, on va voir comment bloquer les bots inutiles proprement, en partant de zéro, avec une méthode claire, des exemples concrets, et surtout sans se tirer une balle dans le pied côté SEO.

Qu’est-ce qu’un bot et pourquoi vient-il chez vous ?

Un bot (ou robot, ou crawler) est un programme automatique qui visite des pages web comme un humain le ferait… sauf qu’il ne clique pas “pour lire”. Il enchaîne les URLs, récupère le HTML, analyse des liens, télécharge des fichiers, et repart.

Dans le monde du web, il existe plusieurs grandes familles de bots :

  • Les bots de moteurs de recherche, qui explorent votre site pour l’indexer (Google, Bing…).
  • Les bots “SEO”, qui veulent analyser votre site ou celui des concurrents (audit, backlinks, performance…).
  • Les bots de scraping, qui copient vos contenus (articles, produits, prix…).
  • Les bots d’IA, qui collectent des pages pour entraîner ou alimenter des outils.
  • Les bots “techniques” (monitoring, uptime, outils dev…).
  • Et enfin, les bots toxiques (tentatives de brute force, scan de failles, etc.).

Le point important à comprendre, c’est que tous les bots ne sont pas mauvais. Certains sont essentiels à votre visibilité. D’autres sont neutres. Et certains, oui, sont des sangsues.

Pourquoi bloquer les bots ? Les vrais avantages et les limites

Réduire la charge serveur

Chaque visite de bot consomme des ressources : CPU, mémoire, bande passante, requêtes PHP/MySQL… Sur un petit hébergement mutualisé, ça peut suffire à rendre le site lent. Et un site lent, c’est des visiteurs qui partent et parfois un SEO qui souffre.

Protéger votre contenu contre le scraping

Vous écrivez un article, vous le publiez, et parfois il se retrouve copié ailleurs en 24h. C’est rageant, et ce n’est pas rare. Bloquer certains bots connus pour scrapper peut réduire le problème (pas le supprimer à 100%, mais réduire fortement).

Éviter les faux signaux dans vos statistiques

Certains bots font gonfler le trafic, déclenchent des événements, chargent des pages au hasard… Résultat : GA4 devient une soupe. Bloquer les bots les plus envahissants permet de retrouver des données propres.

Sécuriser un minimum

Bloquer des robots qui scannent des URLs sensibles (/wp-login.php/xmlrpc.php/admin, etc.) ne remplace pas un vrai pare-feu, mais ça enlève déjà une partie du bruit.

La limite importante

Bloquer les bots n’est pas magique. Un bot sérieux peut :

  • changer son User-Agent,
  • utiliser des IPs renouvelées,
  • ignorer votre robots.txt.

Donc l’objectif n’est pas “zéro bot”. L’objectif, c’est moins de parasites.

La liste complète des bots qu’il ne faut pas bloquer

Ici, on touche au nerf de la guerre. Parce que bloquer un bot utile peut casser votre visibilité.

Bots des moteurs de recherche (à garder absolument)

Ces bots sont essentiels pour que votre contenu remonte dans les résultats :

MoteurUser-Agent botÀ garder ?
Google SearchGooglebotOui
Google ImagesGooglebot-ImageOui
Google MobileGooglebot SmartphoneOui
BingBingbotOui
Bing Ads/IndexationmsnbotOui
DuckDuckGoDuckDuckBotOui
Qwant (souvent via Bing)(varie)Oui
Yahoo (souvent via Bing)Slurp (rare), ou via BingOui
YandexYandexBotSi vous ciblez l’international, oui
BaiduBaiduspiderSi vous ciblez la Chine, oui

Bots SEO connus (à garder, la plupart du temps)

Certains bots viennent “observer” votre site, mais peuvent aussi vous être utiles indirectement :

Bot / User-AgentOriginePourquoi le bloquer ?
AhrefsBotUSACrawl massif SEO
SemrushBotUSACrawl massif SEO
MJ12botUKCrawl SEO
DotBotUSACrawl SEO (Moz)
BLEXBotEuropeCrawl SEO/données
SEOkicks-RobotEuropeCrawl backlinks
DataForSeoBotUSACrawl SEO
AdsBotMondeCrawl publicitaire / tracking
Sogou web spiderChineCrawl moteur chinois

Pourquoi les garder ? Parce que ces outils alimentent des bases de données SEO. Par exemple, si votre site apparaît dans des analyses externes, ça peut parfois participer à votre visibilité (backlinks, mentions, etc.). Ce n’est pas “obligatoire”, mais en général, les bloquer n’apporte pas un gain énorme, sauf si vous subissez une charge serveur.

Bots “vérification technique” (à garder)

UsageUser-Agent botÀ garder ?
Uptime / monitoringUptimeRobotOui si vous l’utilisez
Vérification pagesPingdomOui si vous l’utilisez
Validation W3CW3C_ValidatorOui

Bots “réseaux sociaux” (souvent inutiles si vous ne partagez pas)

Bot / User-AgentOriginePourquoi le bloquer ?
facebookexternalhitUSAAperçus Facebook
FacebotUSACrawl Facebook
TwitterbotUSAAperçus X/Twitter
LinkedInBotUSAAperçus LinkedIn
PinterestbotUSACrawl Pinterest
DiscordbotUSAAperçus Discord
TelegramBotRussie/MondeAperçus Telegram
WhatsAppUSAAperçus WhatsApp

Astuce : si vous publiez souvent vos liens sur réseaux, ne bloquez pas ceux-là, sinon vos partages auront des miniatures cassées.

Liste “complète” des bots souvent utiles à bloquer (par catégorie)

Ici on parle des bots qui reviennent très souvent dans les logs, et qui ont tendance à crawler sans vous apporter grand-chose.

Bots IA / datasets (souvent bloqués)

Bot / User-AgentOrigine (souvent)Pourquoi le bloquer ?
GPTBotUSA (OpenAI)Crawl IA, pas utile pour le SEO Google
ChatGPT-UserUSA (OpenAI)Requêtes IA “assistées”, peut crawler vos pages
OAI-SearchBotUSA (OpenAI)Indexation IA / recherche IA
ClaudeBotUSA (Anthropic)Collecte IA
anthropic-aiUSA (Anthropic)Collecte IA (UA vu sur certains crawls)
Google-ExtendedUSA (Google IA)Utilisé pour collecte IA (différent de Googlebot)
CCBotUSA (Common Crawl)Crawl massif, charge serveur
PerplexityBotUSA (Perplexity)Crawl IA / réponses IA
YouBotEurope (You.com)Crawl IA
BytespiderChine (ByteDance)Crawl très agressif fréquent
AlibabaCloudCrawlerChine (Alibaba)Crawl infra / dataset
PetalBotChine (Huawei)Crawl moteur/IA Huawei
Applebot-ExtendedUSA (Apple)Collecte IA / recherche (différent d’Applebot)

Bots scrapers / “aspirateurs”

Bot / User-AgentOriginePourquoi le bloquer ?
ScrapyMondeFramework scraping très utilisé
Python-urllibMondeScripts Python basiques (scraping/scan)
python-requestsMondeScripts Python automatisés
aiohttpMondeBot maison Python (souvent scrap)
httpxMondeScripts automatisés
libwww-perlMondeBot Perl ancien, souvent scrap
Go-http-clientMondeScripts Go (scraping/scan)
Java/MondeBots Java (scraping/scan)
Apache-HttpClientMondeScraping Java/scan
curlMondeRequêtes automatiques, scraping
WgetMondeAspiration site
HTTrackMondeCopier un site entier
WinHTTrackMondeCopier un site entier
SeleniumMondeNavigation automatisée (scraping)
HeadlessChromeMondeChrome sans interface (bots)
PhantomJSMondeBot headless ancien
PuppeteerMondeHeadless bot moderne
PlaywrightMondeHeadless bot moderne

Bots douteux / scanners

Bot / User-AgentOriginePourquoi le bloquer ?
sqlmapMondeScan injection SQL
niktoMondeScanner de vulnérabilités web
nmapMondeScan réseau
masscanMondeScan massif d’IP/ports
zgrabMondeScanner automatisé
ZMapMondeScan Internet global
WPScanMondeScan WordPress
wpscanMondeVariante du même
NessusMondeScanner de sécurité
OpenVASMondeScanner de sécurité
AcunetixMondeScanner failles web
NetsparkerMondeScanner failles web
DirBusterMondeBruteforce de dossiers
gobusterMondeBruteforce endpoints
ffufMondeFuzzing endpoints
HydraMondeBruteforce identifiants
zmEuMondevieux scanner agressif
BlackWidowMondeaspirateur + scan

Ces derniers sont clairement des candidats parfaits pour une règle serveur : ça ne “discute” pas, ça dégage.

Bots russes (souvent à bloquer)

Bot / User-AgentPourquoi le bloquer ?
YandexBotSi vous ne ciblez pas la Russie (crawl inutile)
YandexImagesPareil
YandexMetrikaTracking / crawl
SputnikBotRobot rare, pas utile en France
Mail.RU_BotCrawl russe souvent inutile
ZaoAncien bot russe (rare)

Bots chinois (souvent à bloquer)

Bot / User-AgentPourquoi le bloquer ?
BaiduspiderSi vous ne ciblez pas la Chine
Sogou web spiderCrawl chinois souvent agressif
Sogou inst spiderPareil
BytespiderTrès agressif (ByteDance)
PetalBotHuawei, souvent inutile FR
360SpiderCrawl chinois (Qihoo 360)
YoudaoBotCrawl / traduction / indexation
HaosouSpiderMoteur chinois (varie)
AlibabaCloudCrawlerCrawl infra/dataset

Robots.txt ou .htaccess : lequel choisir ?

Très bonne question. Et la réponse, c’est : les deux ne jouent pas dans la même cour.

robots.txt : une demande polie

Le fichier robots.txt sert à dire :

“Bonjour robot, évitez de crawler ces pages.”

C’est une consigne. Pas une barrière. Un bot “bien élevé” obéit. Un bot malveillant s’en moque totalement.

Donc, si votre but est surtout de gérer l’exploration (crawl budget, pages inutiles, IA respectueuse), robots.txt est utile.

.htaccess : une barrière serveur plus efficace

Le fichier .htaccess (sur Apache) permet de bloquer réellement des accès :

“Tu es ce bot ? Réponse 403. Tu ne passes pas.”

C’est beaucoup plus solide pour réduire la charge, bloquer des scrapers, et calmer les scanners.

Le bon raisonnement est simple :

  • Pour orienter les bots : robots.txt
  • Pour bloquer les bots vraiment : .htaccess

Exemple concret : comment repérer les bots à bloquer

Avant de bloquer au hasard, le bon réflexe est de regarder ce qui passe sur votre site.

Sur un hébergement Linux, vous avez souvent accès à des logs Apache/Nginx. Vous pouvez repérer les User-Agents les plus fréquents.

Exemple de ligne typique :

Formation web et informatique - Alban Guillier - Formateur

Des formations informatique pour tous !

Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…

Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.

Découvrez mes formations Qui suis-je ?
66.249.66.1 - - [30/Jan/2026:21:10:01 +0100] "GET /mon-article HTTP/1.1" 200 12543 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

Ici, aucun doute : Googlebot, on garde.

Mais si vous voyez :

185.12.34.56 - - [30/Jan/2026:21:10:01 +0100] "GET /wp-login.php HTTP/1.1" 404 532 "-" "sqlmap/1.7"

Là, c’est un “au revoir”.

En regardant des logs pour un petit site vitrine qui “ramait”, j’ai cru que le serveur avait un souci. En réalité, ce n’était pas un bug PHP, ni une extension WordPress… c’était juste un bot qui hitait 200 pages par minute comme un stagiaire trop motivé. Après un blocage propre, le site est redevenu fluide. Le genre de “réparation” qui fait plaisir, parce qu’elle prend 10 minutes et vous avez l’impression d’avoir changé d’hébergeur.

Fichier robots.txt complet pour bloquer les bots indésirables

Voici un robots.txt prêt à l’emploi pour bloquer un gros lot de bots IA, scrapers, scanners connus. Important : ce fichier ne bloque pas Googlebot/Bingbot.

Créez un fichier /robots.txt à la racine de votre site web :

Voici un robots.txt complet et “exhaustif” (très large) pour bloquer un maximum de bots inutiles (IA, scraping, scanners, crawlers agressifs), sans bloquer Googlebot / Bingbot.

⚠️ Important : Un robots.txt reste une consigne (les bots malveillants peuvent l’ignorer). Pour un blocage réel, il faudra ensuite un .htaccess / firewall.

# ============================================================
# robots.txt - Blocage massif de bots inutiles / scraping / IA
# Objectif : protéger le crawl, limiter le scraping, réduire charge
# Attention : robots.txt n'est pas un "mur", certains bots ignorent
# ============================================================

User-agent: *
Disallow:

# -----------------------------
# BOTS IA / LLM / COLLECTE DATA
# -----------------------------

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: Sogou inst spider
Disallow: /

User-agent: 360Spider
Disallow: /

User-agent: HaosouSpider
Disallow: /

User-agent: YoudaoBot
Disallow: /

User-agent: AlibabaCloudCrawler
Disallow: /

# -----------------------------
# SCRAPERS / ASPIRATEURS
# -----------------------------

User-agent: Scrapy
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: WinHTTrack
Disallow: /

User-agent: WebCopy
Disallow: /

User-agent: SiteSucker
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: wget
Disallow: /

User-agent: Wget
Disallow: /

User-agent: curl
Disallow: /

User-agent: Curl
Disallow: /

User-agent: python-requests
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: urllib
Disallow: /

User-agent: aiohttp
Disallow: /

User-agent: httpx
Disallow: /

User-agent: Go-http-client
Disallow: /

User-agent: libwww-perl
Disallow: /

User-agent: LWP::Simple
Disallow: /

User-agent: Java
Disallow: /

User-agent: Apache-HttpClient
Disallow: /

User-agent: okhttp
Disallow: /

User-agent: HeadlessChrome
Disallow: /

User-agent: PhantomJS
Disallow: /

User-agent: Puppeteer
Disallow: /

User-agent: Playwright
Disallow: /

User-agent: Selenium
Disallow: /

# -----------------------------
# SCANNERS / OUTILS D'ATTAQUE
# -----------------------------

User-agent: sqlmap
Disallow: /

User-agent: nikto
Disallow: /

User-agent: nmap
Disallow: /

User-agent: masscan
Disallow: /

User-agent: zgrab
Disallow: /

User-agent: zmap
Disallow: /

User-agent: Nessus
Disallow: /

User-agent: OpenVAS
Disallow: /

User-agent: Acunetix
Disallow: /

User-agent: Netsparker
Disallow: /

User-agent: WPScan
Disallow: /

User-agent: wpscan
Disallow: /

User-agent: DirBuster
Disallow: /

User-agent: gobuster
Disallow: /

User-agent: ffuf
Disallow: /

User-agent: Hydra
Disallow: /

User-agent: Metasploit
Disallow: /

User-agent: Nuclei
Disallow: /

User-agent: Jaeles
Disallow: /

User-agent: Zao
Disallow: /

User-agent: BlackWidow
Disallow: /

# -----------------------------
# BOTS SEO / BACKLINKS (souvent agressifs)
# (à bloquer si vous voulez limiter le crawl concurrent)
# -----------------------------

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: ZoominfoBot
Disallow: /

User-agent: linkdexbot
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: MegaIndex.ru
Disallow: /

User-agent: serpstatbot
Disallow: /

User-agent: SEOdiver
Disallow: /

User-agent: XoviBot
Disallow: /

User-agent: SeznamBot
Disallow: /

# -----------------------------
# BOTS RUSSES (souvent inutiles en FR)
# (Ne pas bloquer si vous ciblez la Russie)
# -----------------------------

User-agent: YandexBot
Disallow: /

User-agent: YandexImages
Disallow: /

User-agent: YandexVideo
Disallow: /

User-agent: YandexMedia
Disallow: /

User-agent: YandexMetrika
Disallow: /

User-agent: Mail.RU_Bot
Disallow: /

User-agent: SputnikBot
Disallow: /

# -----------------------------
# BOTS DOUTEUX / DIVERS (souvent bruyants)
# -----------------------------

User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: Trendictionbot
Disallow: /

User-agent: SeobilityBot
Disallow: /

User-agent: Rogerbot
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: UptimeRobot
Disallow: /

User-agent: Pingdom
Disallow: /

User-agent: GTmetrix
Disallow: /

# -----------------------------
# FIN
# -----------------------------

Deux conseils importants

  1. Ce robots.txt est volontairement “énorme” : parfait si vous voulez être agressif, mais vous pouvez retirer ce que vous souhaitez (ex : Ahrefs/Semrush, archive.org, etc.).
  2. Si vous voulez un vrai blocage qui marche même sur les bots qui ignorent robots.txt, il vous faut la version .htaccess complète correspondante.

Fichier .htaccess complet pour bloquer tous les bots indésirables

Ici, on fait du blocage réel.

Attention : .htaccess s’applique sur Apache. Si votre serveur est en Nginx pur, ce fichier ne fera rien (il faudra des règles Nginx).

Collez ceci dans votre .htaccess (idéalement à la racine du site) :

# ----------------------------------------------------
# BLOQUER LES BOTS INDÉSIRABLES (User-Agent)
# ----------------------------------------------------

<IfModule mod_rewrite.c>
RewriteEngine On

# Bloquer bots IA / datasets
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|Amazonbot|Bytespider) [NC,OR]

# Bloquer scrapers génériques
RewriteCond %{HTTP_USER_AGENT} (Scrapy|curl|wget|python-urllib|Go-http-client) [NC,OR]

# Bloquer scanners / outils agressifs
RewriteCond %{HTTP_USER_AGENT} (sqlmap|wpscan|masscan|nikto|zgrab) [NC]

RewriteRule ^ - [F,L]
</IfModule>

Ce code renvoie un 403 Forbidden. Résultat : le bot est stoppé net.

Variante “plus stricte” (optionnelle)

Voici un .htaccess complet et “exhaustif” (blocage très large) pour bloquer un maximum de bots inutiles par User-Agent, sans toucher à Googlebot / Bingbot.

Attention : Ce blocage est efficace, mais un bot peut falsifier son User-Agent. Le meilleur combo reste .htaccess + pare-feu (Cloudflare/WAF) + rate limiting.

Copiez/collez tel quel en haut de votre .htaccess (ou juste après vos règles WordPress si vous préférez, mais l’idéal est avant les réécritures).

# ============================================================
# .htaccess - Blocage massif de bots inutiles / scraping / IA
# Objectif : 403 direct pour réduire crawl, scraping et charge
# Prérequis : Apache + mod_rewrite
# IMPORTANT : Ne bloque pas Googlebot/Bingbot (volontaire)
# ============================================================

<IfModule mod_rewrite.c>
RewriteEngine On

# ------------------------------------------------------------
# 1) IA / LLM / COLLECTE (souvent à bloquer)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT-User|OAI-SearchBot|ClaudeBot|anthropic-ai|Google-Extended|CCBot|PerplexityBot|YouBot|Applebot-Extended|Amazonbot|Bytespider|PetalBot|AlibabaCloudCrawler) [NC,OR]

# Chine / moteurs / crawlers souvent agressifs (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (Baiduspider|Sogou[\ _-]?web[\ _-]?spider|Sogou[\ _-]?inst[\ _-]?spider|360Spider|HaosouSpider|YoudaoBot) [NC,OR]

# Russie (si non ciblé)
RewriteCond %{HTTP_USER_AGENT} (YandexBot|YandexImages|YandexVideo|YandexMedia|YandexMetrika|Mail\.RU_Bot|SputnikBot) [NC,OR]

# ------------------------------------------------------------
# 2) SCRAPERS / ASPIRATEURS / OUTILS D'AUTOMATION
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (Scrapy|HTTrack|WinHTTrack|WebCopy|SiteSucker|Offline[\ _-]?Explorer|Teleport|WebZIP|EmailSiphon|EmailCollector) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (wget|curl|python-requests|Python-urllib|urllib|aiohttp|httpx|Go-http-client|libwww-perl|LWP::Simple|Apache-HttpClient|okhttp) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (HeadlessChrome|PhantomJS|Puppeteer|Playwright|Selenium) [NC,OR]

# ------------------------------------------------------------
# 3) SCANNERS / BRUTE FORCE / OUTILS D'ATTAQUE
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (sqlmap|nikto|nmap|masscan|zgrab|zmap|Nessus|OpenVAS|Acunetix|Netsparker|WPScan|wpscan|DirBuster|gobuster|ffuf|Hydra|Metasploit|Nuclei|Jaeles|BlackWidow) [NC,OR]

# ------------------------------------------------------------
# 4) SEO / BACKLINKS AGRESSIFS (souvent à bloquer sur petit serveur)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|SEOkicks-Robot|DataForSeoBot|serpstatbot|XoviBot|MegaIndex|MegaIndex\.ru|linkdexbot) [NC,OR]

# ------------------------------------------------------------
# 5) DIVERS “BRUYANTS” (optionnel mais souvent inutile)
# ------------------------------------------------------------
RewriteCond %{HTTP_USER_AGENT} (ia_archiver|archive\.org_bot|Trendictionbot|SeobilityBot|Rogerbot) [NC

# ------------------------------------------------------------
# ACTION : 403 Forbidden
# ------------------------------------------------------------
RewriteRule ^ - [F,L]

</IfModule>

# ============================================================
# OPTION : bloquer les requêtes sans User-Agent (souvent suspect)
# (À activer seulement si vous voyez beaucoup de UA vides dans les logs)
# ============================================================
# <IfModule mod_rewrite.c>
# RewriteEngine On
# RewriteCond %{HTTP_USER_AGENT} ^-?$ [NC]
# RewriteRule ^ - [F,L]
# </IfModule>

Important

Ce fichier est “exhaustif” au sens très large, mais il y a 2 points à connaître :

  1. Il inclut aussi des bots qu’on peut parfois garder (ex : certains bots SEO). Si vous voulez préserver votre “visibilité” dans certaines bases SEO.
  2. Les bots sérieux peuvent usurper un User-Agent. Pour les scrapers vraiment insistants, le blocage par IP / ASN, ou Cloudflare, est souvent nécessaire.

Pour aller plus loin avec le fichier .htaccess : 20 snippets .htaccess essentiels

Bloquer les bots d’IA : est-ce que ça tue votre visibilité chez eux ?

C’est LA question moderne.

Si vous bloquez des bots d’IA via robots.txt ou .htaccess, vous limitez leur capacité à lire et ingérer votre contenu. Donc oui, dans une certaine mesure, ça peut diminuer :

  • leur capacité à citer votre site,
  • la possibilité qu’un assistant vous “recommande”,
  • l’apparition de vos pages dans certains moteurs basés sur IA.

Mais il faut remettre ça dans le contexte réel : aujourd’hui, le trafic IA reste souvent faible par rapport à Google, Bing ou même les réseaux sociaux (ça change, mais doucement). Donc si votre priorité est la stabilité serveur, la protection contre le scraping, et un site rapide, bloquer les bots IA peut être logique.

En revanche, si vous cherchez à être visible partout, notamment dans les outils d’IA, alors vous pouvez choisir une approche plus fine : vous bloquez les scrapers agressifs, les scanners, mais vous laissez certains bots IA autorisés. C’est un choix stratégique, pas une vérité absolue.

Dans la pratique, beaucoup de sites font un compromis : ils bloquent les bots IA qui crawlent comme des bulldozers, mais laissent les moteurs de recherche classiques respirer.

La méthode simple et propre

Si vous débutez et que vous voulez une méthode sans prise de tête :

Vous commencez par mettre le robots.txt avec les bots IA + scrapers connus. C’est une première barrière “soft”.

Ensuite, si vous voyez encore une charge serveur élevée, vous mettez le .htaccess. Là, vous passez au niveau supérieur et vous bloquez les bots qui abusent vraiment.

Enfin, vous surveillez 7 jours. Parce que ce qui compte, ce n’est pas “avoir bloqué”, c’est d’avoir un site plus rapide et plus stable.

Reprendre le contrôle sans devenir parano

Bloquer les bots, ce n’est pas déclarer la guerre à Internet. C’est juste reprendre un peu la main sur votre site, surtout quand vous sentez que votre serveur travaille pour des robots… et pas pour vos vrais visiteurs.

Le point le plus important, c’est de garder une philosophie simple : vous laissez passer les moteurs de recherche utiles, vous filtrez les bots IA si ça colle à vos objectifs, et vous bloquez sans hésiter les scrapers et scanners agressifs. À partir de là, vous avez déjà fait 80% du travail, sans toucher à des systèmes complexes.

Et si vous voulez aller encore plus loin plus tard, vous pourrez ajouter un vrai WAF, limiter le taux de requêtes, ou mettre en place des protections avancées. Mais honnêtement ? Dans énormément de cas, un bon bot robots.txt et un bon bot .htaccess bien pensé suffisent pour retrouver un site propre, rapide, et agréable à gérer.