Il arrive un moment, quand on gère un site web, où l’on comprend que l’on n’est pas seulement visité par de gentils humains. Derrière votre trafic, il y a aussi des robots, des crawlers et parfois même des outils un peu trop curieux qui scrutent vos pages. Certains sont utiles, comme Googlebot, mais d’autres consomment inutilement des ressources, ralentissent votre site et peuvent même tenter des actions malveillantes. La bonne nouvelle, c’est qu’il existe une arme simple et efficace : le fichier .htaccess pour bloquer certains user-agent indésirables.
- Comprendre facilement ce qu’est un user-agent et savoir l’utiliser à votre avantage pour mieux contrôler l’accès à votre site.
- Savoir protéger votre site sans risque, en évitant les erreurs courantes et sans impacter votre référencement naturel.
- Gagner en sérénité grâce à des exemples concrets et des conseils pratiques pour bloquer proprement les robots indésirables.
Si vous débutez et que le mot htaccess vous semble déjà effrayant, respirez tranquillement, vous êtes au bon endroit. Nous allons voir ensemble comment ce fameux fichier fonctionne, pourquoi il peut vous aider à bloquer un user-agent, ce que cela signifie concrètement, et surtout comment l’utiliser sans casser votre site. Vous allez voir, ce n’est ni magique, ni réservé aux développeurs experts. Avec un peu de méthode, tout devient très logique.
Et pour vous rassurer, la première fois que j’ai voulu bloquer un bot agressif sur l’un de mes sites, j’ai paniqué au moment de toucher au .htaccess. J’avais peur « d’exploser Internet ». Résultat, j’ai juste mal positionné une ligne et… mon site entier est passé en erreur 500. Puis j’ai appris à travailler proprement et à toujours tester calmement.
- Comprendre l’essentiel : qu’est-ce qu’un user-agent ?
- Comment bloquer un user-agent avec htaccess
- Bloquer plusieurs user-agents en même temps
- Est-ce que bloquer un user-agent est toujours fiable ?
- Bloquer certains user-agents tout en laissant passer les bons robots
- Comment reconnaître quel user-agent bloquer ?
- Les user-agent les plus connus et problématique
- Bloquer certains user-agent grâce au fichier .htaccess : un allié plus qu’un danger
Comprendre l’essentiel : qu’est-ce qu’un user-agent ?
Avant d’apprendre à bloquer un user-agent, il faut comprendre ce dont on parle. Lorsqu’un visiteur arrive sur votre site, il n’arrive jamais vraiment « nu ». Son navigateur s’identifie avec une sorte de petite carte d’identité appelée user-agent. Cette information est envoyée automatiquement au serveur à chaque requête.
Un user-agent peut indiquer par exemple :
- Chrome sur Windows
- Firefox sur Linux
- Safari sur iPhone
- Googlebot pour Google
- Bingbot pour Bing
- ou encore des bots inconnus, parfois exotiques, parfois douteux.
Autrement dit, en lisant ce user-agent, votre serveur peut comprendre qui frappe à la porte de votre site. Et c’est là que le fichier htaccess devient intéressant. Il peut servir de garde-portail. Il peut décider : tu passes, ou tu ne passes pas.
Pour aller plus loin : Tout savoir sur les user-agent.
Le rôle du fichier .htaccess dans tout cela
Le fichier .htaccess se trouve généralement à la racine de votre site, surtout si vous êtes sur un hébergement Apache, ce qui est très courant pour les sites WordPress, PHP et la majorité des hébergements mutualisés. Ce fichier permet de contrôler le comportement du serveur sans avoir accès à sa configuration principale.
C’est un outil puissant, mais comme tout outil puissant, il faut l’utiliser avec respect. Grâce à lui, vous pouvez rediriger des pages, bloquer l’accès à des dossiers ou fichiers sensibles, activer la réécriture d’URL, gérer les caches navigateur et la compression et bien sûr… bloquer un user-agent.
Pour modifier ce fichier, vous devez ouvrir votre gestionnaire de fichiers sur votre hébergement ou passer par FTP (avec un logiciel tel que FileZilla). Vous verrez souvent un fichier nommé .htaccess déjà existant si votre site fonctionne avec WordPress ou d’autres CMS. S’il n’existe pas, vous pouvez en créer un, tant qu’il respecte ce nom précis.
Avant toute modification, faites toujours une sauvegarde. Copiez son contenu dans un fichier texte. Cela vous permet de revenir en arrière si vous commettez une erreur. C’est une habitude simple qui vous évitera beaucoup de sueurs froides.
Comment bloquer un user-agent avec htaccess
Entrons maintenant dans le concret. Pour bloquer un user-agent, l’idée est simple. On demande au serveur d’examiner la chaîne user-agent de chaque visiteur. Si elle correspond à un nom précis, on refuse l’accès.
Voici un premier exemple simple et très parlant. Imaginons que nous voulons bloquer un bot appelé BadBot. Nous allons ajouter ceci dans le fichier .htaccess :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} BadBot [NC]
RewriteRule ^ - [F,L]Prenons le temps d’expliquer calmement chaque ligne, car c’est là que beaucoup de débutants décrochent.
La première ligne active le moteur de réécriture. Sans lui, les règles suivantes ne seraient pas interprétées. Ensuite, la ligne RewriteCond indique la condition. Ici, nous vérifions la variable HTTP_USER_AGENT, c’est-à-dire la fameuse carte d’identité du visiteur. Si celle-ci contient le mot BadBot, la condition est remplie. Le paramètre [NC] signifie « No Case », autrement dit on ne tient pas compte des majuscules et minuscules.
Enfin, RewriteRule indique ce qu’il faut faire si la condition est vraie. Le symbole ^ signifie toutes les pages. Le drapeau [F] signifie Forbidden, donc accès interdit. Et [L] signifie dernière règle, on arrête ici.
Concrètement, si BadBot tente de venir sur votre site, il sera tout simplement rejeté avec une erreur 403. Votre serveur respire mieux et vous êtes un peu plus tranquille.
Bloquer plusieurs user-agents en même temps
Très souvent, vous ne souhaitez pas bloquer un seul robot, mais plusieurs. Peut-être que votre site est scanné par toute une bande de crawlers bruyants. Heureusement, vous n’avez pas besoin de répéter la règle dix fois. Vous pouvez cumuler plusieurs user-agents dans une seule condition grâce aux expressions régulières.
Par exemple :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (BadBot|EvilCrawler|SpamScanner) [NC]
RewriteRule ^ - [F,L]Ici, la logique est la même, sauf que nous utilisons des parenthèses et des pipes pour indiquer plusieurs valeurs possibles. Dès qu’un visiteur affiche un user-agent correspondant à l’un d’eux, il sera bloqué.
Cela permet de garder un fichier htaccess propre, lisible, et facile à maintenir. Un jour, si vous souhaitez ajouter un nouveau bot, il suffira simplement de rajouter son nom entre les parenthèses.
Est-ce que bloquer un user-agent est toujours fiable ?
Il faut être transparent. Bloquer un user-agent dans htaccess est une méthode efficace, mais elle n’est pas invincible. Pourquoi ? Parce que certains bots malveillants trichent. Ils se font passer pour Googlebot ou un navigateur classique. Dans ce cas, ils ne se déclarent pas honnêtement et passent sous les radars.
Cependant, dans la majorité des cas, cette méthode est suffisante pour réduire la charge serveur, limiter les robots inutiles et protéger un minimum votre site. Beaucoup de mauvais bots ne prennent même pas la peine de se cacher. Ils s’identifient clairement, et vous pouvez donc les stopper proprement.
C’est une première couche de sécurité. Pas une muraille infranchissable, mais déjà une barrière qui fait du bien.
Bloquer certains user-agents tout en laissant passer les bons robots
Vous avez sans doute un objectif simple : protéger votre site sans gêner son référencement naturel. Et là, une peur revient souvent chez les débutants : « Et si je bloque Googlebot par erreur ? Mon site va disparaître ! ». Rassurez-vous, il suffit d’être méthodique.

Des formations informatique pour tous !
Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…
Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.
Découvrez mes formations Qui suis-je ?Comme vous l’avez vu, bloquer un user-agent signifie empêcher une requête d’accéder à votre site. Donc si vous bloquez les mauvais robots mais que vous laissez passer Googlebot, Bingbot ou d’autres crawlers utiles, tout se passera très bien. Le danger vient surtout quand on copie-colle aveuglément des règles trouvées sur Internet sans comprendre ce qu’elles font.
Imaginons que vous vouliez bloquer certains robots agressifs souvent rencontrés sur des hébergements français, mais laisser passer les robots des moteurs de recherche. Voici une approche propre et claire :
RewriteEngine On
# Autoriser explicitement Googlebot
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule ^ - [L]
# Bloquer certains robots connus pour être agressifs
RewriteCond %{HTTP_USER_AGENT} (MJ12bot|AhrefsBot|SemrushBot) [NC]
RewriteRule ^ - [F,L]Cette logique est intéressante car vous dites d’abord au serveur : si c’est Googlebot, on le laisse passer et on arrête là. Ensuite, si ce n’est pas lui et que le user-agent correspond à l’un des robots que vous jugez indésirables, alors ils sont bloqués. C’est propre, lisible et facile à maintenir.
Bloquer des user-agents qui consomment trop de ressources
Certains bots ne sont pas forcément malveillants, mais ils scannent votre site sans retenue. Ils visitent des centaines de pages en quelques secondes, ce qui peut ralentir votre site, surtout si vous êtes sur un hébergement mutualisé. Dans ce cas, bloquer leur user-agent dans votre htaccess est une solution pertinente.
Par exemple, si vous constatez dans vos logs ou dans votre panneau d’hébergement qu’un robot particulier apparaît trop souvent, vous pouvez le bloquer ainsi :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} CrazyCrawler [NC]
RewriteRule ^ - [F,L]L’idée est très simple : si un user-agent devient un problème, vous l’identifiez et vous le bloquez. Cela vous donne un contrôle direct sur ce qui se passe sur votre serveur. C’est d’ailleurs l’un des grands avantages de htaccess : pouvoir agir sans installer mille extensions lourdes qui ralentissent un site WordPress.
Tester ses règles avant de les utiliser en production
C’est probablement la partie la plus importante de ce guide et elle concerne aussi bien les débutants que les plus avancés : ne touchez jamais à votre fichier htaccess sans tester. Ce fichier est très sensible. Une simple erreur de syntaxe peut provoquer une erreur 500 et rendre votre site inaccessible.
La bonne méthode est simple. Avant toute modification, copiez le contenu actuel de votre htaccess dans un fichier texte sur votre ordinateur. Ensuite, ajoutez vos règles calmement. Enregistrez. Rechargez votre site. Si tout fonctionne, parfait. Si une erreur apparaît, il suffit de remettre la sauvegarde.
Vous pouvez également tester votre htaccess sur un environnement de préproduction si vous en avez un, ou sur un site de test. Cela peut paraître fastidieux, mais cela vous évitera énormément de stress. Le but n’est pas d’avancer vite, mais d’avancer proprement.
Comment reconnaître quel user-agent bloquer ?
Pour bloquer correctement un user-agent, il faut d’abord savoir qu’il existe et identifier son nom exact. Plusieurs façons s’offrent à vous. Si votre hébergeur propose un accès aux logs (journaux serveur), vous verrez tous les visiteurs et les user-agents associés. C’est souvent une mine d’informations.
Pour aller plus loin : Analyser les logs d’un server web
Vous pouvez aussi utiliser certains plugins WordPress de sécurité ou d’analyse serveur qui affichent les bots qui passent sur votre site. Dès que vous repérez un robot qui revient trop souvent, qui consomme beaucoup de ressources ou qui tente d’accéder à des pages sensibles, vous notez son nom, puis vous l’ajoutez à votre règle htaccess.
C’est une démarche progressive. Vous n’avez pas besoin de tout bloquer d’un coup. Vous observez, vous analysez, vous agissez. C’est ainsi que l’on construit une protection efficace sans tomber dans l’excès.
Faire attention à ne pas bloquer vos visiteurs humains
Un autre point important à ne pas négliger : il ne faut pas bloquer des user-agents trop génériques. Par exemple, bloquer « Mozilla » ou « Chrome » serait tout simplement catastrophique, car vous empêcheriez l’immense majorité de vos visiteurs humains d’accéder à votre site.
Votre travail consiste à cibler précisément les robots non désirés, pas à fermer la porte à tout le monde. C’est pour cela que comprendre le fonctionnement des user-agents est essentiel. Vous apprenez à reconnaître les bons, les inutiles et les nocifs.
Améliorer la sécurité globale grâce au htaccess
Même si ce tutoriel se concentre surtout sur la manière de bloquer un user-agent, il faut aussi comprendre que le htaccess s’inscrit dans une logique plus large de sécurité web. En combinant ce type de protection avec d’autres mesures comme la limitation des tentatives de connexion, la désactivation des répertoires listables ou encore la protection de certains fichiers sensibles, vous construisez une véritable défense.
Bloquer des user-agents fait partie de ces petites actions simples mais efficaces qui, mises bout à bout, rendent votre site plus robuste. Et ce qui est agréable, c’est que tout cela reste accessible même si vous débutez, du moment que vous prenez le temps de comprendre ce que vous faites.
Quand faut-il éviter de bloquer des user-agents ?
Même si c’est tentant de bloquer tout ce qui bouge, il faut rester raisonnable. Certains robots d’analyse ou d’audit peuvent être utiles pour la performance, le monitoring ou le SEO. Par exemple, certains outils en ligne qui mesurent la vitesse de votre site utilisent des user-agents spécifiques. Si vous les bloquez, ils ne pourront plus analyser votre site.
De même, certains bots académiques ou techniques ne posent aucun problème. Ils passent rarement et ne consomment presque rien. Il n’y a donc aucun intérêt à les bloquer. Finalement, tout est question d’équilibre et de bon sens.
Voici un tableau récapitulatif clair et pratique des principaux user-agents souvent bloqués via htaccess parce qu’ils consomment beaucoup de ressources, scannent agressivement les sites ou sont associés à des usages discutables. Bien sûr, rien n’est obligatoire : adaptez toujours selon votre contexte.
Les user-agent les plus connus et problématique
| User-Agent | Pourquoi on le bloque souvent | Niveau de risque | Remarque importante |
|---|---|---|---|
| AhrefsBot | Crawl massif, charge serveur élevée | Élevé | Utile pour SEO payant, inutile si vous ne l’utilisez pas |
| SemrushBot | Crawl fréquent, provoque des ralentissements | Élevé | Même logique qu’Ahrefs, utile uniquement si vous êtes client |
| MJ12bot | Très agressif sur certains sites | Élevé | Souvent cité dans les logs sur hébergements mutualisés |
| DotBot | Crawl intensif de contenu | Moyen | Peut être utile pour certains outils d’analyse |
| YandexBot | Crawl international parfois lourd | Moyen | À éviter de bloquer si vous ciblez marché russe |
| Baiduspider | Robot chinois extrêmement actif | Élevé | Consomme parfois énormément de ressources |
| PetalBot | Bot lié à Huawei, parfois très présent | Moyen | Pas dangereux mais souvent trop curieux |
| BLEXBot | Bot de scraping et d’analyse | Élevé | Rarement utile pour un site standard |
| Sogou Spider | Bot chinois très fréquent | Élevé | A tendance à inonder les logs |
| ZoominfoBot | Collecte d’informations marketing | Moyen | Souvent inutile pour un site classique |
| Screaming Frog | Outil SEO utilisé par consultants | Faible à Moyen | Ne pas bloquer si vous travaillez avec un SEO |
| Curl / Wget automatisés | Scripts et tests automatiques | Variable | Utile parfois, dangereux si abusifs |
| python-requests | Scripts d’extraction automatisés | Élevé | Souvent utilisé pour scraping |
| Java / libwww-perl | Bots techniques et scripts | Moyen | À surveiller selon activité |
| SpamBot génériques | Crawl malveillant | Élevé | Toujours intéressant à bloquer |
Vous pouvez garder ces repères simples en mémoire :
- Bloquez surtout les bots qui apparaissent souvent dans vos logs
- Ne bloquez pas Googlebot, Bingbot, Applebot, Facebook et autres robots utiles au SEO ou au partage social
- Évitez de bloquer des user-agents trop génériques
- Testez toujours avant en production
Exemple de code pour votre fichier .htaccess
# ==============================
# Bloquer les user-agents nuisibles
# ==============================
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|PetalBot|Baiduspider|Sogou|YandexBot|ZoominfoBot|Crawler|SpamBot|python-requests|curl|wget|libwww-perl) [NC]
RewriteRule ^ - [F,L]Bloquer certains user-agent grâce au fichier .htaccess : un allié plus qu’un danger
Si vous avez suivi tout ce guide, vous avez sans doute remarqué une chose : travailler avec le htaccess n’est pas une histoire de magie noire, c’est simplement une question de compréhension et de méthode. Bloquer un user-agent devient alors une action logique, presque naturelle, comme vous sécuriseriez la porte d’entrée de votre maison. Cela demande un peu de respect pour l’outil, mais rien d’insurmontable.
Vous avez désormais les bases solides pour reconnaître un user-agent, comprendre ce qu’il représente, décider s’il doit être autorisé ou bloqué, et surtout agir proprement. Vous savez aussi qu’il faut tester, sauvegarder et avancer progressivement. Ce sont exactement ces habitudes-là qui font la différence entre quelqu’un qui bricole et quelqu’un qui construit.
Alors oui, la première fois que vous ouvrirez ce fichier htaccess, vous ressentirez peut-être une petite tension dans le ventre. C’est normal. Mais désormais, vous avez les clés. Et vous verrez, à force de pratiquer, ce fichier cessera d’être une source de stress. Il deviendra un outil rassurant, un moyen concret de protéger votre site et d’améliorer son fonctionnement. Et ça, franchement, c’est une très bonne sensation.

Fondateur de l’agence Créa-troyes, affiliée France Num
Intervenant en Freelance.
Contactez-moi
