Imaginez pouvoir analyser automatiquement le vocabulaire d’un site web, sans lire une seule ligne… C’est exactement ce que permet CeWL. Cet outil gratuit, encore méconnu du grand public, est pourtant redoutablement efficace pour comprendre un site, détecter ses mots-clés ou même tester sa sécurité.
- Analyser le vocabulaire d’un site web pour en extraire ses mots-clés
- Exploiter un outil simple pour améliorer son SEO, sa veille ou ses tests techniques
- Gagner du temps en transformant des données brutes en actions concrètes et exploitables
Que vous soyez curieux, développeur, ou simplement en train de construire votre stratégie SEO, vous allez découvrir ici un outil simple, mais extrêmement puissant : CeWL. Et surtout : pas besoin d’être expert. On va tout voir ensemble, pas à pas.
Qu’est-ce que CeWL et à quoi sert-il ?
Une définition simple
CeWL (prononcé “cool”) signifie Custom Word List generator. C’est un outil qui :
- visite une page web (ou plusieurs)
- récupère les mots présents
- génère une liste de mots (appelée wordlist)

En résumé : CeWL est un extracteur automatique de mots-clés depuis un site web.
Pourquoi c’est utile ?
À première vue, on pourrait se dire :
“Ok… il récupère des mots… et alors ?”
Et pourtant, les usages sont nombreux.
Comprendre le vocabulaire d’un site
CeWL permet d’identifier :
- les mots les plus utilisés
- les thématiques dominantes
- le champ lexical
Par exemple, sur un site comme affnox.fr, vous pourriez voir ressortir : “agrafe”, “fissure”, “inox”, “mur”, etc.
Créer des listes personnalisées
Contrairement à une liste de mots générique, CeWL produit une liste :
- spécifique à un site
- adaptée à un secteur
- contextualisée
C’est là toute sa force.
Un outil polyvalent
CeWL est utilisé dans plusieurs domaines :
On va voir tout ça en détail un peu plus loin.
Comment installer CeWL
Pas de panique : même si ça se passe dans le terminal, vous allez voir que c’est accessible.
Étape 1 : Vérifier que Ruby est installé
CeWL fonctionne avec Ruby. Dans votre terminal :
ruby -v
Si vous voyez une version, c’est bon. Sinon, il faudra installer Ruby.
Installer Ruby sur Mac :
brew install ruby
👉 Si vous n’avez pas Homebrew : HomeBrew, le guide complet
Installer Ruby sur Linux (Ubuntu) :
sudo apt update
sudo apt install ruby
Étape 2 : Installer CeWL
Cloner le repo depuis GitHub :
git clone https://github.com/digininja/CeWL.git
cd CeWL
Puis, installer les dépendances Ruby :
bundle install
(Si bundle n’est pas installé → gem install bundler)
Vérifier l’installation en lançant CeWL :
ruby cewl.rb https://example.com
Si une liste de mots apparaît, tout fonctionne.
Quand et comment utiliser CeWL ?
C’est ici que ça devient intéressant.
Cas n°1 : Analyse simple d’un site
Vous voulez récupérer les mots d’un site :
cewl https://exemple.com
👉 CeWL va afficher une liste de mots directement dans le terminal.
Cas n°2 : Enregistrer les résultats dans un fichier
cewl https://exemple.com -w mots.txt
👉 Très utile pour analyser ensuite les données.
Cas n°3 : Explorer plusieurs pages (crawl)
cewl https://exemple.com -d 2 -w mots.txt
-d 2→ profondeur de navigation- CeWL va suivre les liens internes
Cas n°4 : Filtrer les mots trop courts
cewl https://exemple.com -m 5
la commande -m 5 permet d’ignorer les mots de moins de 5 lettres.
Cas concret (SEO)
Imaginez que vous analysez un concurrent.
cewl https://site-concurrent.com -d 2 -m 4 -w seo.txt
Vous obtenez :
- une liste de mots-clés
- des idées de contenu
- des clusters thématiques
CeWL en SEO, OSINT ou Pentest ?
CeWL est un outil caméléon. Voici comment il est utilisé selon les domaines.
Des formations informatique pour tous !
Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…
Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.
Découvrez mes formations Qui suis-je ?| Domaine | Objectif principal | Utilisation de CeWL |
|---|---|---|
| SEO | Comprendre les mots-clés | Analyse du champ lexical |
| OSINT | Collecter des infos | Identifier noms, projets, termes internes |
| Pentest | Tester la sécurité | Générer des dictionnaires de mots de passe |
En SEO, vous pouvez utiliser CeWL pour :
- analyser un concurrent
- trouver des mots-clés secondaires
- construire des clusters SEO
👉 Exemple concret :
Vous lancez :
cewl https://blog.crea-troyes.fr -d 2 -w data.txt
Ensuite, vous analysez les mots les plus fréquents.
Résultat :
- vous identifiez les thématiques fortes
- vous détectez les manques
- vous améliorez le maillage interne
En OSINT
CeWL permet de récupérer :
- noms d’employés
- noms de produits
- technologies utilisées
👉 Utile pour :
- enquêtes
- veille concurrentielle
En Pentest
C’est son usage historique. Il permet de créer une liste de mots pour tester des mots de passe.
Pourquoi c’est puissant ? Parce que les utilisateurs utilisent souvent :
- le nom de leur entreprise
- des termes liés à leur activité
CeWL permet de générer une liste réaliste.
Comment interpréter les résultats ?
Vous avez votre fichier mots.txt. Et maintenant ?
Étape 1 : Nettoyer la liste
Tous les mots ne sont pas utiles.
Vous pouvez :
- supprimer les mots trop génériques
- enlever les doublons
- filtrer les stopwords
👉 Pour aller plus loin, découvrez comment filtrer et supprimer les stopwords.
Étape 2 : Identifier les mots importants
Posez-vous des questions simples :
- Quels mots reviennent souvent ?
- Quels mots sont spécifiques ?
- Quels mots représentent une thématique ?
Étape 3 : Regrouper en clusters
C’est ici que ça devient stratégique.
Liste obtenue :
- fissure
- mur
- réparation
- béton
- structure
👉 Cluster : “Réparation de fissures murales”
Étape 4 : Exploiter les données
Selon votre objectif :
En SEO
- créer du contenu ciblé
- améliorer le maillage interne
- enrichir les pages existantes
En développement, vous pourriez :
- détecter automatiquement les thématiques
- proposer des liens internes
- calculer la pertinence d’un cluster
Astuce avancée et très utile
Vous pouvez compter les occurrences :
cewl https://exemple.com -d 2 | sort | uniq -c | sort -nr
👉 Résultat :
- mots triés par fréquence
- parfait pour l’analyse SEO
CeWL : extraction de mail et de balise meta
CeWL peut également extraire les adresses email présentes sur un site web, ce qui peut être utile pour de la veille, de l’OSINT ou simplement pour identifier des contacts publics. Par exemple, si vous souhaitez récupérer les emails visibles sur un site, vous pouvez utiliser la commande suivante :
cewl https://exemple.com --email
Cette commande va analyser la page et afficher toutes les adresses email détectées. C’est pratique pour repérer rapidement des contacts sans parcourir manuellement toutes les pages.
Autre fonctionnalité intéressante : l’analyse des balises meta. CeWL peut extraire les informations contenues dans les balises meta d’un site, comme les descriptions ou les mots-clés. Cela permet de comprendre comment un site se positionne en SEO. Pour cela, utilisez :
cewl https://exemple.com --meta
Avec cette commande, vous obtenez un aperçu des balises meta utilisées, ce qui peut vous donner des idées d’optimisation ou vous aider à analyser la stratégie SEO d’un concurrent.
Tableau récapitulatif des commandes CeWL
| Commande | Description |
|---|---|
cewl URL | Analyse simple |
-w fichier.txt | Sauvegarde dans un fichier |
-d 2 | Profondeur de crawl |
-m 5 | Longueur minimum des mots |
-c | Compte les occurrences |
--email | Récupère les emails |
--meta | Analyse les balises meta |
--with-numbers | Inclut les nombres |
CeWL est typiquement le genre d’outil discret… mais redoutable. Derrière sa simplicité apparente se cache un véritable levier d’analyse, que ce soit pour comprendre un site, améliorer votre SEO ou aller plus loin dans vos projets techniques.
Mais surtout, ce qu’il faut retenir, c’est que CeWL vous apprend à observer intelligemment un site web. Et ça, dans un monde où tout va vite, c’est une compétence précieuse.
Alors testez-le. Lancez une commande. Regardez les mots sortir. Et vous verrez : vous ne regarderez plus jamais un site web de la même façon.

Fondateur de l’agence Créa-troyes, affiliée France Num
Intervenant en Freelance.
Contactez-moi
