Ressources pour développeur web

Théme de la semaine : Outil pentest

CeWL : Extraire les mots-clés d’un site web facilement

Temps de lecture estimé : 5 minutes
Accueil SEO CeWL : Extraire les mots-clés d’un site web facilement

Imaginez pouvoir analyser automatiquement le vocabulaire d’un site web, sans lire une seule ligne… C’est exactement ce que permet CeWL. Cet outil gratuit, encore méconnu du grand public, est pourtant redoutablement efficace pour comprendre un site, détecter ses mots-clés ou même tester sa sécurité.

  • Analyser le vocabulaire d’un site web pour en extraire ses mots-clés
  • Exploiter un outil simple pour améliorer son SEO, sa veille ou ses tests techniques
  • Gagner du temps en transformant des données brutes en actions concrètes et exploitables

Que vous soyez curieux, développeur, ou simplement en train de construire votre stratégie SEO, vous allez découvrir ici un outil simple, mais extrêmement puissant : CeWL. Et surtout : pas besoin d’être expert. On va tout voir ensemble, pas à pas.

Qu’est-ce que CeWL et à quoi sert-il ?

Une définition simple

CeWL (prononcé “cool”) signifie Custom Word List generator. C’est un outil qui :

  • visite une page web (ou plusieurs)
  • récupère les mots présents
  • génère une liste de mots (appelée wordlist)
CeWL

En résumé : CeWL est un extracteur automatique de mots-clés depuis un site web.

Pourquoi c’est utile ?

À première vue, on pourrait se dire :

“Ok… il récupère des mots… et alors ?”

Et pourtant, les usages sont nombreux.

Comprendre le vocabulaire d’un site

CeWL permet d’identifier :

  • les mots les plus utilisés
  • les thématiques dominantes
  • le champ lexical

Par exemple, sur un site comme affnox.fr, vous pourriez voir ressortir : “agrafe”, “fissure”, “inox”, “mur”, etc.

Créer des listes personnalisées

Contrairement à une liste de mots générique, CeWL produit une liste :

  • spécifique à un site
  • adaptée à un secteur
  • contextualisée

C’est là toute sa force.

Un outil polyvalent

CeWL est utilisé dans plusieurs domaines :

  • SEO (analyse sémantique)
  • OSINT (recherche d’information)
  • Pentest (tests de sécurité)

On va voir tout ça en détail un peu plus loin.

Comment installer CeWL

Pas de panique : même si ça se passe dans le terminal, vous allez voir que c’est accessible.

Étape 1 : Vérifier que Ruby est installé

CeWL fonctionne avec Ruby. Dans votre terminal :

ruby -v

Si vous voyez une version, c’est bon. Sinon, il faudra installer Ruby.

Installer Ruby sur Mac :

brew install ruby

👉 Si vous n’avez pas Homebrew : HomeBrew, le guide complet

Installer Ruby sur Linux (Ubuntu) :

sudo apt update
sudo apt install ruby

Étape 2 : Installer CeWL

Cloner le repo depuis GitHub :

git clone https://github.com/digininja/CeWL.git
cd CeWL

Puis, installer les dépendances Ruby :

bundle install

(Si bundle n’est pas installé → gem install bundler)

Vérifier l’installation en lançant CeWL :

ruby cewl.rb https://example.com

Si une liste de mots apparaît, tout fonctionne.

Quand et comment utiliser CeWL ?

C’est ici que ça devient intéressant.

Cas n°1 : Analyse simple d’un site

Vous voulez récupérer les mots d’un site :

cewl https://exemple.com

👉 CeWL va afficher une liste de mots directement dans le terminal.

Cas n°2 : Enregistrer les résultats dans un fichier

cewl https://exemple.com -w mots.txt

👉 Très utile pour analyser ensuite les données.

Cas n°3 : Explorer plusieurs pages (crawl)

cewl https://exemple.com -d 2 -w mots.txt
  • -d 2 → profondeur de navigation
  • CeWL va suivre les liens internes

Cas n°4 : Filtrer les mots trop courts

cewl https://exemple.com -m 5

la commande -m 5 permet d’ignorer les mots de moins de 5 lettres.

Cas concret (SEO)

Imaginez que vous analysez un concurrent.

cewl https://site-concurrent.com -d 2 -m 4 -w seo.txt

Vous obtenez :

  • une liste de mots-clés
  • des idées de contenu
  • des clusters thématiques

CeWL en SEO, OSINT ou Pentest ?

CeWL est un outil caméléon. Voici comment il est utilisé selon les domaines.

Formation web et informatique - Alban Guillier - Formateur

Des formations informatique pour tous !

Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…

Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.

Découvrez mes formations Qui suis-je ?
DomaineObjectif principalUtilisation de CeWL
SEOComprendre les mots-clésAnalyse du champ lexical
OSINTCollecter des infosIdentifier noms, projets, termes internes
PentestTester la sécuritéGénérer des dictionnaires de mots de passe

En SEO, vous pouvez utiliser CeWL pour :

  • analyser un concurrent
  • trouver des mots-clés secondaires
  • construire des clusters SEO

👉 Exemple concret :

Vous lancez :

cewl https://blog.crea-troyes.fr -d 2 -w data.txt

Ensuite, vous analysez les mots les plus fréquents.

Résultat :

  • vous identifiez les thématiques fortes
  • vous détectez les manques
  • vous améliorez le maillage interne

En OSINT

CeWL permet de récupérer :

  • noms d’employés
  • noms de produits
  • technologies utilisées

👉 Utile pour :

  • enquêtes
  • veille concurrentielle

En Pentest

C’est son usage historique. Il permet de créer une liste de mots pour tester des mots de passe.

Pourquoi c’est puissant ? Parce que les utilisateurs utilisent souvent :

  • le nom de leur entreprise
  • des termes liés à leur activité

CeWL permet de générer une liste réaliste.

Comment interpréter les résultats ?

Vous avez votre fichier mots.txt. Et maintenant ?

Étape 1 : Nettoyer la liste

Tous les mots ne sont pas utiles.

Vous pouvez :

  • supprimer les mots trop génériques
  • enlever les doublons
  • filtrer les stopwords

👉 Pour aller plus loin, découvrez comment filtrer et supprimer les stopwords.

Étape 2 : Identifier les mots importants

Posez-vous des questions simples :

  • Quels mots reviennent souvent ?
  • Quels mots sont spécifiques ?
  • Quels mots représentent une thématique ?

Étape 3 : Regrouper en clusters

C’est ici que ça devient stratégique.

Liste obtenue :

  • fissure
  • mur
  • réparation
  • béton
  • structure

👉 Cluster : “Réparation de fissures murales”

Étape 4 : Exploiter les données

Selon votre objectif :

En SEO

  • créer du contenu ciblé
  • améliorer le maillage interne
  • enrichir les pages existantes

En développement, vous pourriez :

  • détecter automatiquement les thématiques
  • proposer des liens internes
  • calculer la pertinence d’un cluster

Astuce avancée et très utile

Vous pouvez compter les occurrences :

cewl https://exemple.com -d 2 | sort | uniq -c | sort -nr

👉 Résultat :

  • mots triés par fréquence
  • parfait pour l’analyse SEO

CeWL : extraction de mail et de balise meta

CeWL peut également extraire les adresses email présentes sur un site web, ce qui peut être utile pour de la veille, de l’OSINT ou simplement pour identifier des contacts publics. Par exemple, si vous souhaitez récupérer les emails visibles sur un site, vous pouvez utiliser la commande suivante :

cewl https://exemple.com --email

Cette commande va analyser la page et afficher toutes les adresses email détectées. C’est pratique pour repérer rapidement des contacts sans parcourir manuellement toutes les pages.


Autre fonctionnalité intéressante : l’analyse des balises meta. CeWL peut extraire les informations contenues dans les balises meta d’un site, comme les descriptions ou les mots-clés. Cela permet de comprendre comment un site se positionne en SEO. Pour cela, utilisez :

cewl https://exemple.com --meta

Avec cette commande, vous obtenez un aperçu des balises meta utilisées, ce qui peut vous donner des idées d’optimisation ou vous aider à analyser la stratégie SEO d’un concurrent.

Tableau récapitulatif des commandes CeWL

CommandeDescription
cewl URLAnalyse simple
-w fichier.txtSauvegarde dans un fichier
-d 2Profondeur de crawl
-m 5Longueur minimum des mots
-cCompte les occurrences
--emailRécupère les emails
--metaAnalyse les balises meta
--with-numbersInclut les nombres

CeWL est typiquement le genre d’outil discret… mais redoutable. Derrière sa simplicité apparente se cache un véritable levier d’analyse, que ce soit pour comprendre un site, améliorer votre SEO ou aller plus loin dans vos projets techniques.

Mais surtout, ce qu’il faut retenir, c’est que CeWL vous apprend à observer intelligemment un site web. Et ça, dans un monde où tout va vite, c’est une compétence précieuse.

Alors testez-le. Lancez une commande. Regardez les mots sortir. Et vous verrez : vous ne regarderez plus jamais un site web de la même façon.