Maths & développement web : Espérance, variance, corrélation

Il arrive un moment, quand on avance dans le développement web, où l’on réalise que les mathématiques ne sont plus seulement un vieux souvenir de lycée. Elles deviennent un outil. Un outil discret, mais essentiel, surtout dès que l’on touche aux données, aux statistiques, et à tout ce qui rapproche le web de la data science ou de l’apprentissage automatique. Même si votre quotidien est fait de JavaScript, PHP, CSS et gestion de serveurs, l’ère actuelle nous pousse à manipuler de plus en plus d’informations. Savoir ce qu’elles signifient, comment les comparer, ou comment anticiper des comportements devient alors une compétence précieuse.

Lire et interpréter des données pour prendre de meilleures décisions dans vos projets web.
Savoir repérer les comportements utiles ou problématiques grâce à l’analyse de tendances simples.
Poser les bases nécessaires pour débuter sereinement en data science et aller vers l’apprentissage automatique.

Ce chapitre a pour but d’expliquer, simplement et pas à pas, trois notions fondamentales en statistiques : l’espérance, la variance et la corrélation. Ces concepts sont au cœur de nombreux algorithmes de machine learning, d’analyses de données, et même de décisions logiques que l’on peut automatiser dans une application web. L’objectif ici n’est pas de vous transformer en mathématicien, mais de montrer pourquoi ces idées sont utiles, comment les comprendre de manière intuitive, et surtout comment les utiliser concrètement en programmation.

Nous allons partir de zéro. Pas besoin de talents en calcul avancé. Juste de la curiosité, un peu de patience et l’envie de regarder les données autrement. Nous irons doucement, avec des exemples concrets, des comparaisons du quotidien, et quelques petits moments d’histoire ou de pratique pour respirer. Vous verrez que les mathématiques ne sont pas là pour intimider, mais pour éclairer.

Pourquoi les mathématiques comptent dans le développement web moderne
L’espérance : comprendre la “tendance moyenne” d’une donnée
La variance : mesurer la dispersion des données
La corrélation : quand deux choses évoluent ensemble
Comment appliquer ces notions dans un contexte de développement web
Mettre ces concepts en pratique avec JavaScript
Aller plus loin : Python, la porte d’entrée vers la data science
De la statistique vers l’apprentissage automatique
Exemple concret : analyser les performances d’une page produit
Mini-projet que vous pouvez tester chez vous
L’importance d’interpréter les résultats avec prudence
De l’analyse à la prédiction : l’amorce du machine learning
Apprendre à regarder les données autrement

Pourquoi les mathématiques comptent dans le développement web moderne

Pendant longtemps, le développement web était surtout une affaire d’interface, de présentation et de logique de traitement. On faisait des pages web, des systèmes de connexion, des tableaux d’administration, des sites vitrines ou des boutiques en ligne.

Puis les données se sont multipliées. Les utilisateurs se sont mis à interagir, à laisser des traces, à générer des informations. Et petit à petit, le web est devenu une immense source de données.

Aujourd’hui, même un petit projet peut récolter :

des actions des utilisateurs,
des temps de navigation,
des préférences d’achat,
des commentaires,
des clics,
des historiques,
des comportements d’habitude.

En parallèle, les entreprises veulent comprendre ces informations. Elles veulent faire mieux que stocker : elles veulent analyser, prédire, optimiser. C’est là que les mathématiques interviennent.

Parce que les données, sans interprétation, ce n’est que du bruit. Les mathématiques sont ce qui transforme le bruit en message. Elles permettent de répondre à des questions simples mais puissantes :

Qu’est-ce qui est normal dans mon jeu de données ?
Quelles valeurs sont surprenantes ?
Deux éléments évoluent-ils ensemble ?
Quel comportement peut-on anticiper demain ?

Et ces questions mènent naturellement vers la data science, puis vers l’apprentissage automatique.

L’espérance : comprendre la “tendance moyenne” d’une donnée

L’espérance, appelée aussi moyenne dans le langage courant, est un concept très simple et pourtant fondamental. On la retrouve partout : note moyenne d’un élève, prix moyen d’un produit, vitesse moyenne d’un serveur sur une période, etc.

Imaginez que vous gériez une application web qui permet aux utilisateurs de noter un service sur 5. Vous avez 5 notes : 2, 3, 5, 4 et 1. Vous voulez représenter “globalement” l’avis des utilisateurs. La moyenne permet de synthétiser tout cela en une seule valeur.

On additionne toutes les valeurs : 2 + 3 + 5 + 4 + 1 = 15

Puis on divise par le nombre de valeurs : 15 / 5 = 3

La moyenne est 3. Cela signifie que si l’on devait résumer l’avis global, on dirait qu’il est “moyen à correct”.

Mais l’espérance est plus qu’une simple moyenne : elle sert aussi dans des situations où toutes les issues n’ont pas la même probabilité. Par exemple, au poker (peut-être avez-vous déjà calculé des chances de victoire), toutes les mains n’ont pas la même probabilité d’apparaître. On ne peut donc pas se contenter d’une moyenne simple, il faut pondérer les résultats par leur probabilité.

L’espérance devient alors une moyenne pondérée.

Cela sert énormément en apprentissage automatique, car beaucoup de modèles cherchent à minimiser une espérance de perte, c’est-à-dire à réduire l’erreur moyenne qu’ils commettent.

La variance : mesurer la dispersion des données

Revenons à notre exemple de notes. La moyenne est 3. Mais est-ce que ça signifie que tous les utilisateurs pensent “3” ? Pas du tout.

Les notes vont de 1 à 5. Elles sont très dispersées. Cela raconte quelque chose : les avis sont très variés. Peut-être que certains adorent votre service et d’autres le détestent. La moyenne ne l’a pas montré. La variance permet de mesurer cette dispersion.

Si les données sont toutes proches de la moyenne, la variance est faible. Si les données sont très différentes les unes des autres, la variance est grande. Et dans le monde du web, cela importe énormément.

Deux services web peuvent avoir la même note moyenne, mais pas du tout la même homogénéité :

Site A : 5, 4, 4, 5, 4 → moyenne 4, variance faible
Site B : 1, 5, 1, 5, 1 → moyenne 3, mais variance énorme

Dans le premier cas, les utilisateurs sont globalement satisfaits. Dans le second, il y a un vrai problème : ce n’est pas un service moyen, c’est un service polarisant. La variance permet donc d’aller plus loin que la simple moyenne.

Un data scientist qui analyserait ces deux services ne les traiterait pas du tout de la même manière.

La corrélation : quand deux choses évoluent ensemble

La corrélation est une idée simple qui peut changer beaucoup de choses dans la compréhension d’un système : elle mesure la manière dont deux variables “bougent ensemble”.

Par exemple, si vous analysez le trafic d’un site web, vous pourriez observer que :

Plus il fait froid dehors,
Plus les ventes d’un produit particulier augmentent.

Les deux variables semblent évoluer ensemble. Peut-être parce qu’il s’agit d’un manteau, ou d’une boisson chaude, peu importe. Le lien observé permet déjà de faire des prédictions et d’agir sur votre site (mettre le produit en avant selon la météo, par exemple).

La corrélation se mesure entre -1 et 1 :

1 signifie que tout évolue exactement dans le même sens.
0 signifie aucun lien observable.
-1 signifie que l’un augmente quand l’autre diminue.

Cependant, il y a un piège très célèbre : corrélation ne veut pas dire causalité.

Deux choses peuvent évoluer ensemble sans que l’une soit la cause de l’autre. Une étude célèbre montrait que plus la consommation de glaces augmente, plus le nombre de noyades augmente. La glace ne tue pas les gens. C’est juste qu’il fait chaud, donc on va se baigner plus. Ce rappel accompagne chaque data scientist professionnel, comme une petite voix sur l’épaule.

Comment appliquer ces notions dans un contexte de développement web

Jusqu’ici, nous avons parlé de théorie. Mais la plupart des développeurs web ont besoin de concret. Alors prenons des situations simples que l’on peut rencontrer au quotidien.

Imaginez que vous administriez un site e-commerce. Chaque visiteur passe un certain temps avant de quitter la page, de finaliser un achat ou d’abandonner son panier. Ce temps pourrait varier énormément d’une personne à l’autre. Si vous souhaitez comprendre ce qui se passe, vous pourriez calculer :

L’espérance du temps passé sur la page.
Cela vous donne une idée de ce qui est « normal ». Par exemple, si la moyenne est de 45 secondes, mais que vous constatez qu’un utilisateur reste 5 minutes, cela pourrait signaler quelque chose de particulier (intérêt réel, hésitation, difficulté à trouver un bouton).

La variance de ce même temps.
Une moyenne sans variance ne donne pas beaucoup d’informations. Si votre moyenne est 45 secondes mais que tous les utilisateurs restent entre 40 et 50 secondes, cela signifie que l’expérience est régulière et fluide. Si la moyenne est 45 secondes, mais que certains restent 3 secondes et d’autres 5 minutes, alors l’expérience est imprévisible, le parcours n’est pas clair ou dépend d’un profil particulier.

La corrélation entre le temps passé sur la page et le taux d’achat.
Si vous remarquez qu’au-delà de 90 secondes, le taux d’achat augmente fortement, vous pourriez chercher à améliorer le contenu pour inviter l’utilisateur à rester plus longtemps. À l’inverse, si rester longtemps correspond plutôt à de l’hésitation et donc à un abandon, vous pourriez simplifier le processus.

Ces trois notions, très simples sur le papier, peuvent déjà orienter des choix de design, de navigation, de contenu ou de stratégie commerciale. Pas besoin de modèles prédictifs pour commencer à agir de manière plus éclairée.

Mettre ces concepts en pratique avec JavaScript

Comme le développement web repose souvent sur JavaScript côté client, voyons comment calculer ces notions dans un tableau de valeurs. Prenons un tableau représentant le nombre de clics par utilisateur sur une page donnée :

const clics = [2, 3, 1, 10, 2, 4, 3, 100];

La première chose à faire est de calculer l’espérance (la moyenne). Pour cela, on additionne puis on divise par le nombre d’éléments :

const esperance = clics.reduce((acc, val) => acc + val, 0) / clics.length;
console.log("Espérance :", esperance);

Ensuite, la variance. Elle se calcule en posant la différence entre chaque valeur et la moyenne, en la mettant au carré (pour éviter les signes négatifs), en additionnant tout, puis en divisant :

Formation web et informatique - Alban Guillier - Formateur

Des formations informatique pour tous !

Débutant ou curieux ? Apprenez le développement web, le référencement, le webmarketing, la bureautique, à maîtriser vos appareils Apple et bien plus encore…

Formateur indépendant, professionnel du web depuis 2006, je vous accompagne pas à pas et en cours particulier, que vous soyez débutant ou que vous souhaitiez progresser. En visio, à votre rythme, et toujours avec pédagogie.

Découvrez mes formations Qui suis-je ?

const variance = clics
  .map(val => (val - esperance) ** 2)
  .reduce((acc, val) => acc + val, 0) / clics.length;

console.log("Variance :", variance);

Enfin, la corrélation demande deux tableaux. Imaginons que vous avez un second tableau représentant le temps de session des utilisateurs :

const temps = [20, 30, 10, 200, 25, 40, 30, 500];

On veut mesurer si les clics et le temps passé évoluent ensemble. Plutôt que de rentrer dans une formule brute, retenez l’idée suivante : on compare les écarts de chaque valeur à leur moyenne respective.

function correlation(x, y) {
  const meanX = x.reduce((a, b) => a + b) / x.length;
  const meanY = y.reduce((a, b) => a + b) / y.length;
  
  let num = 0;
  let denX = 0;
  let denY = 0;
  
  for(let i = 0; i < x.length; i++) {
    num += (x[i] - meanX) * (y[i] - meanY);
    denX += (x[i] - meanX) ** 2;
    denY += (y[i] - meanY) ** 2;
  }

  return num / Math.sqrt(denX * denY);
}

console.log("Corrélation :", correlation(clics, temps));

Le résultat obtenu sera entre -1 et 1.

S’il est proche de 1, cela signifie que plus le temps passé augmente, plus les clics augmentent aussi. S’il est proche de -1, c’est l’inverse. S’il est proche de 0, il n’y a pas de relation.

Ces calculs sont au cœur des outils de data science.

Aller plus loin : Python, la porte d’entrée vers la data science

Dans l’univers du web, JavaScript est omniprésent. Mais dès que l’on veut analyser des données plus sérieusement, Python devient presque incontournable. La raison est simple : son écosystème. Des bibliothèques comme numPy, Pandas ou Scikit-Learn facilitent énormément les manipulations statistiques et l’apprentissage automatique.

Reprenons l’exemple précédent avec Python :

import numpy as np

clics = np.array([2, 3, 1, 10, 2, 4, 3, 100])
temps = np.array([20, 30, 10, 200, 25, 40, 30, 500])

esperance = np.mean(clics)
variance = np.var(clics)
correlation = np.corrcoef(clics, temps)[0, 1]

print("Espérance :", esperance)
print("Variance :", variance)
print("Corrélation :", correlation)

Ce qui prenait plusieurs lignes en JavaScript tient désormais en trois instructions.

Python ne remplace pas JavaScript dans le web, mais il le complète très bien. C’est souvent lui que l’on utilise lorsqu’on développe :

des tableaux de bord,
des systèmes de recommandation,
des outils de détection de tendances,
des scripts de nettoyage de données.

De la statistique vers l’apprentissage automatique

Une fois que l’on maîtrise l’espérance, la variance et la corrélation, on a posé les premières briques de l’apprentissage automatique. Ce domaine, souvent perçu comme complexe, repose en réalité sur des idées simples.

Beaucoup d’algorithmes cherchent à trouver la meilleure façon de prédire une valeur en minimisant une différence moyenne. C’est-à-dire en minimisant une espérance d’erreur. D’autres cherchent à comprendre les liens entre variables pour établir des modèles. C’est-à-dire qu’ils s’appuient sur des corrélations.

Et l’évaluation de ces modèles repose souvent sur la variance des erreurs. En d’autres termes : ces concepts ne sont pas abstraits, ils sont structurels.

Exemple concret : analyser les performances d’une page produit

Pour rendre tout cela plus palpable, imaginons un cas réel, comme celui que vous pourriez rencontrer si vous gérez un site e-commerce. Vous avez une page produit, et vous récoltez les données suivantes sur plusieurs visiteurs : le temps passé sur la page, le nombre de clics sur les photos du produit, et si la personne a acheté ou non.

Disons que vous avez observé ceci pour dix visiteurs :

Temps passé sur la page (en secondes) : 20, 18, 55, 120, 40, 300, 12, 90, 48, 62
Nombre de clics sur les images : 1, 0, 3, 8, 2, 10, 0, 5, 3, 4
Achat final (1 = oui, 0 = non) : 0, 0, 1, 1, 0, 1, 0, 1, 1, 1

À ce stade, quelqu’un pourrait regarder simplement le taux d’achat final et s’arrêter là. Mais cela ne dirait pas grand-chose. Pour comprendre, il faut chercher des tendances. C’est là que l’espérance, la variance et la corrélation interviennent.

D’abord, calculons l’espérance du temps passé sur la page. Si la moyenne est élevée, cela pourrait signifier soit de l’intérêt, soit de l’hésitation. Ensuite, calculons la variance : si la dispersion est très forte, certains visiteurs restent peu, d’autres beaucoup. Cela pourrait révéler que la page ne s’adresse pas à tous les visiteurs.

Puis, on cherche la corrélation entre :

le temps passé et l’achat,
le nombre de clics et l’achat.

Si la corrélation entre clics et achat est forte, alors vous tenez une piste : les personnes qui observent le produit en détail sont plus susceptibles d’acheter. Cela vous permet d’agir. Vous pourriez, par exemple, afficher un zoom automatique plus intuitif, ou proposer une animation qui met en scène le produit sous plusieurs angles dès l’arrivée.

L’important ici est que l’analyse ne vous donne pas une « bonne réponse », mais vous éclaire pour prendre une décision réfléchie. C’est cela, la véritable utilité des mathématiques en développement web : elles transforment des données brutes en décision.

Mini-projet que vous pouvez tester chez vous

Pour approfondir, voici une démarche reproductible si vous souhaitez vous exercer. Elle demande très peu d’outils et seulement un éditeur de code.

Vous pouvez :

Créer une petite page web contenant un produit fictif.
Enregistrer, dans une base de données ou simplement dans un fichier, les données d’interaction (temps, clics).
Exporter ces données en CSV.
Les ouvrir dans Python.
Calculer l’espérance, la variance et la corrélation.
Interpréter les résultats.

Si vous débutez, vous pouvez remplacer la collecte réelle par des données simulées. Simuler des données est une excellente manière d’apprendre, car cela permet de comprendre sans se perdre dans la mise en place technique. Par exemple, vous pouvez créer au hasard des valeurs, puis regarder ce qui change lorsque vous modifiez leur répartition.

Ce travail peut paraître simple, mais il vous fera franchir une étape décisive : vous ne regarderez plus jamais des données sans vous demander leur sens.

L’importance d’interpréter les résultats avec prudence

Il est essentiel de souligner qu’un résultat statistique ne parle jamais seul. Les chiffres ont besoin de contexte. Une corrélation élevée peut suggérer un lien, mais ce lien peut être indirect. Une variance forte peut indiquer une diversité d’utilisateurs, mais aussi un problème d’ergonomie. L’espérance peut masquer des comportements opposés.

Une célèbre histoire raconte qu’un médecin s’étaient étonné que les nouveaux patients de son hôpital aient, en moyenne, une température corporelle légèrement élevée. Il pensait au départ qu’il y avait une épidémie silencieuse. Après enquête, il s’est rendu compte que la majorité des nouveaux patients arrivaient en taxi légèrement stressés, souvent en manteau, parfois en courant pour ne pas être en retard. L’élévation était due à la situation, pas à un état de santé.

De la même manière : vos utilisateurs ne vivent pas dans le vide. Un comportement numérique est toujours lié à un contexte humain, émotionnel, parfois social.

Cela signifie qu’en tant que développeur, vous devez devenir un observateur attentif, et pas seulement un calculateur de chiffres. C’est l’une des raisons pour lesquelles la data science n’est pas simplement un outil technique, mais aussi une discipline d’interprétation.

De l’analyse à la prédiction : l’amorce du machine learning

Quand on commence à manipuler l’espérance, la variance et la corrélation, on entre dans le terrain de la statistique descriptive. C’est un peu comme apprendre à observer avant de décider. L’apprentissage automatique va un peu plus loin : il cherche à prédire et à optimiser.

Par exemple, vous avez l’historique du temps passé, du nombre de clics et du résultat (achat ou non). Un algorithme d’apprentissage automatique pourra apprendre à partir de ces exemples pour prédire l’achat d’un prochain visiteur, avant même que celui-ci ne clique.

Le modèle essaye de trouver une fonction qui minimise une erreur moyenne. Autrement dit, il cherche la meilleure espérance possible en termes de précision.

Et là encore, la variance intervient. Un modèle qui prédit très bien sur les données passées mais très mal sur les nouvelles données a ce qu’on appelle une variance trop grande. On dit qu’il « surapprend ».

Vous voyez : les concepts que nous avons présentés ne disparaissent pas dans les modèles avancés. Ils en constituent le squelette.

Apprendre à regarder les données autrement

Vous êtes maintenant équipé de trois notions fondamentales qui ont une portée bien plus large qu’elles n’y paraissaient au départ : l’espérance, la variance et la corrélation. Elles ne sont pas seulement des formules, mais une manière de lire le monde numérique. Elles vous permettent de résumer, de comprendre, de comparer et de pressentir ce qui se passe dans un système, qu’il s’agisse d’un site internet, d’une application, d’un tableau de données ou d’un comportement utilisateur.

En réalité, la data science n’est pas une tour d’ivoire réservée à ceux qui aiment les équations. C’est un langage, une façon de poser des questions. Et l’apprentissage automatique n’est pas une magie noire : c’est l’art de faire deviner à une machine ce que vous auriez deviné vous-même si vous aviez eu le temps de tout analyser.

Prenez l’habitude de regarder vos données avec attention, de calculer des moyennes, de vérifier des écarts, de chercher des relations. Plus vous répéterez cet exercice, plus vous comprendrez ce qui se joue derrière les comportements numériques. Et cette compréhension vous donnera quelque chose de précieux : le pouvoir de créer des expériences plus fluides, plus humaines, plus adaptées. Autrement dit, des sites qui ne se contentent pas d’exister, mais qui comprennent leurs utilisateurs.

Lorsque vous serez prêt à aller plus loin, la porte de la data science et du machine learning sera déjà entrouverte devant vous.

Alban

Fondateur de l’agence Créa-troyes.
Intervenant en Freelance.
Contactez-moi

crea-troyes.fr