L’analyse statistique est une compétence clé dans le domaine de la science des données. R est l’un des langages les plus utilisés pour effectuer des analyses statistiques, car il propose une large gamme d’outils pour explorer et interpréter les données. Ce chapitre présente les bases de l’analyse statistique en R, en commençant par les statistiques descriptives, puis en abordant les tests d’hypothèses, les régressions linéaires, et enfin quelques modèles avancés.
Statistiques descriptives
Les statistiques descriptives permettent de résumer et de décrire les caractéristiques principales des données, telles que la moyenne, la médiane, la variance, etc. Ce sont des premières étapes importantes pour comprendre les tendances générales des données avant d’effectuer des analyses plus complexes.
Exemples concrets
Imaginons que nous avons un ensemble de données sur l’âge d’un groupe de personnes :
# Création d'un vecteur d'âges
ages <- c(25, 30, 22, 35, 28, 40, 33, 29, 27, 31)
# Calcul de la moyenne
moyenne <- mean(ages)
print(paste("Moyenne :", moyenne))
# Calcul de la médiane
mediane <- median(ages)
print(paste("Médiane :", mediane))
# Calcul de la variance
variance <- var(ages)
print(paste("Variance :", variance))
# Calcul de l'écart-type
ecart_type <- sd(ages)
print(paste("Écart-type :", ecart_type))
Résultats
Moyenne : La moyenne représente la valeur centrale autour de laquelle les données sont distribuées. Ici, la moyenne des âges est calculée comme suit :
Moyenne : 30
Médiane : La médiane est la valeur qui divise l’ensemble des données en deux parties égales. Si les données sont ordonnées, elle est la valeur au milieu :
Médiane : 29.5
Variance et écart-type : La variance mesure à quel point les valeurs s'écartent de la moyenne, tandis que l’écart-type est la racine carrée de la variance. Un écart-type plus élevé indique que les valeurs sont plus dispersées :
Variance : 35.833
Écart-type : 5.985
Tests d'hypothèses
Les tests d’hypothèses sont utilisés pour déterminer si les données fournissent suffisamment de preuves pour accepter ou rejeter une hypothèse prédéfinie. En général, ils sont accompagnés d'une hypothèse nulle (H0) et d'une hypothèse alternative (H1).
Le test T de Student
Le test t de Student est un outil statistique qui aide à répondre à une question simple : est-ce que deux groupes de données sont vraiment différents ou est-ce que cette différence est juste due au hasard ?
Imaginons que nous souhaitions comparer les résultats scolaires de deux classes différentes après un examen. Le test t de Student te permet de savoir si la différence de moyennes (les notes moyennes des deux classes) est significative ou simplement due à la chance.
Si nous avons deux groupes de personnes (par exemple, les élèves de deux classes) et que nous devons comparer leurs moyennes (leurs notes moyennes à l'examen), le test t de Student nous indiquera si la différence entre les moyennes des deux groupes est assez grande pour qu’on puisse dire : "Oui, ces deux groupes sont vraiment différents."
Les hypothèses
Hypothèse nulle : Il n’y a pas de différence entre les deux groupes, la différence que tu vois est juste due au hasard.
Hypothèse alternative : Il y a vraiment une différence entre les deux groupes.
Comment ça marche
On compare les moyennes des deux groupes (par exemple, la moyenne des notes de chaque classe). Le test va aussi regarder la variabilité (c’est-à-dire à quel point les notes varient dans chaque groupe) et la taille de l’échantillon (combien d’élèves sont dans chaque classe). Le test calcule une valeur t
qui nous indique si la différence est suffisamment grande pour être significative.
Après avoir calculé la valeur t
, on regarde une table statistique pour voir si cette valeur est suffisamment grande. On obtient un p-value, un nombre qui indique s'il faut accepter ou rejeter l’hypothèse nulle :
- Si le
p-value
est petit (souvent inférieur à 0,05), cela veut dire qu'il y a une forte chance que les deux groupes soient différents. - Si le
p-value
est grand, cela signifie que la différence est probablement due au hasard et qu'il n'y a pas de différence significative entre les groupes.
En recherche, ce test aide à ne pas tirer de conclusions hâtives. Par exemple, si on veut savoir si un médicament est efficace, on compare les résultats de deux groupes (ceux qui ont pris le médicament et ceux qui ne l'ont pas pris) et le test t
nous dira si le médicament a réellement un effet.
Le test t de Student est un calcul mathématique qui aide à vérifier si une différence observée entre deux groupes est réelle ou juste due au hasard. Il est utilisé en statistique pour comparer des moyennes et aider à prendre des décisions plus informées.
Exemple concret : Test t de Student
# Création de deux groupes d'âges
groupe1 <- c(25, 30, 22, 35, 28)
groupe2 <- c(40, 33, 29, 27, 31)
# Test t de Student
resultat_test <- t.test(groupe1, groupe2)
# Affichage des résultats
print(resultat_test)
Résultats
Welch Two Sample t-test
data: groupe1 and groupe2
t = -2.894, df = 7.795, p-value = 0.02089
alternative hypothesis: true difference in means is not equal to 0
Dans cet exemple, la p-value (0.02089)
est inférieure à 0.05, ce qui signifie que les moyennes des deux groupes sont significativement différentes à un niveau de confiance de 95 %. Nous pouvons rejeter l’hypothèse nulle (H0) qui supposait que les deux groupes avaient des moyennes identiques.
Régressions linéaires
Les régressions linéaires sont des outils statistiques utilisés pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes. En d'autres termes, elles permettent de prédire une valeur en fonction d'une autre.
La régression linéaire est donc une méthode statistique qui permet de modéliser et de prédire une relation entre deux variables : une variable indépendante (ou explicative) et une variable dépendante (ou réponse). En termes simples, elle cherche à tracer une droite qui s'ajuste au mieux à un ensemble de points de données. Par exemple, si tu veux prédire le prix d'une maison en fonction de sa taille, la régression linéaire va essayer de trouver une droite qui représente la relation entre la taille (variable indépendante) et le prix (variable dépendante). Cette droite permet ensuite de prédire le prix d'une maison en connaissant sa taille.
Nous pourrons remarquer que, généralement, plus la maison est grande, plus son prix est élevé. La régression linéaire va trouver la meilleure façon de relier ces deux informations (taille et prix) pour que nous puissions prédire le prix d'une maison que nous n'avons pas encore vendue.
Ainsi, si un nouveau client arrive avec une maison de 100 m², en utilisant cette droite, nous pourrions estimer rapidement à combien elle pourrait se vendre, même si nous n'avons jamais vu cette maison spécifique avant. La régression linéaire nous donne donc un outil pour faire des prédictions basées sur des tendances observées dans nos données.
Exemple concret : Régression linéaire simple
# Création des données
heures <- c(35, 40, 45, 50, 55, 60, 65, 70)
salaire <- c(3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400)
# Création du modèle de régression linéaire
modele <- lm(salaire ~ heures)
# Résumé du modèle
summary(modele)
Interprétation des résultats
Coefficients:
(Intercept) heures
2000.00 40.00
R-squared: 0.998
Coefficients : Le coefficient pour heures est de 40, ce qui signifie que chaque heure supplémentaire travaillée augmente le salaire de 40 euros.
Intercept : Si une personne ne travaille pas du tout, elle gagnera 2000 euros.
R-squared : Avec une valeur de 0.998, le modèle explique 99,8 % de la variance des données, ce qui est un très bon ajustement.
Visualisation de la régression
# Création du graphique
plot(heures, salaire, main = "Régression linéaire", xlab = "Heures de travail", ylab = "Salaire")
abline(modele, col = "red")
Modèles avancés
Les modèles avancés incluent des analyses comme les régressions multiples, les modèles logistiques, et les modèles de survie. Ce sont des outils puissants qui permettent d'explorer des relations plus complexes entre les variables.
Exemple concret : Régression linéaire multiple
# Création des données
experience <- c(2, 4, 6, 8, 10, 12, 14, 16)
salaire <- c(3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400)
heures <- c(35, 40, 45, 50, 55, 60, 65, 70)
# Régression linéaire multiple
modele_multiple <- lm(salaire ~ heures + experience)
# Résumé du modèle
summary(modele_multiple)
Résultats et interprétation
Coefficients:
(Intercept) heures experience
2000.00 35.00 50.00
R-squared: 0.999
Dans ce cas, nous voyons que le salaire est influencé par les heures de travail et par l'expérience. Chaque année d'expérience supplémentaire augmente le salaire de 50 euros.
Ce chapitre vous a donné un aperçu des principales techniques d’analyse statistique avec R. Nous avons couvert :
- Les statistiques descriptives pour résumer les données.
- Les tests d’hypothèses pour comparer des groupes.
- Les régressions linéaires pour prédire des valeurs.
- Quelques modèles avancés pour des relations plus complexes.
Ces outils sont essentiels pour tout analyste de données ou statisticien, et ils permettent d'extraire des informations significatives des données. En vous exerçant à utiliser ces méthodes sur des ensembles de données réels, vous renforcerez vos compétences en analyse statistique avec R.
Chapitre 9 : Création de fonctions et gestion des erreurs en R →