R est un langage puissant pour la manipulation de données, grâce à un ensemble de structures de données flexibles et robustes. Ce chapitre vous présentera les principales structures de données en R, telles que les vecteurs, matrices, listes, data frames, et facteurs, qui vous permettront de gérer et manipuler des données de manière efficace.
Les vecteurs
Qu’est-ce qu’un vecteur ?
Le vecteur est la structure de données la plus basique en R. Il s’agit d’une collection ordonnée d’éléments du même type (numérique, caractère, booléen, etc.). Un vecteur en R ne peut contenir qu’un seul type de données.
Création de vecteurs
Pour créer un vecteur, vous pouvez utiliser la fonction c()
(qui signifie « combine » ou « concatenate ») :
# Vecteur numérique
vecteur_num <- c(1, 2, 3, 4, 5)
# Vecteur de caractères
vecteur_char <- c("apple", "banana", "cherry")
# Vecteur booléen
vecteur_logique <- c(TRUE, FALSE, TRUE)
Accès aux éléments d’un vecteur
Vous pouvez accéder à des éléments spécifiques d’un vecteur en utilisant des crochets []
avec l’index de l’élément souhaité (les indices commencent à 1 en R) :
# Accès au 2ème élément
vecteur_num[2] # 2
# Accès aux 3 premiers éléments
vecteur_num[1:3] # 1, 2, 3
Fonctions utiles pour les vecteurs
Il existe plusieurs fonctions utiles pour manipuler des vecteurs en R :
length()
: Renvoie la longueur du vecteur.sum()
: Calcule la somme des éléments (pour les vecteurs numériques).mean()
: Calcule la moyenne des éléments.
length(vecteur_num) # 5
sum(vecteur_num) # 15
mean(vecteur_num) # 3
Les matrices
Qu’est-ce qu’une matrice ?
Une matrice est une collection bidimensionnelle d’éléments de même type, organisée en lignes et colonnes. Les matrices sont utiles pour les calculs algébriques, les analyses de données ou la manipulation de tableaux.
Création de matrices
Pour créer une matrice, vous pouvez utiliser la fonction matrix()
:
# Crée une matrice 2x3 (2 lignes et 3 colonnes)
matrice <- matrix(c(1, 2, 3, 4, 5, 6), nrow = 2, ncol = 3)
# Crée une matrice en remplissant par colonnes
matrice_colonnes <- matrix(c(1, 2, 3, 4, 5, 6), nrow = 2, byrow = FALSE)
Accès aux éléments d’une matrice
Vous pouvez accéder aux éléments d’une matrice en utilisant deux indices : un pour la ligne et un pour la colonne :
# Accès à l'élément de la 1ère ligne, 2ème colonne
matrice[1, 2] # 3
# Accès à la 2ème ligne entière
matrice[2, ] # 4, 5, 6
# Accès à la 3ème colonne entière
matrice[, 3] # 3, 6
Opérations sur les matrices
R permet de faire des opérations arithmétiques sur les matrices :
- Addition et soustraction élément par élément.
- Multiplication de matrice par un scalaire ou une autre matrice.
- Transposition (
t()
).
matrice2 <- matrix(c(1, 1, 1, 1, 1, 1), nrow = 2, ncol = 3)
somme_matrices <- matrice + matrice2 # Addition élément par élément
transposée <- t(matrice) # Transpose la matrice
Les listes
Qu’est-ce qu’une liste ?
Une liste est une structure de données qui peut contenir des éléments de types différents, ce qui la rend plus flexible que les vecteurs ou matrices. Une liste peut contenir des vecteurs, des matrices, d’autres listes, ou tout autre type de données.
Création de listes
Vous pouvez créer une liste en utilisant la fonction list()
:
# Crée une liste contenant un vecteur, une matrice et une valeur logique
ma_liste <- list(nombres = c(1, 2, 3), matrice = matrix(1:4, nrow = 2), logique = TRUE)
Accès aux éléments d’une liste
Pour accéder aux éléments d’une liste, utilisez les doubles crochets [[ ]]
ou $
suivi du nom de l’élément :
# Accès au vecteur
ma_liste[[1]] # Ou ma_liste$nombres
# Accès à la matrice
ma_liste$matrice
Manipulation des listes
Vous pouvez ajouter des éléments à une liste, supprimer ou modifier des éléments existants :
# Ajouter un nouvel élément à la liste
ma_liste$texte <- "Hello, world!"
# Modifier un élément
ma_liste$nombres <- c(4, 5, 6)
Les data frames
Qu’est-ce qu’un data frame ?
Le data frame est l’une des structures de données les plus utilisées en R. Il ressemble à une matrice mais peut contenir des colonnes de types différents (nombres, caractères, booléens, etc.). Les data frames sont très utilisés pour représenter des ensembles de données tabulaires (comme des tables de données).
Création de data frames
Vous pouvez créer un data frame avec la fonction data.frame()
:
# Crée un data frame avec 3 colonnes : noms, âges et logique
df <- data.frame(
noms = c("Alice", "Bob", "Charlie"),
ages = c(25, 30, 35),
est_etudiant = c(TRUE, FALSE, TRUE)
)
Accès aux éléments d’un data frame
Les colonnes d’un data frame peuvent être accédées comme des listes, par nom ou par index :
# Accès à la colonne "noms"
df$noms
# Accès au 2ème élément de la colonne "ages"
df$ages[2] # 30
Manipulation des data frames
Vous pouvez ajouter de nouvelles colonnes ou lignes à un data frame :
# Ajouter une nouvelle colonne
df$salaire <- c(50000, 55000, 60000)
# Ajouter une nouvelle ligne
nouvelle_ligne <- data.frame(noms = "David", ages = 28, est_etudiant = FALSE, salaire = 52000)
df <- rbind(df, nouvelle_ligne)
Les facteurs
Qu’est-ce qu’un facteur ?
Les facteurs sont utilisés pour représenter des données catégorielles. Ils sont souvent utilisés pour les variables qui prennent un nombre limité de valeurs différentes (comme des catégories ou des groupes). Les facteurs peuvent être ordonnés ou non ordonnés.
Création de facteurs
Vous pouvez créer un facteur en utilisant la fonction factor()
:
# Crée un facteur avec 3 catégories
facteur_genre <- factor(c("Homme", "Femme", "Femme", "Homme"))
Manipulation des facteurs
Vous pouvez spécifier l’ordre des niveaux d’un facteur, ou convertir un facteur en un vecteur de caractères :
# Crée un facteur ordonné
facteur_ordre <- factor(c("Petit", "Moyen", "Grand"), levels = c("Petit", "Moyen", "Grand"), ordered = TRUE)
# Convertir un facteur en vecteur de caractères
as.character(facteur_genre)
Les facteurs sont particulièrement utiles pour les analyses statistiques et graphiques, car R traite automatiquement ces valeurs comme des catégories.
Ce chapitre vous a présenté les principales structures de données en R, qui sont essentielles pour la gestion et l’analyse de vos jeux de données. Vous êtes maintenant équipé pour manipuler des données de différentes formes, ce qui est une base fondamentale pour toute analyse statistique ou exploration des données en R.
Chapitre 4 : Manipulation de données avec DPLYR →
Fondateur de l’agence Créa-troyes.
Intervenant en Freelance.
Contactez-moi