Exercices de mise en pratique

Analyse de données avec R - Faculté des sciences sociales

Auteur·rice

Université Laval

Date de publication

11 mars 2026

Introduction

Cet exercice pratique vous permet de consolider les notions vues en formation. Vous travaillerez avec des données réelles sur l’espérance de vie, la population et le PIB par habitant pour 142 pays (1952-2007).

Objectifs d’apprentissage

  • Manipuler des objets et des vecteurs
  • Importer et explorer un jeu de données réel
  • Effectuer des opérations de nettoyage avec dplyr
  • Créer des visualisations professionnelles avec ggplot2

Préparation

  1. Fichiers requis : Téléchargez le Script R et les Données CSV.
  2. Organisation : Placez ces fichiers dans votre dossier de travail.
  3. Action : Ouvrez le script dans RStudio et complétez les sections marquées par # À COMPLÉTER.
NoteJeu de données : Gapminder

Le fichier donnees_pays.csv contient des indicateurs mondiaux provenant du projet Gapminder. Il inclut des variables comme le continent, l’année, l’espérance de vie (lifeExp) et le PIB par habitant (gdpPercap).


Exercice 1 : Objets et Vecteurs

Consigne : Familiarisez-vous avec la création d’objets dans R.

  1. Créez un objet pays_prefere (type texte).
  2. Créez un vecteur continents contenant les 5 noms de continents.
  3. Créez un vecteur populations (valeurs numériques).
  4. Utilisez la fonction class() pour vérifier le type de vos objets.

Utilisez l’opérateur <- pour l’assignation.

# 1. Créer un objet
pays_prefere <- "Québec"

# 2. Créer un vecteur
continents <- c("Afrique", "Amérique", "Asie", "Europe", "Océanie")

# 3. Créer un vecteur numérique
populations <- c(1200, 580, 4600, 750, 45)

# 4. Vérification
class(pays_prefere)
[1] "character"
class(populations)
[1] "numeric"

Exercice 2 : Exploration du jeu de données

Consigne : Chargez les données et analysez leur structure.

  1. Chargez les packages readr, dplyr et ggplot2.
  2. Importez le fichier donnees_pays.csv.
  3. Affichez les dimensions du tableau et le nom des colonnes.

Utilisez read_csv() pour l’importation.

library(readr)
library(dplyr)
library(ggplot2)

# Importation
donnees <- read_csv("data/donnees_pays.csv")

# Exploration
dim(donnees)
[1] 1704    6
names(donnees)
[1] "country"   "continent" "year"      "lifeExp"   "pop"       "gdpPercap"
head(donnees)
# A tibble: 6 × 6
  country     continent  year lifeExp      pop gdpPercap
  <chr>       <chr>     <dbl>   <dbl>    <dbl>     <dbl>
1 Afghanistan Asia       1952    28.8  8425333      779.
2 Afghanistan Asia       1957    30.3  9240934      821.
3 Afghanistan Asia       1962    32.0 10267083      853.
4 Afghanistan Asia       1967    34.0 11537966      836.
5 Afghanistan Asia       1972    36.1 13079460      740.
6 Afghanistan Asia       1977    38.4 14880372      786.

Exercice 3 : Manipulation avec dplyr

Consigne : Nettoyez et filtrez les données pour l’analyse.

  1. Filtrez les données pour ne garder que l’année 2007.
  2. Sélectionnez les colonnes : pays, continent et espérance de vie.
  3. Triez les résultats par espérance de vie décroissante.

Utilisez l’opérateur “pipe” %>%.

# Manipulation en chaîne
donnees_2007 <- donnees %>%
  filter(year == 2007) %>%
  select(country, continent, lifeExp) %>%
  arrange(desc(lifeExp))

head(donnees_2007)
# A tibble: 6 × 3
  country          continent lifeExp
  <chr>            <chr>       <dbl>
1 Japan            Asia         82.6
2 Hong Kong, China Asia         82.2
3 Iceland          Europe       81.8
4 Switzerland      Europe       81.7
5 Australia        Oceania      81.2
6 Spain            Europe       80.9

Exercice 4 : Analyses par groupe

Consigne : Calculez des statistiques descriptives par continent.

  1. Calculez l’espérance de vie moyenne par continent en 2007.
  2. Identifiez le nombre de pays par continent dans le jeu de données.

Combinez group_by() et summarise().

# Statistiques groupées
esperance_continent <- donnees %>%
  filter(year == 2007) %>%
  group_by(continent) %>%
  summarise(
    moyenne_vie = mean(lifeExp),
    nb_pays = n()
  )

print(esperance_continent)
# A tibble: 5 × 3
  continent moyenne_vie nb_pays
  <chr>           <dbl>   <int>
1 Africa           54.8      52
2 Americas         73.6      25
3 Asia             70.7      33
4 Europe           77.6      30
5 Oceania          80.7       2

Exercice 5 : Visualisation de données

Consigne : Produisez des graphiques de qualité professionnelle.

  1. Créez un histogramme de la distribution du PIB par habitant en 2007.
  2. Créez un nuage de points montrant la relation entre le PIB et l’espérance de vie.
  3. Ajoutez une couleur différente pour chaque continent.

Utilisez geom_histogram() et geom_point().

# 1. Distribution
ggplot(donnees %>% filter(year == 2007), aes(x = gdpPercap)) +
  geom_histogram(bins = 20, fill = "#003875", color = "white") +
  labs(title = "Distribution du PIB par habitant (2007)", x = "PIB", y = "Fréquence") +
  theme_minimal()

# 2. Relation
ggplot(donnees %>% filter(year == 2007), 
       aes(x = gdpPercap, y = lifeExp, color = continent)) +
  geom_point(size = 3, alpha = 0.7) +
  labs(title = "PIB vs Espérance de vie", x = "PIB par habitant", y = "Espérance de vie") +
  theme_minimal()


Conclusion

Vous avez complété le cycle complet d’une analyse descriptive sous R : de l’importation à la visualisation.

Récapitulatif des acquis

  • Maîtrise des objets et types de données.
  • Utilisation des fonctions de base de manipulation (dplyr).
  • Création de graphiques informatifs (ggplot2).

Pour aller plus loin, explorez la documentation officielle du Tidyverse.