le Langage R pour Débutants
Ce cours de R pour débutants est conçu pour vous initier à la programmation en R, un langage de programmation puissant utilisé principalement pour l'analyse de données et les statistiques. Vous apprendrez les bases de R, y compris la syntaxe, les types de données, les structures de contrôle, et la manipulation des données.
1. Introduction à R
Qu'est-ce que R ?
- R est un langage de programmation et un environnement logiciel utilisé pour le calcul statistique, l'analyse de données, et la création de graphiques. Il est très populaire dans le milieu académique et parmi les data scientists.
Pourquoi utiliser R ?
- R est open-source et gratuit.
- Il possède une vaste collection de packages pour les statistiques et la visualisation.
- Il est conçu pour travailler efficacement avec des données volumineuses.
Installation de R et RStudio
- R peut être installé à partir du site officiel : cran.r-project.org.
- RStudio est un IDE (Integrated Development Environment) populaire pour R, qui rend le travail avec R plus convivial. Téléchargez-le à partir de rstudio.com.
2. Les Bases de R
2.1. Syntaxe de Base
Commentaires : Utilisez le #
pour écrire des commentaires.
# Ceci est un commentaire
Affectation : Utilisez <-
ou =
pour affecter des valeurs à des variables.
x <- 5
y = 10
Affichage : Utilisez print()
ou simplement le nom de l'objet pour afficher sa valeur.
print(x) # Affiche 5
x # Affiche également 5
2.2. Types de Données
Numériques :
nombre <- 42
pi <- 3.14159
Chaînes de caractères :
texte <- "Bonjour, R! et Bienvenue Sur le Site PandaCodeur.com"
Booléens :
vrai <- TRUE
faux <- FALSE
Facteurs (catégories) :
couleurs <- factor(c("rouge", "vert", "bleu", "rouge"))
Vecteurs :
nombres <- c(1, 2, 3, 4, 5)
3. Structures de Données en R
3.1. Vecteurs
Les vecteurs sont des séquences de données du même type.
Création d'un vecteur :
nombres <- c(10, 20, 30, 40)
Accès aux éléments :
nombres[2] # Renvoie 20
3.2. Matrices
Les matrices sont des tableaux à deux dimensions.
Création d'une matrice :
matrice <- matrix(c(1, 2, 3, 4, 5, 6), nrow=2, ncol=3)
Accès aux éléments :
matrice[1, 2] # Renvoie 2
3.3. Listes
Les listes peuvent contenir des éléments de différents types.
Création d'une liste :
ma_liste <- list(nombre=1, texte="Bonjour", vecteur=c(1, 2, 3))
Accès aux éléments :
ma_liste$nombre # Renvoie 1
3.4. DataFrames
Les DataFrames sont des tableaux de données, semblables aux feuilles de calcul Excel, avec des colonnes de différents types.
Création d'un DataFrame :
df <- data.frame(noms=c("Alice", "Bob"), âges=c(25, 30))
Accès aux colonnes :
df$noms # Renvoie c("Alice", "Bob")
4. Structures de Contrôle
4.1. Conditions
If/Else :
x <- 10
if (x > 5) {
print("x est grand")
} else {
print("x est petit")
}
4.2. Boucles
For loop :
for (i in 1:5) {
print(i)
}
While loop :
x <- 1
while (x < 5) {
print(x)
x <- x + 1
}
5. Fonctions en R
Les fonctions sont des blocs de code réutilisables.
Définir une fonction :
somme <- function(a, b) {
return(a + b)
}
Appeler une fonction :
resultat <- somme(3, 4) # Renvoie 7
6. Manipulation de Données avec `dplyr`
dplyr est un package populaire pour la manipulation de données en R.
Installation de `dplyr` :
install.packages("dplyr")
library(dplyr)
Filtrage des données :
data_filtered <- filter(df, âges > 25)
Sélection des colonnes :
data_selected <- select(df, noms)
Création de nouvelles colonnes :
df <- mutate(df, âge_double = âges * 2)
Résumé des données :
summarise(df, moyenne_âge = mean(âges))
7. Visualisation des Données avec `ggplot2`
ggplot2 est un package pour la création de graphiques.
Installation de `ggplot2` :
install.packages("ggplot2")
library(ggplot2)
Création d'un graphique de base :
ggplot(data=df, aes(x=noms, y=âges)) + geom_bar(stat="identity")
Ajout de titres et de labels :
ggplot(data=df, aes(x=noms, y=âges)) +
geom_bar(stat="identity") +
ggtitle("Âge des participants") +
xlab("Noms") +
ylab("Âge")
8. Importation et Exportation de Données
8.1. Importation de Données
Lire un fichier CSV :
df <- read.csv("fichier.csv")
8.2. Exportation de Données
Écrire un DataFrame dans un fichier CSV :
write.csv(df, "resultat.csv")
9. Exercices Pratiques
Pour bien assimiler les concepts abordés, il est important de pratiquer. Voici quelques exercices :
- Créer un vecteur de 10 nombres aléatoires entre 1 et 100.
- Calculer la moyenne des nombres dans ce vecteur.
- Créer un DataFrame avec les noms, âges et villes de résidence de 5 personnes.
- Utiliser `dplyr` pour filtrer les personnes âgées de plus de 25 ans.
- Créer un graphique avec `ggplot2` pour visualiser les âges des personnes.
10. Ressources Supplémentaires
Conclusion
Ce cours pour débutants vous a présenté les bases du langage R. Vous avez appris la syntaxe de base, les structures de données, les structures de contrôle, la manipulation de données, et la visualisation des données. Pour maîtriser R, il est essentiel de pratiquer régulièrement et d'explorer des projets plus complexes.