Sélectionner une page

Pour se lancer dans l’analyse des données, nous allons commencer par créer un « Data Frame »/Structure de donnée » qui pourrait vulgairement être appelé un tableau.

Pour cela nous allons débuter par l’installation de deux package : dslabs & dplyr, puis allons les charger pour pouvoir les utiliser.

La fonction install.packages(), permet d’installer les packages. Il est nécessaire d’écrire le nom du package entre «  » .
La fonction library(), Permet de chargé les packages en vue de leur utilisation.

Créer un dataframe avec RStudio

Commençons par créer un data Frame en utilisant la fonction data.frame() . Pour cela nous avons plusieurs solution et nous pouvons soit :

  1. Rentrer les valeurs les unes à la suite des autres directement dans la fonction data.frame() :

Créer un dataframe avec RStudio

Commençons par créer un data Frame en utilisant la fonction data.frame() . Pour cela nous avons plusieurs solution et nous pouvons soit :

  1. Rentrer les valeurs les unes à la suite des autres directement dans la fonction data.frame() :

Créer un dataframe avec RStudio

Commençons par créer un data Frame en utilisant la fonction data.frame() . Pour cela nous avons plusieurs solution et nous pouvons soit :

  1. Rentrer les valeurs les unes à la suite des autres directement dans la fonction data.frame() :
  1. définir les éléments et les valeurs associées de façon indépendante puis de les compiler au data frame :

Examiner un Data Frame

Plusieurs commandes/fonctions permettent d’éxaminer un Data Frame rapidement pour visualiser sa structure, ses colonnes, le format des données, ect …

Examiner sa structure

On peut vérifier la structure du data frame avec la fonction **str()** et observé que le data frame contient **6 observations** (les colonnes) et **2 variables** (les lignes)

Visualiser les entête de colonnes

On peut afficher uniquement les entête de colonnes avec la fonction **name()**, ce qui est particulièrement utile si le df est grand, sur plusieurs lignes, ect..

Visualiser un extrait d’un data frame

La fonction **head()** nous permet afficher un extrait du data frame sous la forme via l’affichage des 6 premières lignes. On peut changer le nombre de ligne par défaut en ajoutant le paramètre **n = x** après le nom du df pour définir le nombre de ligne à afficher.

Connaitre le nombre/la longueur d’une variable

La fonction **levels()** donne la liste des obs. d’une variable.

La fonction **length()** donne la longueur/le nombre total des obs. d’une variable, soit le nombre de ligne.

On peut voir avec ces deux fonctions qu’il y a 4 observations **unique**, sur un ensemble de 51 lignes. On le sait car elles sont peu nombreuse et que nous pouvons les compter facilement. Dans le cas ou il y a un grand nombre d’obersations, cela serait plus compliqué.
Heureusement il est possible de combiner les deux fonctions pour obtenir le nombre unique de variable différente et non pas la liste ou le nombre de ligne. Cela se fait via la fonction length(levels())