Rencontre 2

On se penche sur la méthodologie de base lors de l’exploration de données

Les données se trouvent ici

Un exemple de notebook se trouvent ici

Plan de la séance

  1. Introduction à pandas
  2. Techniques de visualisation de données
  3. Vérification des hypothèses d’une régression linéaire
  4. Détection de point aberrant avec la méthode IQR
  5. Introduction au KNN

Introduction à pandas

On introduit quelques fonction utiles de pandas: moving_average, pivot_table

Introduction à l’analyse exploratoire des données avec matplotlib et seaborn

On montre comment constuire des boxplot, des heatmap et autres techniques de visualisation et comment les interpréter

Vérification des hypothèses d’une régression linéaire

Avant de générer une régression linéaire, il faut vérifier certaines hypothèses:

Nous allons vérifier ces hypothèses avec des qqplot et des residual plot

Détection de point aberrant avec la méthode IQR

Il existe plusieurs méthodes pour détecter les points aberrants:

On verra comment implémenter la méthode IQR sur python.

Introduction au KNN

On vous montre comment implémenter un KNN avec la librairie scikit-learn.

Voici une vidéo explicative faite par ritvikmath (en anglais)