Analyse de données

Objectifs

L’objectif de ce cours est de donner les outils de base pour décrire un ensemble de données d’un point de vue statistique (statistique descriptive) et de proposer quelques algorithmes de statistique exploratoire.

Plan du cours

 

  1. Rappels et notations
    1. Probabilités
    2. Statistiques 
  2. Statistique descriptive et exploratoire
    1. Acquisition et types de données
    2. Représentation des données
    3. Gestion des données : données aberrantes, manquantes, data cleaning, normalisation
    4. Statistiques univariée, bivariée, multivariée
  3. Sélection et extraction de variables
    1. Sélection de variables
    2. Extraction de variables (ACP, LDA, QDA)
  4. Régression
    1. Linéaire
    2. Logistique
  5. Algorithmes de clustering
    1. K-moyennes
    2. Clustering hiérarchique ascendant
    3. Evaluation d'une partition ou d'une hiérarchie

Description des TP

Mise en pratique en Python, en utilisant une librairie dédiée (scikit-learn).

Connaissances requises

Algèbre linéaire, Python.

RSE (Responsabilité Sociale et Environnementale)

Bibliographie

Gilbert Saporta, Probabilités, analyse des données et statistique, Editions Technip, 2011