L’objectif de ce cours est de donner les outils de base pour décrire un ensemble de données d’un point de vue statistique (statistique descriptive) et de proposer quelques algorithmes de statistique exploratoire.
Plan du cours
Rappels et notations
Probabilités
Statistiques
Statistique descriptive et exploratoire
Acquisition et types de données
Représentation des données
Gestion des données : données aberrantes, manquantes, data cleaning, normalisation
Statistiques univariée, bivariée, multivariée
Sélection et extraction de variables
Sélection de variables
Extraction de variables (ACP, LDA, QDA)
Régression
Linéaire
Logistique
Algorithmes de clustering
K-moyennes
Clustering hiérarchique ascendant
Evaluation d'une partition ou d'une hiérarchie
Description des TP
Mise en pratique en Python, en utilisant une librairie dédiée (scikit-learn).
Connaissances requises
Algèbre linéaire, Python.
RSE (Responsabilité Sociale et Environnementale)
Bibliographie
Gilbert Saporta, Probabilités, analyse des données et statistique, Editions Technip, 2011