Introduction au Big Data : application à Microsoft Azure

Objectifs

Plan du cours

  1. Introduction et rappels
    1. Les origines du Big Data
    2. Quelques définitions
    3. Les données au coeur des enjeux
    4. Les cloud computing
    5. L'évolution des architectures traditionnelles
    6. Le calcul distribué
    7. La chaîne de la data dans l'entreprise
    8. La méthodologie data science
  2. Stockage des données & Microsoft Azure
    1. Rappels
    2. Qu'est-ce que le HDFS ?
    3. Microsoft Azure
  3. Calcul distribué & Spark & Azure Databricks
    1. Rappels
    2. Qu'est-ce que le MapReduce ?
    3. Qu'est-ce que Spark ?
    4. Azure Databricks
  4. Data Science & Machine Learning
    1. Rappels

Description des TP

  1. Introduction à Microsoft Azure et Azure Data Lake Storage
    1. Créer une base de données SQL
    2. Introduction à Azure Data Lake Storage
    3. Charger des données dans Azure Data Lake Storage
  2. Introduction à Azure Databricks
    1. L'environnement Databricks
    2. Lecture et écriture de données
    3. Travailler avec des DataFrames
  3. Machine Learning avec Spark et Azure Databricks
    1. Qu'est-ce que le machine learning ?
    2. Analyse exploratoire
    3. ML Workflows
    4. Feature engineering
    5. Machine learning

Connaissances requises

A remplir

RSE (Responsabilité Sociale et Environnementale)

Bibliographie

A remplir