Objectifs

– Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop

– Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop

– Utiliser Sqoop, Kafka, Flume, Hive et Imp

Programme

– Introduction générale à Hadoop

– Traitement de données

– Les composants d’un cluster Hadoop

– L’architecture d’HDFS

– Utiliser HDFS

– L’architecture de YARN

– Travailler avec YARN

– Introduction à Spark

– Introduction aux Datasets et DataFrames Spark

– Les opérations sur les DataFrames
Travaux pratiques
Démarrer et utiliser la console Spark

– Créer des DataFrames depuis diverses sources de données

– Sauvegarder des DataFrames

– Les schémas des DataFrames

– Exécution gloutonne et paresseuse de Spark
Travaux pratiques
Gérer les dataframes

– Requêter des DataFrames avec des expressions sur les colonnes
nommées

– Les requêtes de groupement et d’aggrégation

– Les jointures

Travaux pratiques
Ecriture et tests de requêtes

– Introduction aux RDD

– Les sources de données de RDD

– Créer et sauvegarder des RDD

– Les opérations sur les RDD

– Écrire et passer des fonctions de transformation

– Fonctionnement des transformations de Spark

– Conversion entre RDD et DataFrames
Travaux pratiques
Transformer des données

– Les RDD clé-valeur

– Map-Reduce : principe et usage dans Spark

– Autres opérations sur les RDD de paires
Travaux pratiques
Mise en œuvre du principe du mapReduce

– Requêter des tables en Spark en utilisant SQL

– Requêter des fichiers et des vues

– L’API catalogue de Spark
Travaux pratiques
Gérer des vues

– Les différences entre Datasets et DataFrames

– Créer des Datasets

– Charger et sauvegarder des Datasets

– Les opérations sur les Datasets

– Écrire une application Spark

– Compiler et lancer une application

– Le mode de déploiement d’une application

– L’interface utilisateur web des applications Spark

– Configurer les propriétés d’une applicatio

 -Rappels du fonctionnement de Spark avec YARN

– Le partitionnement des données dans les RDD

– Jobs, étapes et tâches
Travaux pratiques
Mise en œuvre du traitement distribué

– La persistance des DataFrames et des Datasets

– Les niveaux de persistances

– Voir les RDD persistés

– D’autres cas d’usage courants de Spark

– Les algorithmes itératifs en Spark

– Machine Learning avec Spark

– Introduction à Spark Streaming

– Créer des streaming DataFrames

– Transformer des DataFrames

– Exécuter des requêtes de streaming

– Introduction

– Recevoir des messages Kafka

– Envoyer des messages Kafka

– Agrégation sur des streaming DataFrames

– Jointure sur des streaming DataFrames

– Introduction à Kafka

– Passer à l’échelle avec Kafka

– L’architecture d’un cluster Kafka

Référence :  BIG00

Type de Stage : Pratique

Durée : 5 jours

Public concerné:

Développeurs et analystes.

Prérequis:

Bonnes connaissances en Scala
et/ou Python
Connaissances de base en lignes
de commande Linux
Connaissances de base en SQL