– Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop
– Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop
– Utiliser Sqoop, Kafka, Flume, Hive et Imp
– Introduction générale à Hadoop
– Traitement de données
– Les composants d’un cluster Hadoop
– L’architecture d’HDFS
– Utiliser HDFS
– L’architecture de YARN
– Travailler avec YARN
– Introduction à Spark
– Introduction aux Datasets et DataFrames Spark
– Les opérations sur les DataFrames
Travaux pratiques
Démarrer et utiliser la console Spark
– Créer des DataFrames depuis diverses sources de données
– Sauvegarder des DataFrames
– Les schémas des DataFrames
– Exécution gloutonne et paresseuse de Spark
Travaux pratiques
Gérer les dataframes
– Requêter des DataFrames avec des expressions sur les colonnes
nommées
– Les requêtes de groupement et d’aggrégation
– Les jointures
Travaux pratiques
Ecriture et tests de requêtes
– Introduction aux RDD
– Les sources de données de RDD
– Créer et sauvegarder des RDD
– Les opérations sur les RDD
– Écrire et passer des fonctions de transformation
– Fonctionnement des transformations de Spark
– Conversion entre RDD et DataFrames
Travaux pratiques
Transformer des données
– Les RDD clé-valeur
– Map-Reduce : principe et usage dans Spark
– Autres opérations sur les RDD de paires
Travaux pratiques
Mise en œuvre du principe du mapReduce
– Requêter des tables en Spark en utilisant SQL
– Requêter des fichiers et des vues
– L’API catalogue de Spark
Travaux pratiques
Gérer des vues
– Les différences entre Datasets et DataFrames
– Créer des Datasets
– Charger et sauvegarder des Datasets
– Les opérations sur les Datasets
– Écrire une application Spark
– Compiler et lancer une application
– Le mode de déploiement d’une application
– L’interface utilisateur web des applications Spark
– Configurer les propriétés d’une applicatio
-Rappels du fonctionnement de Spark avec YARN
– Le partitionnement des données dans les RDD
– Jobs, étapes et tâches
Travaux pratiques
Mise en œuvre du traitement distribué
– La persistance des DataFrames et des Datasets
– Les niveaux de persistances
– Voir les RDD persistés
– D’autres cas d’usage courants de Spark
– Les algorithmes itératifs en Spark
– Machine Learning avec Spark
– Introduction à Spark Streaming
– Créer des streaming DataFrames
– Transformer des DataFrames
– Exécuter des requêtes de streaming
– Introduction
– Recevoir des messages Kafka
– Envoyer des messages Kafka
– Agrégation sur des streaming DataFrames
– Jointure sur des streaming DataFrames
– Introduction à Kafka
– Passer à l’échelle avec Kafka
– L’architecture d’un cluster Kafka
Référence : BIG00
Type de Stage : Pratique
Durée : 5 jours
Développeurs et analystes.
Bonnes connaissances en Scala
et/ou Python
Connaissances de base en lignes
de commande Linux
Connaissances de base en SQL