Développer des applications pour Spark avec Hadoop Cloudera

Objectifs

– Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop

– Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop

– Utiliser Sqoop, Kafka, Flume, Hive et Imp

Programme

1. Introduction à Hadoop et à son écosystème

– Introduction générale à Hadoop

– Traitement de données

2. HDFS : le système de fichiers de Hadoop

– Les composants d’un cluster Hadoop

– L’architecture d’HDFS

– Utiliser HDFS

3. Le traitement distribué sur un cluster Hadoop

– L’architecture de YARN

– Travailler avec YARN

4.Les bases de Spark

– Introduction à Spark

– Introduction aux Datasets et DataFrames Spark

– Les opérations sur les DataFrames
Travaux pratiques
Démarrer et utiliser la console Spark

5. Manipulation des dataframes et des schemas

– Créer des DataFrames depuis diverses sources de données

– Sauvegarder des DataFrames

– Les schémas des DataFrames

– Exécution gloutonne et paresseuse de Spark
Travaux pratiques
Gérer les dataframes

6.Analyse des données

– Requêter des DataFrames avec des expressions sur les colonnes
nommées

– Les requêtes de groupement et d’aggrégation

– Les jointures

Travaux pratiques
Ecriture et tests de requêtes

7.Les RDD : Structure fondamentale de Spark

– Introduction aux RDD

– Les sources de données de RDD

– Créer et sauvegarder des RDD

– Les opérations sur les RDD

8. Transformer les données avec RDD

– Écrire et passer des fonctions de transformation

– Fonctionnement des transformations de Spark

– Conversion entre RDD et DataFrames
Travaux pratiques
Transformer des données

9. Agrégation des données avec les RDD de paires

– Les RDD clé-valeur

– Map-Reduce : principe et usage dans Spark

– Autres opérations sur les RDD de paires
Travaux pratiques
Mise en œuvre du principe du mapReduce

10. Requêtage des tables et des vues avec Spark SQL

– Requêter des tables en Spark en utilisant SQL

– Requêter des fichiers et des vues

– L’API catalogue de Spark
Travaux pratiques
Gérer des vues

11. Travailler avec des datasets Spark en Scala

– Les différences entre Datasets et DataFrames

– Créer des Datasets

– Charger et sauvegarder des Datasets

– Les opérations sur les Datasets

12. Les applications Spark

– Écrire une application Spark

– Compiler et lancer une application

– Le mode de déploiement d’une application

– L’interface utilisateur web des applications Spark

– Configurer les propriétés d’une applicatio

13. Le traitement distribué avec Spark

-Rappels du fonctionnement de Spark avec YARN

– Le partitionnement des données dans les RDD

– Jobs, étapes et tâches
Travaux pratiques
Mise en œuvre du traitement distribué

14. Persistance des données distribuées

– La persistance des DataFrames et des Datasets

– Les niveaux de persistances

– Voir les RDD persistés

15. Les algorithmes itératifs avec Spark

– D’autres cas d’usage courants de Spark

– Les algorithmes itératifs en Spark

– Machine Learning avec Spark

16.Introduction à Spark Structured Streaming

– Introduction à Spark Streaming

– Créer des streaming DataFrames

– Transformer des DataFrames

– Exécuter des requêtes de streaming

17. Structured Streaming avec Kafka

– Introduction

– Recevoir des messages Kafka

– Envoyer des messages Kafka

18. Agrégation et jointures sur des Streaming dataframes

– Agrégation sur des streaming DataFrames

– Jointure sur des streaming DataFrames

19. Le traitement de messages avec Kafka

– Introduction à Kafka

– Passer à l’échelle avec Kafka

– L’architecture d’un cluster Kafka

[printfriendly current="yes"]

Référence : BIG00

Type de Stage : Pratique

Durée : 5 jours

Public concerné:

Développeurs et analystes.

Prérequis:

Bonnes connaissances en Scala
et/ou Python
Connaissances de base en lignes
de commande Linux
Connaissances de base en SQL