Objectifs

– Ecrire des données sur HDFS et dans des BDD NoSQL avec des jobs
Talend
-Réaliser des jobs de transformation
-Migration de bases de données relationnelles dans Hadoop
-Adopter des bonnes pratiques et concevoir des systèmes
d’informations

Programme

-Problématique du Big Data
-L’écosystème Hadoop
-Données non structurées et bases de
données NoSQL.

Travaux pratiques
Installation/configuration de TOS for Big Data et d’un cluster Hadoop

-Définition des métadonnées de connexion du cluster Hadoop.
-Connexion à une base de MongoDB,
Neo4j, Cassandra ou Hbase et export de données.
-Intégration de données avec un cluster Hadoop.

Travaux pratiques
Lire des tweets et les stocker sous forme de fichiers dans HDFS

– Importer, exporter, mettre à jour des données entre systèmes RDBMS
et HDFS avec Scoop.

– Importer/exporter partiellement, de façon incrémentale de tables.

– Importer/Exporter une base SQL depuis et vers HDFS.

– Les formats de stockage dans le Big Data
Travaux pratiques
Réaliser une migration de tables relationnelles sur HDFS et
réciproquement.

– Présentation de la brique PIG et de son langage PigLatin.

– Principaux composants Pig de Talend, conception de flux Pig.
Travaux pratiques
Développement de routines UDF

-Concevoir un stockage efficient dans HADOOP.

– Datalake et Datawarehouse

– HADOOP et le Plan de Retour d’Activité (PRA) en cas d’incident majeur.

– Automatiser ses workflows.

– Métadonnées de connexion et de schéma Hive.

– Le langage HiveQL.

– Conception de flux Hive, exécution de requêtes.
Travaux pratiques
Mettre en œuvre les composants ELT de Hive.

Référence :  BIG014

Type de Stage : Pratique

Durée : 2 jours

Public concerné:

Gestionnaires de données,
architectes, consultants en
informatique décisionnelle

Prérequis:

Expérience dans l’utilisation de
l’outil Talend Open Studio