Objectifs

-Découvrir l’écosystème Hadoop

– Connaître les différents éléments de l’écosystème Hadoop et leurs rôles respectifs

– Comprendre l’architecture des applications Hadoop et savoir quels
sont les apports et les cas d’usage des solutions Hadoop

Programme

– Rappels sur NoSQL

– Le théorème CAP

– Historique du projet hadoop

– Les fonctionnalités : stockage, outils d’extraction, de conversion,  ETL, analyse, …

– Exemples de cas d’utilisation sur des grands projets

– Les principaux composants : HDFS pour le stockage et YARN pour les calculs

– Les distributions et leurs caractéristiques : HortonWorks, Cloudera, MapR, GreenPlum, Apache, …

– Terminologie : NameNode, DataNode, ResourceManager

– Rôle et interactions des différents composants

– Présentation des outils d’infrastructure (ambari, avro, zookeeper),
de gestion des données (pig, oozie, falcon, pentaho, sqoop, flume),
d’interfaçage avec les applications GIS et de restitution et requêtage :
Webhdfs, Hive, Hawq, Impala, Drill, Stinger, Tajo, Mahout, Lucene,
ElasticSearch, Kibana

– Les architectures connexes : Spark, Cassandra

– Démonstrations sur une architecture Hadoop multi-noeuds.

– Mise à disposition d’un environnement pour des exemples de calcul

– Recherches dans des données complexes non st

– Cas d’usage de Hadoop

– Infrastructures hyperconvergées avec Hadoop

– Calculs distribués sur des clusters Had

Référence :  BIG005

Type de Stage : Séminaire

Durée : 1 jour

Public concerné:


Chefs de projets, développeurs et
toute personne souhaitant
comprendre les mécanismes
Hadoop et le rôle de chaque
composant

Prérequis:

Connaissances générales des
systèmes d’information