-Découvrir les concepts et les enjeux liés à Hadoop
-Comprendre le fonctionnement de la plateforme et de ses composants
-Installer et gérer la plateforme
-Optimiser la plateforme
-Présentation générale d’Hadoop
-Exemples d’utilisations d’Hadoop
-Principales Distributions d’Hadoop
-Planification
-Approche conceptuelle d’Hadoop
-HDFS : NameNode / DataNode
-Paradigme MapReduce et YARN
-Les technologies émergentes
-Définir l’architecture
-Installation d’Hadoop / HDFS
– Installation des principaux composants : Hive, Pig, etc.
Travaux pratiques
Mise en œuvre : installation d’Hadoop et de quelques composants
-Étude des fichiers de configuration
– Modes de configurations : ligne de
commandes, API Rest, serveur http
intégré, APIS natives
-Configuration des services : HDFS,
YARN, Logs, etc.
– Configuration des droits d’accès
Travaux pratiques
Configurer l’environnement
-Affecter les quotas
-Gérer les planificateurs
-Gestion des démons Hadoop
– Ajout/Suppression des nœuds
– Gestion des données dans HD
-Gestion des tâches MapReduce
-Gestion des nœuds de calcul
-Import de données externes (fichiers,
bases de données relationnelles) vers HDFS.
-Manipulation des fichiers HDFS.
-Les formats de fichiers
(SequenceFile, ORC, Parquet…), leurs usages et leurs relations avec les
performances.
-Le stockage sous forme de base de
données (structurée ou non) : NoSQL Hbase, SQL avec Impala, Hive, Hive LLAP…
Travaux pratiques
Importer des données externes, importer des données des bases de
données relationnelles.
-Autorisations administration, et sécurité :authentification, autorisations, audit, protection des données.
-Les composants impliqués dans la sécurité : Ranger, Knox, Kerberos, KMS…
-Name Node high availability (MRV2/YARN).
Travaux pratiques
Configuration d’un service-level authentication (SLA) et d’un Access
Control List (ACL
-Monitoring (Ambari,Cloudera,Manager, Ganglia…).
-Les types de benchmark (DFSIO,
Teragen/TeraSort/TeraValidate) et les résultats disponibles en ligne (TPCx-HS, …)
-Comparatif entre MapReduce et TEZ.
-Exemples d’optimisation et d’outils d’aide àl’optimisation (CDP advisor…).
-Choix de la taille des blocs.
-Autres options de tuning (utilisation de la compression, configuration mémoire…).
Travaux pratiques
Paramétrer, lancer et analyser des Bench, Appréhender les commandes au fil de l’eau de monitoring et d’optimisation de cluster.
Référence : BIG015
Type de Stage : Pratique
Durée : 4 jours
Administrateurs de cluster
Hadoop, développeurs.
Bonnes connaissances de
l’administration Linux.