– Découvrir le monde de la Data Science et les grandes familles de problèmes
– Savoir modéliser un problème de Data Science
– Créer ses premières variables
– Constituer sa boite à outils de data scien
– Qu’est-ce-que le Big Data ?
– L’écosystème technologique du Big Data
– Le vocabulaire d’un problème de Data Science
– De l’analyse statistique au machine learning
Overview des possibilités du machine learning
Travaux pratiques
Cas d’usages de la data science dans une chaîne de valeur métier
– Input / ouput d’un problème de machine learning
– Mise en pratique « OCR »
– Apprentissage supervisé
– Apprentissage non supervisé
– Classification / régression
– Quelques rappels : fonction hypothèse, fonction convexe, optimisation
– La construction de la fonction de coût
Méthode de minimisation : la descente de gradient
Travaux pratiques
Mise en œuvre de la régression linéraire
– Frontière de décision
– La construction d’une fonction de coût convexe pour la classification
– Introduction aux outils
Introduction à python, pandas et scikit-learn
Travaux pratiques
Prédire les survivants du Titanic :
Exposé du problème
Première manipulation en python
– Cross-validation
– Les métriques d’évaluation : précision, rappel, ROC, MAPE, etc.
Travaux pratiques
Evaluer un modèle
– Overfitting ou sur-apprentissage
– Biais vs variance
– La régularisation : régression Ridge et Lasso
– Les types de données : catégorielles, continues, ordonnées, temporelles
– Détection des outliers statistiques, des valeurs aberrantes
Traitement des valeurs manquantes
Travaux pratiques
Remplissage des valeurs manquantes
– Stratégies pour les variables non continues
– Détecter et créer des variables discriminantes
Travaux pratiques
Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle
– La visualisation pour comprendre les données : histogramme, scatter plot, etc.
– La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
– Le modèle de base : l’arbre de décision, ses avantages et ses
limites
– Présentation des différentes stratégies ensemblistes : bagging,
boosting, etc.
Travaux pratiques
Utilisation d’une méthode ensembliste sur la base du précédent
modèle.
Les grandes classes d’algorithmes non supervisés :
clustering, PCA, etc.
Travaux pratiques
Détection d’anomalies dans les prises de paris
Référence : BIG006
Type de Stage : Pratique
Durée : 2 jours
Directeurs/responsables des SI,
responsables de projets en lien
avec l’analyse de données,
responsables d’études statistiques.
Des connaissances de base en
statistiques.