Objectifs

– Découvrir le monde de la Data Science et les grandes familles de problèmes

– Savoir modéliser un problème de Data Science

– Créer ses premières variables

– Constituer sa boite à outils de data scien

Programme

– Qu’est-ce-que le Big Data ?

– L’écosystème technologique du Big Data

– Le vocabulaire d’un problème de Data Science

– De l’analyse statistique au machine learning
Overview des possibilités du machine learning
Travaux pratiques
Cas d’usages de la data science dans une chaîne de valeur métier

– Input / ouput d’un problème de machine learning

– Mise en pratique « OCR »

– Apprentissage supervisé

– Apprentissage non supervisé

– Classification / régression

– Quelques rappels : fonction hypothèse, fonction convexe, optimisation

– La construction de la fonction de coût
Méthode de minimisation : la descente de gradient
Travaux pratiques
Mise en œuvre de la régression linéraire

– Frontière de décision

– La construction d’une fonction de coût convexe pour la classification

 

– Introduction aux outils
Introduction à python, pandas et scikit-learn
Travaux pratiques
Prédire les survivants du Titanic :
Exposé du problème
Première manipulation en python

– Cross-validation

– Les métriques d’évaluation : précision, rappel, ROC, MAPE, etc.
Travaux pratiques
Evaluer un modèle

– Overfitting ou sur-apprentissage

– Biais vs variance

– La régularisation : régression Ridge et Lasso

– Les types de données : catégorielles, continues, ordonnées, temporelles

– Détection des outliers statistiques, des valeurs aberrantes
Traitement des valeurs manquantes
Travaux pratiques
Remplissage des valeurs manquantes

– Stratégies pour les variables non continues

– Détecter et créer des variables discriminantes
Travaux pratiques
Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle

– La visualisation pour comprendre les données : histogramme, scatter plot, etc.

– La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.

– Le modèle de base : l’arbre de décision, ses avantages et ses
limites

– Présentation des différentes stratégies ensemblistes : bagging,
boosting, etc.
Travaux pratiques
Utilisation d’une méthode ensembliste sur la base du précédent
modèle.

Les grandes classes d’algorithmes non supervisés :
clustering, PCA, etc.

Travaux pratiques
Détection d’anomalies dans les prises de paris

Référence :  BIG006

Type de Stage : Pratique

Durée : 2 jours

Public concerné:

Directeurs/responsables des SI,
responsables de projets en lien
avec l’analyse de données,
responsables d’études statistiques.

Prérequis:

Des connaissances de base en
statistiques.