
– Comprendre les enjeux du scraping
– Connaître les différentes méthodes utilisées pour récupérer, traiter et stocker les données
– Maîtriser les technologies existantes pour choisir la solution adaptée à votre besoin d’acquisition
-Les caractéristiques du langage Python
– Types de bases
– Les instructions de bases
-Les fonctions
Travaux pratiques
Série d’exercices pour rappeler la syntaxe de Python
– Les dataFrames
– Interrogation et indexation des structures
– Traitement des données manquantes
– Fusion de DataFrames
– Manipulation des dates
– Application de mesures statistiques sur les DataFrames
– Problèmes d’échelle de mesure, de normalisation
– Création de métriques d’analyse
Travaux pratiques
Utilisation de Pandas
– Définition du scraping
– Exemples de projets réalisés grâce au scraping
– L’architecture d’Internet
– Impact de HTTP et HTML sur les scrapers
– Balises et attributs HTML
– Identification des éléments via « class » ou un « id »
– Les fichiers CSV, XML et JSON
– Lecture et écriture de fichiers
– Exploitation des données de fichiers de différentes sources
– Fonctions d’accès et de chargement de données en blocs de lignes
– CSS Select
Travaux pratiques
Utilisation de BeautifulSoup
-Un scraper simple (requêtes GET, pages séquencées)
-Identifier la stratégie à adopter pour naviguer sur le site
-Coder le scraper
-Un scraper complexe : envoyer des données à un site Internet
pour obtenir des résultats plus complexes
-Requête POST et requête GET ?
-Parcourir un site pour trouver les données
-Identifier la stratégie à adopter
Travaux pratiques
Coder un scraper
Référence : BIG010
Type de Stage : Pratique
Durée : 3 jours
Développeurs, intégrateurs, chefs
de projets, consultants BI
Bonnes connaissances en Python