Objectifs

– Comprendre les enjeux du scraping

– Connaître les différentes méthodes utilisées pour récupérer, traiter et stocker les données

– Maîtriser les technologies existantes pour choisir la solution adaptée à votre besoin d’acquisition

Programme

-Les caractéristiques du langage Python

– Types de bases

– Les instructions de bases

-Les fonctions

Travaux pratiques
Série d’exercices pour rappeler la syntaxe de Python

– Les dataFrames

– Interrogation et indexation des structures

– Traitement des données manquantes

– Fusion de DataFrames

– Manipulation des dates

– Application de mesures statistiques sur les DataFrames

– Problèmes d’échelle de mesure, de normalisation

– Création de métriques d’analyse
Travaux pratiques
Utilisation de Pandas

– Définition du scraping

– Exemples de projets réalisés grâce au scraping

– L’architecture d’Internet

– Impact de HTTP et HTML sur les scrapers

– Balises et attributs HTML

– Identification des éléments via « class » ou un « id »

– Les fichiers CSV, XML et JSON

– Lecture et écriture de fichiers

– Exploitation des données de fichiers de différentes sources

– Fonctions d’accès et de chargement de données en blocs de lignes

– CSS Select
Travaux pratiques
Utilisation de BeautifulSoup

-Un scraper simple (requêtes GET, pages séquencées)

-Identifier la stratégie à adopter pour naviguer sur le site
-Coder le scraper
-Un scraper complexe : envoyer des données à un site Internet
pour obtenir des résultats plus complexes
-Requête POST et requête GET ?
-Parcourir un site pour trouver les données
-Identifier la stratégie à adopter
Travaux pratiques
Coder un scraper

Référence :  BIG010

Type de Stage : Pratique

Durée : 3 jours

Public concerné:

Développeurs, intégrateurs, chefs
de projets, consultants BI

Prérequis:

Bonnes connaissances en Python