Big Data Analytics avec Python modélisation et représentation des données


Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel Python.
Objectifs pédagogiques
-Comprendre le principe de la modélisation statistique
-Choisir entre la régression et la classification en fonction du type de données
-Évaluer les performances prédictives d’un algorithme
-Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
Travaux pratiques
Développement/réalisation d’analyses sur le logiciel Python, avec les modules pandas, NumPy, SciPy, MatPlotLib, seaborn, scikit-learn et statsmodels
Course Features
- Lectures 34
- Quizzes 0
- Duration 50 heures
- Skill level Tous les niveaux
- Language Anglais
- Students 0
- Assessments Yes
-
Introduction à la modélisation
-
Procédures d'évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
- Test de représentativité des données d’apprentissage
- Mesures de performance des modèles prédictifs
- Matrice de confusion, de coût et la courbe ROC et AUC
- Travaux pratiques : Mise en place d’échantillonnage de jeux de donnes. Effectuer des tests d’évaluations sur plusieurs modèles fournis
-
Les algorithmes supervisés
-
Les algorithmes non supervisés
-
Analyse en composantes
- Analyse en composantes principales
- Analyse factorielle des correspondances
- Analyse des correspondances multiples
- Analyse factorielle pour données mixtes
- Classification hiérarchique sur composantes principales
- Travaux pratiques : Mise en œuvre de la diminution du nombre des variables et identification des facteurs sous-jacents des dimensions associées à une variabilité importante
-
Analyse de données textuelles
- Collecte et prétraitement des données textuelles
- Extraction d’entités primaires, d’entités nommées et résolution référentielle
- Étiquetage grammatical, analyse syntaxique, analyse sémantique
- Lemmatisation
- Représentation vectorielle des textes
- Travaux pratiques : Explorer le contenu d’une base de textes en utilisant l’analyse sémantique latente