Image de NordWood Themes

Analyse de données en Python
Pandas, Matplotlib, XML, JSON, NumPy, SciPy, iPython, MapReduce, Matrices, Séries

Objectifs

Concrètement à l'issue de cette formation analyse de données en Python vous serez en mesure de:

  • Maitriser les bases du langage Python

  • Connaitre les aspects avancés en Python

  • Savoir analyser des données en Python

  • Savoir faire une représentation graphique de données en Python

  • Acquérir des données externes en Python

  • Comprendre les performances et la  parallélisation

A qui s'adresse cette formation

Public :

Cette formation est destinée à toute personne qui souhaite utiliser Python pour développer des applications de calcul scientifique ou d’analyse de données.

 

Prérequis :

Afin de suivre ce cours il est nécessaire de connaître au moins un langage de programmation.

Contenu du cours

Les bases du langage Python

Les caractéristiques du langage Python
Pourquoi choisir Python pour l’analyse de données ?
Installation et configuration
Philosophie de Python (indentation, objet, etc.)
Les types de données
Appels de fonctions et méthodes
Structures de contrôles (boucle, test, exceptions)
Structures de données et séquences (tuple, liste, primitives, dict)
Les principales bibliothèques de Python (NumPy, Pandas, Matplotlib, Ipython, SciPy)

Atelier :

Installation et configuration de son environnement de développement
Un premier programme simple permettant de résumer la syntaxe de base des grands concepts dans une approche mnémonique

 

Aspects avancés en Python

Espace de noms, périmètre et fonctions locales
Manipuler les fonctions comme des objets
Les fonctions anonymes (lambda)
Syntaxe d’appels étendus (*args, **kwargs)

Introduction à l’Analyse de Données en Python

La manipulation de données par l’utilisation de la librairie Pandas
Introduction du concept de Dataframe comme structure de données central pour l’analyse de données
Comment interroger ces structures ? Comment ces structures sont indexées ?
Traitement de « données manquantes »
Fusion de dataframes
Manipulation des dates
Application de mesures statistiques variées sur les DataFrames
Bonne compréhension des problèmes d’échelle de mesure, de normalisation
Création de métriques d’analyse

Atelier :

Cet atelier permettra aux participants d’intégrer des données tabulaires et des séries temporelles, de les « nettoyer », les manipuler et d’y appliquer des analyses statistiques simples

 

La représentation graphique de données en Python

Introduction aux bases de la visualisation de données
Focalisation sur la génération de graphes grâce à la librairie Matplotlib : démonstration de l’application de graphes Matplotlib à la visualisation de problèmes concrets

Atelier :

Cet atelier permettra de poursuivre les travaux de l’atelier précédent en générant des visualisations graphique illustrant les analyses de données réalisées

 

L’acquisition de données externes en Python

Les formats de données structurées : CSV, flux XML et JSON
Lecture et écriture de fichiers
Manipulation des données issues de ces fichiers par des structures Python adaptées
Fonctions d‘accès et de download de données en ligne

Atelier :

Cet atelier permettra de réaliser un module de capture de données disponibles sur Internet
Application à la capture de séries financières (indices de marché et cours de bourse)

 

Analyses Statistiques en Python

Présentation des principales bibliothèques d’analyse de données Python : NumPy, SciPy, IPython (Jupyter)
Fonctions de manipulation et de calcul matriciel (Numpy)
Fonctions de Statistiques Descriptives (SciPy) : quantiles et des fonctions de répartition pour
différentes lois statistiques
Fonctions de comparaison de populations, mesures d’association, etc  (SciPy)
Fonctions de classification automatique (SciPy) : k-means

Atelier :

Cet atelier permettra aux participants d’appliquer leurs connaissances à la réalisation d’un « mini atelier » d’Analyse Technique pour la Finance des Marchés :
      - Collecte automatique de séries financières
      - Calcul d’indicateurs : d’indicateurs simples (moyennes mobiles) à des indicateurs avancés (tel que le RSI et les Bandes de Bollinger)
      - Visualisation des résultats

Performances et parallélisation

Les outils pour lire l’activité (Timeit, cProfile)
Paralléliser vos traitements avec le multiprocessing
Calcul distribué avec la librairie Celery
Les faiblesses du multithreading

Atelier :

Mise en œuvre de l’algorithme Map Reduce avec Celery

TechnoWide

3 rue du Golf

Parc Innolin

CS 60073

33701 MERIGNAC CEDEX

Bordeaux

  • LinkedIn Social Icon