Les applications de la Data à la finance
4
 min
Projet data
 Publié le 
20/4/2021

Les applications de la Data à la finance

Les métiers d’analystes financiers n’en finissent plus d’embaucher. Et pour cause, le monde de la finance est immergé par la donnée. Analyser la donnée est une chose, construire des modèles prédictifs à partir de celle-ci en est une autre. Retrouvons ici les applications de la data à la finance avec les projets finaux des élèves du programme Fullstack Data de Jedha !

Prédiction de probabilité de faillites d'entreprises

Projet réalisé par Olivier, Joseph et Emilien - Programme Fullstack

Avec un tissu économique très hétérogène, les partenaires d’entreprises ne connaissent pas forcément la santé financière des entreprises avec lesquelles elles interagissent. Joseph, Emilien et Olivier développent ici un outil permettant de connaître le risque auquel elles pourraient être exposées, un outil d’aide à la décision, à la fois pour les relations entre entreprises, mais aussi dans le but d’analyser un portefeuille de valeurs financières. 

Un problème auquel notre trio a été confronté d’entrée : un tel Dataset n’existe pas ! Un jeu de données a dû être créé “from scratch” grâce aux techniques de Web Scraping, permettant d'extraire de la donnée d’une page web. Une étape pour le moins importante, qui a pris non moins de 60% du temps de réalisation du projet ! 

5 millions de lignes, et 1300 variables sur les cours des entreprises, leurs états financiers, un Dataset pour le moins complet que notre trio a pu récupérer ! 

Pour bien estimer la défaillance d’une entreprise, Joseph, Emilien et Olivier on pu filtrer le nombre d’entreprise sur leurs tailles, également celles ayant beaucoup de valeurs manquantes dans leurs variables. Il ont pu ainsi réduire leur dataset à 38 000 lignes, et 100 colonnes (variables).

Après une étape de visualisation permettant de faire des premières analyses sur l’ancrage géographique des entreprises les plus en difficulté, des secteurs touchés, des tailles d’entreprises les plus impactées, place à la modélisation !


Pour cela, 3 étapes : 

  • Réaliser un premier ensemble de modèles pour commencer à prédire avec les données brutes
  • Lancer le modèle XGBoost avec les données retravaillées pour avoir des premières prédictions.
  • Faire tourner de l’auto-machine Learning, soit 40 modèles entraînés. C’est finalement le gradient boosting qui a obtenu le meilleur score de 40%. 

Dans ce projet, c’est finalement l’agrégation de plusieurs modèles qui fait performer l’ensemble de la meilleure manière ! Optimisation de la gestion des valeurs manquante, reporting automatique pour faire remonter les entreprises en risque de défaillance, notre trio ne manquent pas de pistes de développement futurs.


Prévision de stock et benchmarking 

Projet réalisé par Lory & Appoline - Programme Fullstack

Lory et Appoline nous présentent leur projet de prédiction de cours de bourse ! Un outil utile pour toute entreprise souhaitant se positionner par rapport à ses concurrents du même secteur. 


Les étapes de réalisation de ce projet :

  1. Webscraping : Yahoo finance, prise de données financières de 800 entreprises (CAC 40 NASDAQ etc)
  1. Data processing : cette étape consiste à nettoyer les données (valeurs manquantes, aberrantes) pour ensuite en calculer un certain nombre de variables, marges & croissance des revenus notamment. 
  1. Machine Learning Supervisé : régression logistique, decision tree classifier, random forest ce sont tout autant de modèles de Machine Learning que nos élèves ont pu lancer pour réaliser leur prédiction. Sur la croissance des revenus et des profits, ils ont pu obtenir un score sur l’ensemble des sociétés de 64% ! 

Ce que cela veut dire ? Dans 64% des cas, Lory & Appoline sont capables de nous dire s’il faut acheter ou vendre ses parts sans se tromper. 

  1. Déploiement d’une application en ligne : place au dashboard Power BI ! Un dashboard complet, dynamique, et automatisé qui nous donne la  croissance des prix des stocks en 2019, les différents marges sur les entreprises par rapport à son secteur. 
benchmarking data entreprise


  1. Pour aller plus loin dans cette prédiction, notre binôme a même créé un dashbaord de prédiction des stocks d'entreprises. Demo dans cette vidéo et aperçu sur l’image ci-dessous !



Prédiction des cours du Bitcoin grâce au Deep Learning

Projet réalisé par Karin - Programme Fullstack

Un projet qui pourrait en intéresser plus d’un ! Après une explication des plus pédagogiques de ce qu’est le Bitcoin, les notions de registres numériques et son protocole, Karin nous présente la fabuleuse augmentation du cours du Bitcoin depuis 2017 et ses transactions, partant de quasiment 0 en 2017, et atteignant près de 30 000 dollars le Bitcoin au 20 décembre 2020. 

De la même manière, les volumes d’échanges sont tout à fait corrélés avec le cours de la crypto-monnaie : toujours plus de particuliers sont arrivés sur les plateformes d’échanges.

2020 aura bien été l’année d’or pour le Bitcoin ! Dans l’idée de nous importer une importante plus value sur l’acquisition de Bitcoin, Karin va tenter de développer des modèles prédisant ce cours. 

Pour se faire, Karin a séparé son Dataset (le cours du bitcoin de 2017 à fin 2020) en un train set de 80% de la totalité des données, ce seront des données sur lesquelles le modèle va s’entraîner pour apprendre à prédire. Sur les 20% de données restantes, nous appliquerons ce modèle pour que l’on puisse tester sa performance, en comparant avec les données réelles. 

Le cours du Bitcoin est en fait une série temporelle : une suite de valeurs représentant l’évolution d’une quantité. Il va s’agir ici de comprendre le comportement passé pour prédire le comportement futur.

Karin a ainsi utilisé 3 types de modèles : la régression linéaire, la procédure Facebook Prophet, et le modèle LSTM (Deep Learning).  


Expliquons chacun de ces modèles :

  • Régression linéaire : une droite représentant une fonction voulant approximer toutes les données d’un Dataset, ici le cours du Bitcoin afin de prédire des points encore inconnus. 
  • Procédure Facebook Prophet : permettant de prédire les données à partir d’une série chronologique qui ont un effet saisonnier. Ce modèle marche notamment très bien avec beaucoup de données.

  • LSTM (long short term memory) : un algorithme de Deep Learning utilisant des réseaux de neurones récurrents. Ce dernier algorithme a pour lui 3 portes : une porte d' 'entrée, une porte d‘oubli’, une porte de ‘sortie’. Ces portes vont ensuite déterminer s’il est intéressant ou non de laisser entrer une nouvelle information dans le modèle, et celui-ci déterminera si cette dernière est intéressante. 


Après avoir lancé ces 3 modèles, Karin nous présente son graphique de prédiction ! 

prédiction cours bitcoin
En bleu, le réel cours du bitcoin, et en rouge les prédictions que sont modèles a faites !


  • Facebook Prophet a des performances très faibles : un modèle finalement assez peu adapté à notre problématiques, où nous n’avons que peu de données sur lesquelles travailler, et une série temporelle ne présentant pas de saisonnalité. Une performance de -118% s’y démarque !
  • La régression linéaire : une droite ne va clairement pas bien représenter des fluctuations comme celles du cours du Bitcoin. Une performance de 6%, voulant dire qu’il n’a bien prédit que 6% des données. 
  • Le LSTM obtient une belle performance de 94.78%, et sera retenu pour ce projet, à en voir le graphique interactif réalisé par Karin.

Création d’application prédisant journalièrement ou mensuellement ce même cours du Bitcoin, étude des tweets sur ces fluctuations à intégrer au modèle : ce sont tout autant de belles perspectives d’évolution pour ce projet. 

Vous aurez maintenant compris que les cas d'applications de l'IA à la musique sont aussi vastes que dans tout autre domaine d'activité ! Si vous êtes intéressé à l'idée de vous former à ces compétences, ou que vous souhaitez également réaliser un projet Data & Musique, n'hésitez pas à regarder nos formations en Data.

Si vous souhaitez acquérir les compétences en Data recherchées des recruteurs, n'hésitez pas à regarder les formations Data que Jedha Bootcamp propose.

Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Richard Gastard
Écrit par
Richard Gastard
 - 
Directeur des programmes @
Jedha Bootcamp

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes