Projet Data Science - Le guide complet
4
 min
Projet data
 Publié le 
19/1/2021

Projet Data Science - Le guide complet

La Data Science est maintenant un domaine répandu dans les entreprises. Bien que ce domaine soit très tech, il est très différent du software engineering ou du développement web. Il est donc important d’en connaître les rouages pour pouvoir mener des projets à son terme. Nous vous donnerons donc les étapes clés ainsi que nos conseils pour gérer vos projets Data Science.

Comment évaluer les besoins de l’entreprise et les traduire en problématique Data ?


Avant de se lancer dans un projet Data, il convient surtout de déterminer les besoins de l’entreprise et de les traduire en problématique Data. Ce que l’on veut dire par là est qu’il faut apprendre à pouvoir définir les outils à utiliser, les analyses à mener et les livrables à produire. Une fois que ceci est fait, l’équipe pourra entrer dans le cœur du sujet. 

Alors plus facile à dire qu’à faire ? Comment évalue-t-on les besoins et surtout comment est-ce qu’on les traduit en problématique Data ? 

Comment définir le besoin ?

Cela vient plutôt du management en amont. Il est important de faire émerger des besoins précis qui peuvent être résolu grâce à la Data. Pour cela, vous pouvez tout d’abord effectuer des ateliers de Design Thinking par exemple qui ont pour objectif de faire ressortir des besoins.

Toutes les techniques de Mind Mapping par exemple sont très utiles pour voir les différentes problématiques qui se posent dans l’entreprise par exemple. Bien sûr, il en existe bien d’autres et si cela vous intéresse n’hésitez pas à aller consulter des blogs d’experts en la matière comme la French Future Academy. 

En tous cas, l’objectif est que les équipes métiers, au cœur du réacteur fasse ressortir un problème à résoudre qu’ils vont pouvoir exposer par la suite.

Traduire le besoin 


Une fois que le problème à résoudre est défini, il est temps que les équipes métiers et les équipes Data se réunissent et discutent. Les équipes métiers devront expliquer clairement leur besoin aux équipes Data qui vont, elles, s’occuper de le comprendre et de déterminer les technologies à mettre en place. Elles vont aussi déterminer la faisabilité du projet avant toute chose car il arrive très souvent que les projets Data se heurtent à d’autres problématiques annexes. Ces problématiques tournent d’ailleurs très souvent autour de l’infrastructure en place qu’il faut remanier. 

Quelles sont les étapes dans un projet Data Science ?


Un projet de Data Science passera toujours par 4 étapes : 

  • La collecte de la donnée : On va essayer d’extraire et réunir de la donnée pertinente au projet
  • L’exploration de la donnée : On va essayer de comprendre la donnée qu’on a à disposition
  • L’exploitation de la donnée : On va donner de la valeur à la donnée à disposition 
  • La mise en production : On va passer le projet à échelle 



Collecte de la donnée


Définition


La collecte de la donnée est une étape cruciale dans un projet de Data Science car sans données pertinentes, vous n’aurez pas de résultats pertinents, même avec les meilleurs algorithmes du monde. Cette phase est donc capitale et il faut y consacrer du temps. 


Où collecter la donnée ?


La source de données la plus évidente est la base de données. L’entreprise dispose toujours de bases de données SQL ou même simplement de feuilles excel à exploiter. Pour certaines entreprises plus avancées, elles disposent d’un Data Lake qui est l’endroit où on entrepose de la donnée brute. 

On peut aussi collecter de la donnée depuis le web pour agrémenter les bases de données existantes. N’hésitez pas à regarder notre article sur le web scraping si vous voulez avoir une meilleure idée du domaine. 

En général, la donnée dont vous aurez besoin se trouve dans plusieurs sources différentes. De ce fait, vous devrez effectuer des processus d’ETL (Extract Transform Load) pour extraire la donnée, la transformer et la charger dans une base de données qu’on appelle souvent un data warehouse et qui va vous permettre d’entamer vos analyses. 

Quels outils utiliser ?


Lorsque l’on fait de la collecte de données, on utilise souvent les outils : 

  • SQL pour les bases de données 
  • Python pour écrire des scripts permettant d’extraire la données 
  • Scrapy qui est une librairie en python permettant de faire du web scraping 
  • AWS et plus généralement les plateformes cloud qui vous permettent de gérer votre infrastructure.


Exploration de la donnée


Définition


Une fois que vous avez collecté la donnée, il est important de passer par une phase d’exploration de la donnée. La raison est simple, ce n’est pas parce que vous avez collecté la donnée que vous savez ce qu’il s’y trouve. Vous devez donc comprendre les différentes tendances, les grandes statistiques pour avoir une idée globale de votre jeu de données. 

Comment explorer la donnée ?


La donnée s’explore de plusieurs manières mais on distingue tout de même des fondamentaux à ne pas louper. D’abord vous devrez effectuer une étude statistique descriptive basique. Cela vous permet de voir les grandes tendances, les moyennes, la variance du jeu de données etc. Vous aurez une première idée de vos variables etc. 

Ensuite, vous devrez produire des graphiques, cela vous permettra d’avoir une compréhension plus granulaire de la donnée. C’est ce qu’on appelle aussi la Data Visualisation. 

Quels outils utiliser ?


Pour effectuer votre phase exploratoire, vous allez surtout utiliser Python et différentes librairies dont voici les noms : 

  • Numpy & Pandas pour la Data Manipulation
  • Matplotlib, Plotly et Bokeh pour ce qui est de la Data Visualisation 
  • Possiblement PySpark si vous devez gérer des données Big Data 


Exploitation de la donnée 


Définition



La phase d’exploitation est l’étape que les Data Scientist apprécient le plus car c’est celle où l’on va mettre en place l’intelligence artificielle. Il faudra donc créer un algorithme de Machine Learning souvent pour pouvoir donner de la valeur à la donnée. Il faudra donc définir les besoins et choisir le bon algorithme qui répond à la problématique. 


Est-ce que l’exploitation implique toujours du Machine Learning ?


La réponse est non. Très souvent dans les projets Data Science, on va utiliser le Machine Learning mais il n’est pas rare de devoir simplement créer un dashboard d’une étude statistique ou bien définir des KPIs à suivre etc. 

Simplement, il est important de garder en tête que l’objectif de la phase d’exploitation est de donner de la valeur à la donnée. 

Quels outils utiliser ?


Pour la partie exploitation, on restera sur des librairies et framework Python à connaître. Voici donc les principaux : 

  • Sklearn pour le Machine Learning 
  • TensorFlow, Spacy pour le Deep Learning et le NLP

Bien sûr, vous aurez d’autres outils mais en commençant par ceux-là, vous couvrirez déjà une bonne partie des besoins. 

Mise en production 


Définition



 


On l’appelle aussi Déploiement, l’objectif de la mise en production est de porter le projet à hauteur de l’organisation. Par exemple, on peut vouloir mettre un algorithme de Machine Learning en production pour qu’il puisse être utilisé par tous les utilisateurs de l’entreprise. Si vous êtes snapchat et que vous avez développé un nouveau filtre incroyable en Deep Learning, vous devrez le mettre en production pour qu’il soit utilisable par tous les utilisateurs de l’application. 

Cette fois, cela implique une dimension plus technique en Data qui est d’ailleurs gérée plutôt par des Data Engineers ou Machine Learning Engineers que des Data Scientists. 


Quels outils utiliser ?


On va cette fois aller sur des outils de standardisation d’environnements. On utilisera donc Python et des plateformes cloud :

  • MLflow pour standardisation la conception d’un algorithme de Machine Learning
  • AWS SageMaker pour gérer la mise en production des algorithmes 
  • Docker & Kubernetes pour la standardisation des environnements de production 
  • Flask pour créer des applications web simple utilisant le Machine Learning 


Nos conseils pour mener un projet Data à bien


Ne négligez pas le preprocessing et la collecte 


Préparer la donnée est clé dans la réussite d’un projet Data. Si la donnée n’est pas propre ou n’est pas pertinente, vous n’aurez pas de bons résultats. Passez donc du temps dans la phase de collecte à qualifier la donnée. 

Faites simple 


Les algorithmes de Machine Learning c’est bien mais il ne faut pas les complexifier à outrance au risque de faire capoter la phase de mise en production. En effet, plus un algorithme est complexe, plus il sera difficile de le mettre à échelle. Parfois, il vaut mieux accepter des résultats un peu moins bons mais exploitables. 

Itérez 


Ces 4 étapes d’un projet Data Science ne doivent pas être géré de manière linéaire ou en cascade. Essayez plutôt d’itérer plusieurs fois sur chacune des phases du projet. Par exemple, collectez un peu de données au départ pour l’exploiter et la mettre en production puis faites une repasse. De cette manière, les étapes vous paraîtront plus simples et vous verrez plus rapidement comment votre projet avance. 

Des résultats négatifs sont tout de même des résultats ! 


Ne soyez pas déçus si vous finissez par ne pas mettre votre projet en production. Il arrive souvent que les algorithmes de Machine Learning ne soient pas à la hauteur. Ce n’est pas grave, cela veut simplement dire que vous devrez attaquer le problème avec d’autres données. C’est est courant dans les projets de Data Science. 



Vous souhaitez vous former à la Data Science ? N’hésitez pas à regarder nos formations Data Scientist


Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Antoine Krajnc
Écrit par
Antoine Krajnc
 - 
Fondateur
Jedha

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes