Certificat "Concepteur Développeur en Science des données" | Certificat Data Scientist

Certificat "Concepteur Développeur en Science des données" | Certificat Data Scientist

Contexte

La Science des Données (ou Data Science en anglais) est devenue au cours de ces dernières années un élément indispensable pour permettre aux entreprises d’innover et de se différencier et L’Intelligence Artificielle un outil de performance indispensable. Les directions métiers tous secteurs confondus utilisent déjà ces dernières, et cette tendance est amenée à augmenter exponentiellement au cours des prochaines années. L’objectif visé en créant le titre "Concepteur Développeur en Science des Données " est de former des spécialistes en science des données ayant la capacité d’avoir une vision globale des projets de Science de Données, capables de les concevoir et diriger dans leur ensemble comme d'intervenir à un point précis de ces derniers.

En effet, la certification confère au candidat les compétences pour exercer le métier de “Concepteur - Développeur en Science des Données”, à la fois technique et transverse. L'ensemble de ces compétences, décrites dans le référentiel, lui permet de créer des infrastructures de gestion de données robustes et adaptées, de les alimenter, de développer des algorithmes d’intelligence artificielle, de les mettre en production mais aussi de collaborer avec les différentes équipes-métiers métier d'une organisation pour évaluer et adapter les besoins data. Il lui est donc possible de diriger des projets de gestion de données de bout-en-bout, d'en rendre compte, d'être force de proposition et de les adapter aux besoins de son environnement professionnel.

Le candidat certifié aura acquis l’ensemble des compétences requises pour exercer et être opérationnel rapidement.

Métier

Le “Concepteur - Développeur en Science des Données” est à la fois :

  • un technicien : il peut créer des infrastructures de gestion de données robustes, développe des algorithmes d’intelligence artificielle et de les mettre en production.
  • un manager : il collabore avec des équipes-métiers, d’évaluer et d’adapter les besoins data en fonctions de l’organisation et de son coeur de métier et donc de mener des projets de gestion de données de bout-en-bout.  

Il est partout :

  • Des cadres d'exercices divers : salarié en entreprises spécialisées, pour des organisation utilisatrices d’IA, en indépendant, membre d'une équipe data, référent data d'une structure, manager, chef d'entreprise, formateur
  • Son travail d'analyse se retrouve à la base de l’élaboration de stratégies générales : il est indispensable dans la majorité des secteurs professionnels : ce (marketing, vente), la santé, la finance, la recherche & développement, l’administration, la logistique, la sécurité, etc.
  • Des fonctions techniques comme managériales différentes dans le domaine de la donnée.
  • Le détail des postes à droite !

Ses activités professionnelles : le cycle de vie d'un projet Data

Les compétences acquises

Bloc n°1 - Construction et alimentation d'une infrastructure de gestion de données

  1. Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données (Data Warehouse en anglais), pour répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation
  2. Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives (Big Data en anglais)
  3. Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures.
  4. Nettoyer et organiser les données dans l'entrepôt de données (Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers.

L'évaluation : Une étude de cas sur des données réelles
Thème d'évaluation : Construction d'une infrastructure Cloud accueillant des données Big Data (collecte de données web, intégration des données dans un Data Lake, nettoyage et chargement des données dans une base de données type AWS Redshift par traitement parallélisé si nécessaire via la construction d'un processus ETL).

Bloc n°2 - Analyse de données exploratoire, descriptive et inférentielle des données

  1. Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée.
  2. Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles.
  3. Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data)
  4. Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles.

L'évaluation : Deux études de cas sur des données réelles
Thème d'évaluation :
- Gestion de valeurs manquantes et aberrantes d'une base de données non-massives puis analyse pour déterminer et
présenter des tendances par le biais de graphiques.
- Analyse d'une base de données massives déstructurées (Utilisation de Spark) adaptée à une problématique définie.

Bloc n°3 - Analyse prédictive de données structurées par l'intelligence artificielle

  1. Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais)
  2. Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes
  3. Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de permettre leur visualisation
  4. Évaluer la performance prédictive des algorithmes d'apprentissage automatique en
    déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son
    utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation.

L'évaluation : trois études de cas pratiques tirées de cas réels
Thème d'évaluation :
- Optimisation des processus marketing de qualification de prospect par le biais d'algorithmes d'apprentissage supervisés
- Optimisation d'algorithmes d'apprentissage automatique supervisé sur des bases de données déséquilibrées
- Localisation de zones de densité géographique par l'élaboration d'algorithmes d'apprentissage automatique non-supervisé

Bloc n°4 - Analyse prédictive de données non-structurées par l'intelligence artificielle

  1. Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais)
  2. Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières
  3. Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs
  4. Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle
  5. Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation

L'évaluation : une étude de cas pratique sur des données non-structurées
Thème d'évaluation : Analyse de sentiment, par l'élaboration d'un algorithme permettant de déterminer le sentiment d'un utilisateur à l'égard d'un produit (avec possibilité de créer de la nouvelle données pour agrémenter la base).

Bloc n°5 - Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision

  1. Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes
  2. Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées
  3. Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leurs processus de décision

L'évaluation : étude de cas pratique sur le déploiement d'un algorithme d'apprentissage automatique
Thème d'évaluation : Tableau de bord web (dashboard), construction et mise en production d'une application web d'intelligence artificielle

Bloc n°6 - Direction de projets de gestion de données

  1. Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation
  2. Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place
  3. Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation
  4. Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats
  5. Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures.
  6. Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci

L'évaluation : projet data conçu de A à Z.
Thème d'évaluation : libre. Les apprenants peuvent préparer le projet data de leur choix. Celui-ci peut être personnel, développé par le candidat dans le cadre de son activité professionnelle, ou défini par une entreprise partenaire.

Insertion professionnelle

Le taux d’insertion général (promotions 2019 et 2020) des titulaires « Concepteur Développeur en Science des Données » sur le marché de l’emploi :

80%, dont 65% dans le métier visé à 6 mois de la diplomation

89%, dont 84% dans le métier visé à 1 an de la diplomation

La rémunération d'entrée dans le métier visée est en moyenne de 43 200€ bruts / an ou équivalent.

  • La majorité des titulaires "Concepteur Développeur en science des données" de Jedha (77%) ont déclaré que la formation avait déjà eu un impact direct sur leur carrière professionnelle ; 19% d’entre eux déclarant que cet impact fut plus important que ce qu’ils avaient escompté
  • 43 % de ces titulaires ont déclaré que la formation et la certification "Concepteur Développeur en Science des Données" leur avait permis une réorientation complète de carrière
  • La majorité des apprenants (63 %) commence la formation avec pour objectif de trouver un emploi dans la data.
  • D'autres objectifs sont également cités : se lancer en Freelance (14 %), créer une entreprise (8 %), monter en interne dans l'organisation où l'apprenant exerce actuellement (8 %)


Nos apprenants : qui sont-ils?

Nos apprenants viennent de secteurs, ont des niveau d'études et des situation très divers en début de formation


  • La grande majorité des apprenants sont déjà titulaires d’un diplôme de niveau Master (Bac + 4 à 6 - 75 %). Parmi les autres, 12 % sont docteurs (Bac + 8) et 12 % viennent d'une formation Bac + 3 ou inférieure
  • En début de formation, la majorité des apprenants sont en recherche d’emploi (39 %) ou déjà salariés (39 %). Les 20 % restants sont étudiants, auto-entrepreneurs et entrepreneurs. 
  • La majorité des apprenants ont déclaré avoir déjà travaillé dans l’IT ou dans le domaine des nouvelles technologies au début de leur formation(respectivement 30 % et 13 %). Le marketing et la vente est également un secteur prépondérant duquel viennent les futurs certifiés " Concepteur Développeur en Science des Données " (18 %). Les 40 % d'apprenants restants viennent cependant de domaines de plus en plus divers, déjà très ouverts à la pratique de la Science des Données, mais dont les besoins sont toujours en croissance: la finance, l’administration, la recherche, la santé et la logistique notamment.).