Certificat "Concepteur Développeur en Science des données"

Certificat "Concepteur Développeur en Science des données"

Contexte

La Science des Données (ou Data Science en anglais) est devenue au cours de ces dernières années indispensable pour permettre aux entreprises d’innover et de se différencier et l’Intelligence Artificielle un outil de performance indispensable. Les directions métiers tous secteurs confondus utilisent déjà ces dernières, et cette tendance est amenée à augmenter exponentiellement au cours des prochaines années. L’objectif visé en créant le titre "Concepteur Développeur en Science des Données" est de former des spécialistes en gestion des données ayant la capacité d’élaborer une vision globale stratégique de l'utilisation des données dans une organisation, et de créer, mener et exécuter  techniquement des projets Data.

En effet, la certification valide que le candidat est à même d'exercer le métier de “Concepteur - Développeur en Science des Données”, à la fois technique et transverse. L'ensemble des compétences contenues dans le référentiel lui permet de créer des infrastructures de gestion de données robustes, de les alimenter, de développer des algorithmes d’intelligence artificielle, de les mettre en production mais aussi de collaborer avec les différentes équipes-métiers d'une organisation pour évaluer et d’adapter les besoins data. Il lui est donc possible de mener des projets de gestion de données de bout-en-bout. Le candidat certifié aura ainsi acquis l’ensemble des compétences requises pour exercer et être opérationnel rapidement.

Métier

Le “Concepteur - Développeur en Science des Données” est à la fois :

  • un technicien : il peut créer des infrastructures de gestion de données robustes, développe des algorithmes d’intelligence artificielle et de les mettre en production.
  • un manager : il collabore avec des équipes-métiers, d’évaluer et d’adapter les besoins data en fonctions de l’organisation et de son coeur de métier et donc de mener des projets de gestion de données de bout-en-bout.  

Il est partout :

  • Des cadres d'exercices divers : salarié en entreprises spécialisées, pour des organisation utilisatrices d’IA, en indépendant, membre d'une équipe data, référent data d'une structure, manager, chef d'entreprise, formateur
  • Son travail d'analyse se retrouve à la base de l’élaboration de stratégies générales : il est indispensable dans la majorité des secteurs professionnels : ce (marketing, vente), la santé, la finance, la recherche & développement, l’administration, la logistique, la sécurité, etc.
  • Des fonctions techniques comme managériales différentes dans le domaine de la donnée.
  • Le détail des postes à droite !

Ses activités professionnelles : le cycle de vie d'un projet Data

Les compétences acquises

Bloc n°1 - Construction d'une infrastructure de gestion de données permettant leur collecte et leur mise à disposition pour les équipes métiers

  1. Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données (Data Warehouse en anglais), pour répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation
  2. Adapter cette infrastructure à des besoins de gestion de données massives (Big Data en anglais) en intégrant la dimension de stockage et de calcul distribué via l'utilisation d'outils comme Spark ou AWS Redshift.
  3. Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) afin d'alimenter le Data Lake.
  4. Nettoyer et organiser les données dans le Data Warehouse en anglais en designant des processus d'extraction, transformation et chargements (ETL en anglais) pour les rendre disponible aux autres equipes métiers

L'évaluation : une étude de cas sur des données réelles organisé sur 3 jours. Le candidat devra rendre un livrable de code évalué selon les items de la grille "Construction et alimentation d'une infrastructure data".

Bloc n°2 - Analyse de données exploratoire, descriptive et inférentielle

  1. Explorer, organiser et nettoyer (remplacer les valeurs manquantes, aberrantes ou textuelles) des bases de données pour pouvoir les analyser statistiquement
  2. Effectuer des analyses univariées et multivariées sur des bases de données structurées dans le but de préciser des relations entre plusieurs variables ou d'établir des liens statistiques entre elles.
  3. Optimiser les analyses statistiques pour des Big Data grâce au traitement parallélisé via l'utilisation d'outils comme Spark dans le but d'accélérer le temps de calcul d'un ordinateur
  4. Visualiser et représenter graphiquement le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des outil comme Tableau pour pouvoir synthétiser les résultats à un public profane, faciliter la prise de décisions et appuyer leur déclinaison opérationnelle.

L'évaluation : 2 études de cas sur des données réelles organisés sur 9 jours. Le candidat devra rendre deux livrables de code évalués selon les items de la grille "Exploration, organisation, analyse et présentation de données".

Bloc n°3 - Analyse prédictive par l'intelligence artificielle

  1. Traiter des données structurées ou non structurées pour les rendre analysables par un algorithme d'apprentissage automatique (Machine Learning en anglais) ou automatique profond (Deep Learning en anglais).
  2. Elaborer un algorithme d'apprentissage automatique non-supervisé afin d'organiser une base de données en différents groupes homogènes ou de réduire la dimension d'une base de données.
  3. Concevoir des algorithmes d'apprentissage automatique profond (Deep Learning en anglais) afin de créer ou modifier de la donnée non-structurée.
  4. Effectuer des analyses prédictives sur un jeu de données structurées ou non-structurées grâce à des algorithmes d'apprentissage automatique (Machine Learning en anglais) ou automatique profond (Deep Learning en anglais) supervisés adaptés
  5. Evaluer la performance prédictive des algorithmes d'apprentissage automatique et automatique profond en déterminant l'influence des différentes variables pour pouvoir l'améliorer et démontrer leur utilité par rapport aux processus déjà établis dans l'organisation aux directions métiers

L'évaluation : 3 études de cas pratiques, sur des big data, tirés de cas réels issus d'entreprise françaises. à présenter à l'oral. Ils sont traités sur une période de 9 jours. 1) Elaborer des recommandations sur un jeu de données pour une équipe Marketing / 2) Classification de données / 3) Regroupement de données. Le candidat devra rendre deux livrables de code évalués selon les items de la grille "Conception, industrialisation d'algorithmes de statistiques prédictives et mise en situation"".

Bloc n°4 - Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision

  1. Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker pour faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes
  2. Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker pour donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées
  3. Déployer une application web avec des algorithmes de statistiques prédictives intégrés (Machine Learning et Deep Learning) grâce à des outils comme AWS sagemaker afin de les rendre utilisables par l'ensemble des équipes métiers

L'évaluation : 1 étude de cas pratique sur le déploiement d'un algorithme d'apprentissage automatique, sur une période de 6 jours. Le candidat devra rendre un livrable de code évalué suivant les item de la grille "Industrialisation des algorithmes d'apprentissage automatique".

Bloc n°5 - Gestion et pilotage de projets donnée

  1. Comprendre les besoins propres à chaque projet data en traduisant les enjeux métiers en problématiques mathématiques/data afin de répondre aux objectifs de l'organisation.
  2. Suivre un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords permettant le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnel de ses résultats.
  3. Vulgariser le process d'extraction d'informations à partir de l'analyse de données pour les transmettre aux directions métier et soutenir la mise en place d'une stratégie et d'actions futures.
  4. Assurer une veille technologique constante afin d'être toujours au fait des dernières avancées et outils disponibles en sciences des données, statistiques et programmation Python.
  5. Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, tout en accompagnant d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci.

L'évaluation : soutenance orale finale de 15-20 mn devant le jury de Jedha, durant laquelle le candidat présente un projet individuel data complet pendant 10 mn. Ce dernier est suivi de questions et d'un entretien professionnel de 5 à 10 min. Cette soutenance aura lieu en présentiel (possibilité de l'effectuer en distanciel si les conditions l'imposent).

Insertion professionnelle

Le taux d’insertion général (promotions 2019 et 2020) des certifiés « Concepteur Développeur en Science des Données » à 6 mois sur le marché de l’emploi est de 75%, dont 59% dans le métier visé. Actuellement, pour l’ensemble des promotions ayant terminé il y a plus de 6mois, 83% des répondants se sont insérés avec succès sur le marché du travail, dont 65% dans les fonctions visées. La rémunération obtenue est en moyenne de 44 500€ bruts / an ou équivalent).

  • La majorité des Alumni de la formation « Fullstack » de Jedha (+73%) ont déclaré que la formation avait déjà eu un impact direct sur leur carrière professionnelle ; 18% d’entre eux déclarant que cet impact fut plus important que ce qu’ils avaient escompté
  • 30 % de ces certifiés ont déclaré que la formation et la certification "Concepteur Développeur en Science des Données" leur avait permis une réorientation complète de carrière
  • La grande majorité des apprenants (70 %) souhaite trouver un emploi dans la data, ce qui confirme un objectif majeur d’insertion professionnelle.
  • D'autres objectifs sont également cités : se lancer en Freelance (17,5 %), créer une entreprise (12,3 %), monter en interne dans l'organisation où l'apprenant exerce actuellement (10,5 %)


Nos apprenants : qui sont-ils?

Nos apprenants viennent de secteurs, ont des niveau d'études et des situation très divers en début de formation


  • La grande majorité des apprenants sont déjà titulaires d’un diplôme de niveau bac + 5 (74 %). Parmi les autres, 11,5 % sont docteurs (Bac + 8) et 14,5 % viennent d'une formation Bac + 3 ou inférieure. Quelques uns sont même rentrés juste après leur bac !
  • En début de formation, la majorité des apprenants sont en recherche d’emploi (40,5 %) et sont salariés (39 %). Les 20 % restants sont étudiants, auto-entrepreneurs et entrepreneurs. 
  • La majorité des apprenants ont déclaré avoir déjà travaillé dans l’IT ou dans le domaine des nouvelles technologies au début de leur formation(respectivement 27,9 % et 14,7 %). Le marketing et la vente est également un secteur prépondérant duquel viennent les futurs certifiés " Concepteur Développeur en Science des Données ". Les 40 % restants viennent cependant de domaines de plus en plus divers, déjà très ouverts à la pratique de la Science des Données, mais dont les besoins sont toujours en croissance: la finance, l’administration, la recherche, la santé et la logistique notamment.).