Formation Data Engineering : de l'infrastructure au déploiement
2
 min
Communauté
 Publié le 
11/3/2020

Formation Data Engineering : de l'infrastructure au déploiement

Pour ses 2 ans en Décembre 2019, Jedha lance un 3e programme, le bootcamp Data Engineering. En Juillet 2020, ce programme devient le bootcamp Lead ! Après les fondamentaux en Data Science, le programme Fullstack permettant de se professionnaliser dans le secteur, ce 3e programme fera un focus sur la dernière étape d’un projet IA, l’industrialisation du modèle. L’idée derrière ce programme : Acquérir un double set de compétences ultra-recherché, les casquettes Data Scientist / Data Engineer & DevOps. Dans quel cadre s’inscrit ce dernier métier ? Quelles compétences à acquérir ?

Démontrer la faisabilité d’un projet, c’est très bien, le mettre en production c’est mieux.

Depuis 2 ans, le monde de la Data a énormément évolué. En comprenant toutes les problématiques liées à l’intelligence artificielle, les entreprises ont embauché (et embauchent encore aujourd’hui) énormément de Data Scientists compétents.

Leur mission ? Créer des modèles statistiques résolvant des problématiques, aidant à la décision business.

Prédire des phénomènes, classifier des éléments ou produits, segmenter leur marché, recommander des produits, analyser les avis clients pour délivrer de meilleurs services, il s’agit de tirer le meilleur parti de tout le volume de données généré par l’entreprise. Pour exemple EDF a embauché 150 Data Scientist d’une seule vague de recrutement !

Allant plus loin dans la compréhension du secteur, elles ont crée des Data Labs, structuré leurs départements techniques, embauché d’autant plus de Data Scientists pour réaliser des POCs (Proof Of Concept – preuve de faisabilité).

Next step du POC Data ? Mettre tout ces modèles à l’échelle de l’entreprise, afin d’en faire bénéficier l’ensemble des parties prenantes.

Des compétences requises qui ne restent pas maîtrisées par le Data Scientist.

D’importantes quantités de temps et d’argent peuvent être perdues si un projet n’aboutit pas, en d’autres termes, s’il n’est pas mis en production.

2 enjeux phares pour les entreprises : déployer après avoir crée une infrastructure Data solide

Que veut dire « déployer un projet Machine Learning » / le « mettre à échelle » / le « mettre en production » ?

Partons d’une analogie. Dans le secteur de la recherche, des spécialistes dédient leurs compétences à une étude, voulant prouver qu’un produit ou service peut bien fonctionner. Lorsque des résultats probants sont affichés, le laboratoire a alors bien validé la faisabilité de ce système, c’est une Proof of Concept (POC). Dans cette deuxième étape, interviennent d’autres métiers permettant le déploiement de ce service ou produit : on peut alors parler d’industrialisation.

Dans la Data Science, c’est pareil ! Une fois qu’un modèle crée par une équipe de Data Scientists a été validé et déclaré fonctionnel, vient l’étape de la mise en production. Il s’agira de le passer à échelle, afin qu’il soit exploitable non plus seulement pas l’équipe technique, mais aussi par l’ensemble des collaborateurs de l’entreprise. Maintenant, ces compétences relèvent d’un métier à part entière et dont les talents sont scrutés des entreprises : les métiers liés au Data Engineering.

A cela, s’ajoute une autre mission du Data Engineer : créer une Architecture Data.

Nous parlons ici d'une architecture qui puisse tenir le coup à mesure que ce volume de données augmente. Enormément de bases de données sont régies par une entreprise, et cette infrastructure générale se doit de rester robuste. Par exemple, en termes d’accessibilité de la donnée.

Finalement, qu’apporterait une double casquette Data Scientist / Data Engineer ? Démontrer la faisabilité d’un projet, c’est très bien, le mettre en production c’est mieux. Depuis la bonne gestion d’infrastructure de données jusqu’à la mise en production d’un modèle, en passant bien évidemment par la création de ce modèle (traiter la donnée, la modéliser, la visualiser, en présenter son analyse) , des sets de compétences complets sont visés par ce troisième bootcamp Data Engineering.

Quelles compétences exactement ?

Ce programme Data Engineering, dense de 2 semaines, vous fera monter en compétences sur la gestion d’infrastructures Data, et l’industrialisation, la mise en production. Le stack technique – les modules enseignés ?

Cloud Computing : vous travaillerez majoritairement sur AWS (Amazon), plateforme Cloud utilisée par la grande majorité des entreprises et permettant d’accéder à des serveurs puissants depuis son ordinateur personnel

Kinesis : traitez la donnée en temps réel, c’est le Streaming Data !

SageMaker : mettez en production des algorithmes de Machine Learning, vous serez familiarisé avec leur API vous permettant de faire des prédictions live !

– Gérez des bases de données SQL et NoSQL (No Only SQL)

Docker : un outil permettant de conteneuriser une application qui pourra être exécutée sur n’importe quel serveur !

ETL Processes avec Airflow (Airbnb) : un processus vital dans le traitement de la donnée. Le processus ETL (Extract-Transform-Load) est l’idée de prendre de la donnée d’un base de données A, la transformer, la traiter, puis l’uploader sur une seconde base B (un Data Warehouse).

Vous l’aurez compris, ces compétences différenciantes répondent aux nouvelles problématiques phares des entreprises. Dans le cadre de ce bootcamp Data Engineering, le cursus sera jalonné de 2 projets : le premier sur la création d’automatisation, un second phare, dédié à la mise en production. Le tout pour parfaire votre expertise. N’hésitez pas à postuler ou demander le syllabus pour en discuter avec notre équipe d’admissions !

Myriam Emilion
Écrit par
Myriam Emilion
 - 
Directrice Marketing @
Jedha Bootcamp

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Testez-vous avec notre quizz !

Des compétences toujours plus recherchées par les recruteurs : évaluer votre niveau actuel en programmation !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes
pattern purple

Découvrez JULIE

la plateforme d’apprentissage
en ligne de Jedha !
Aller sur JULIE
JULIE desktop interface
JULIE mobile interface