Top 7 des compétences pour devenir Data Scientist
4
 min
Monter en compétences
 Publié le 
24/2/2018

Top 7 des compétences pour devenir Data Scientist

Les Data Sciences font de plus en plus parler d’elles. Savoir les manier c’est s’assurer de se placer dans la catégorie des profils les plus recherchés par les recruteurs. Les mathématiques et la maîtrise des statistiques ne sont pas les seules connaissances à avoir, il vous faudra apprendre à coder en Python, lire des tableaux de visualisation et utiliser SQL. N’ayez pas peur, c’est beaucoup plus simple que cela n’y paraît, nous allons vous donner les clefs pour transformer les Data Sciences en un jeu d’enfant et identifier les compétences à développer pour devenir Data Scientist !

Savoir coder en R ou en Python

Savoir coder en Python apportera une belle plus-value à votre CV. Ce langage de programmation est devenu très populaire dans les Data Sciences depuis que beaucoup de développeurs de la Silicon Valley ont détourné sa fonction première pour l’utiliser dans l’analyse de données. Des librairies comme Numpy, Matplotlib et Pandas ont vu le jour et sont maintenant devenues incontournables dans l’utilisation de Python.

👉👉 Découvrez notre cours d'introduction à python sur Udemy.

Statistiques

Les statistiques sont les fondamentaux sur lesquels s’appuie le Machine Learning. Pour être Data Scientist, il n’y a pas besoin d’avoir un master en statistiques mais il faut connaître les bases. Cela implique de savoir comment construire une moyenne, une médiane, un écart type mais aussi comprendre comment construire un intervalle de confiance et interpréter une p-value.

Si vous souhaitez aller plus loin en mathématiques, vous pouvez aussi regarder des concepts plus fondamentaux comme l'algèbre linéaire et l'analyse avec surtout le concept de dérivée de fonctions qui sont fondamentales dans le fonctionne du Machine Learning par exemple.

Le Machine Learning

Le Machine Learning est la capacité d’un algorithme à utiliser des données existantes pour construire des modèles de prédictions sans avoir à coder chaque étape du calcul. Par exemple, le Machine Learning va permettre de prédire si un individu va acheter un produit en fonction de certaines caractéristiques intrinsèques à son comportement. Les compétences en Machine Learning s’apprennent naturellement avec l’apprentissage de Python (ou R si vous avez commencé avec ce langage).

Pouvoir construire ce genre de modèle est indispensable pour un Data Scientist car c'est ce que vous ferez au jour-le-jour dans votre travail. Votre objectif sera de construire des algorithmes qui vont pouvoir s'adapter aux problématiques de l'entreprise et surtout aux données dont elle dispose. En effet, le travail de construire des modèles n'est pas simplement d'appliquer un algorithme prédéfini. La plupart du temps, vous devrez passer beaucoup de temps à comprendre les données dont vous avez à disposition pour pouvoir créer un produit d'intelligence artificiel performant.

Gérer les bases de données en SQL

SQL est le langage qui vous permet de requêter des données depuis une base. En effet, au début d'un projet Data, vous aurez besoin de données à analyser. Très souvent elles sont stockées dans bases de données de type MySQL ou encore PostgreSQL. Ces bases "comprennent" toutes le SQL, c'est pourquoi c'est une compétence indispensable pour devenir Data Scientist.

De plus quand vous aurez des problématiques Big Data, vous utiliserez des Frameworks comme Spark ou Hadoop mais dont les fondements techniques et théoriques se basent sur la façon dont fonctionne le SQL, vous ne perdrez donc pas votre temps à apprendre cette compétence.

Data Mining

Le Data Mining est la capacité à explorer différentes sources de données et à identifier celles qui vont apporteront les bons renseignements pour résoudre votre problème. Dans les entreprises du numérique, beaucoup de ces données proviennent du web, c’est pour cela qu’avoir des bases en Web Analytics et savoir utiliser des outils comme Google Analytics ou Optimizely pour faire de l’A/B testing est un plus.

Cependant, le web n’est pas la seule source de données disponible; les entreprises peuvent aussi utiliser des bases de données CRM comme Salesforce. Le tout est d’être capable de comprendre ces données et savoir les extraire pour pouvoir les analyser. En voici d’ailleurs un article détaillé pour mieux comprendre le fonctionnement de Google Analytics, article recommandé par la communauté !

Data Cleaning

C’est l’une des phases les plus rébarbatives dans le travail d’un Data Scientist et pourtant la plus importante. Il ne sert à rien d’analyser des données qui sont corrompues. Nettoyer des données inclut de savoir gérer les données manquantes et s’assurer que toutes les données sont du bon type, par exemple, qu’un chiffre est bien considéré comme un chiffre et non comme du texte. Même s’il est possible de nettoyer ses données avec Python, Excel est aussi un très bon outil pour gérer cette phase.

Data Visualisation

Savoir analyser des données c’est bien mais il faut ensuite pouvoir communiquer les résultats à une audience. En Data Sciences, il est indispensable de faire parler les chiffres de manière visuelle afin de rendre votre travail accessible à un plus large public.

Tableau est l’outil le plus populaire dans ce domaine mais il en existe d’autres comme Chartio ou Periscope Data qui, à la différence de Tableau, incluent aussi la possibilité d’utiliser Python et SQL. Ces solutions sont cependant plutôt orientée "No Code". Si vous souhaitez avoir une plus grande flexiblité et que Python est votre meilleur ami, vous pouvez vous attaquer aux librairies de visualisation de Matplotlib ou Plotly qui vous permettent de faire des graphiques hyper personnalisés et interactifs !

Les Data Sciences évoluent très vite avec le Machine Learning, le Big Data et même la Blockchain. Pour se tenir à la page, n’hésitez pas à pratiquer vos connaissances sur de projets personnels. La plateforme Kaggle est devenue très populaire et vous aidera à acquérir beaucoup de compétences en Data Science. Si vous pensez que nous avons oublié des compétences, n’hésitez pas à les partager en commentaire!

Vous souhaitez vous lancer dans la data ? 👉 Regardez les meilleures formations data

Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Antoine Krajnc
Écrit par
Antoine Krajnc
 - 
Fondateur
Jedha

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes