Data et Cybersécurité: deux secteurs complémentaires
5
 min
Thématique Data
 Publié le 
20/5/2021

Data et Cybersécurité: deux secteurs complémentaires

[Interview de David, réalisée en Mai 2021] Découvrez ici le parcours et les missions de David, analyste cybersécurité chez CybelAngel ! Il nous explique ici les grands enjeux de la Cybersécurité, les liens entre la Data et la Cybersécurité ou encore les formations en Cybersécurité.

Hello David ! Quel est ton parcours ?

J'ai un parcours assez particulier car je ne suis pas passé par une école d'ingénieur, j'ai fait des études de lettres. J'ai par la suite travaillé chez un éditeur d'antivirus. L'analyse m'intéressait, je me suis dirigé vers CybelAngel Je souhaitais en apprendre davantage et suis depuis plusieurs années analyste en cybersécurité. Aujourd’hui je suis responsable d'investigations spéciales. 

Qu'entends tu par investigations spéciales ?

Ce sont des failles dans les systèmes qui font que certains objets connectés peuvent effacer de la donnée. Si par exemple un serveur est mal configuré, il peut être non-protégé et donc exposer tous ses documents, voire tout le contenu sur Internet.

Par rapport à nos missions, cela est le travail de l’analyste, où selon les clients qu'il a à sa charge, selon les mots clés du client, tous les jours, toutes les minutes, il y a des documents qui arrivent dans ce qu'on appelle un feed. C’est vraiment le cœur de la solution classique où on va proactivement chercher de la donnée et ensuite, on la remonte au client en la quantifiant. On pense que ce serveur appartient à ce prestataire donc il y a des plans qui vous concernent. Notre rôle est de surveiller les canaux cybercriminels. Nous allons par la suite proactivement télécharger des bases de données qui fuitent.

Est-ce que les entreprises se rendent comptent que leurs propres données peuvent être piratées ?  

On pense toujours que ça n'arrive qu'aux autres, jusqu'au jour où ça nous arrive et il suffit d'une petite porte ouverte pour vraiment détruire tout le réseau. C'est souvent ce qui se passe puisqu'il y a plusieurs points d'entrée sur les ransomwares. Cela peut passer par une pièce jointe piégée. Il y aussi des protocoles d'accès à distance comme RDP, VPN. Ce type de protocole est souvent utilisé, surtout de nos jours, avec le télétravail. Si ils sont mal configurés, on peut tenter de deviner le mot de passe si celui-ci n'est pas robuste. Il existe vraiment plusieurs moyens de rentrer dans un réseau.

Quelles sont les bonnes pratiques que tu donnes pour se préserver de ces attaques ?

 Il est nécessaire de mettre régulièrement à jour le système, que ce soit au niveau du hardware et du software. C'est beaucoup plus facile à dire dans la théorie que de l'appliquer dans la réalité.  Il y a aussi des problématiques métier qui font que certains logiciels sont seulement disponibles sur certaines versions de Windows, par exemple, qui ne fonctionnent pas sous une version plus récente de Windows. Même si c'est le cas dans énormément de secteurs d'activité, on repose sur des vieilles choses qui marchent, mais on ne peut pas forcément mettre à jour tous les systèmes.

Peux-tu me parler d’un use case sur lequel tu as plus ou moins récemment travaillé ?

L'un des derniers cas sur lesquels on a travaillé était effectivement un cas de ransomwares. On était dans la capacité de pouvoir donner des informations sur le groupe. Cela était vraiment du travail manuel et pas de data impliqué. On a pu rassurer nos clients car on a simplement scanner tous les périmètres monitorer par Cybel. 

Le rôle de Cybel est de gérer tout le réseau, de faire en sorte que tout fonctionne correctement, de connecter tous les éléments, mais cela ne suffit pas. Il faut aussi les protéger et il faut intégrer des politiques de sécurité pour faire en sorte que l'on minimise les risques. Le but de la cybersécurité, ce n'est pas d'empêcher les 100% , cela n’est pas possible, mais c'est vraiment de les limiter et de ne pas devenir une cible trop facile.

Votre but dans ces projets, c'est d'une part récupérer les données volées et d'autre part, de protéger d'autant plus le système de sécurité qui avait été vulnérable ?

 On fait de l'intelligence. On va surveiller que ce soit un ransomware ou autre chose car comme dans la plupart des cas, il s'agit d'une suspicion de documents volés. On ne va pas véritablement ramener les documents au client puisque c'est pas comme si il n'y avait qu'un seul exemplaire. En revanche, on est capable de donner une estimation du nombre de téléchargements, par exemple, basés sur le nombre de vues du post. On peut aussi voir l'intérêt que portent les gens ou sur les forums cybercriminels.

Quels sont selon toi les liens entre la Data Science et la Cybersécurité ?

 Ce que l’on remarque chez Cybel est que l'on peut justement lier ces deux domaines !

On voit notamment de nombreux modèles qui semblent se répéter sur des attaques, sur la fuite de documents. On utilise énormément de Machine Learning dans nos algorithmes. Nous sommes dans la capacité de contextualiser le problème et de déterminer la gravité de la fuite. Ceci est un atout. En 15 minutes on détecte 100 millions de documents et les êtres humains ne peuvent pas traiter tous ces documents à la main. Nous aidons des machines qui permettent de classifier et de catégoriser. Concernant le rôle des analystes de CybelAngel 10 à 15% de ce que l’on détecte arrive dans leur feed pour vérification. 

Il existe de nombreux cas où les mots clés peuvent induire des faux positifs, mais les algorithmes sont basés sur des centaines de milliers de modèles. Le processus de vérification est important car dans notre feed de documents qui sont détectés tous les jours, des données traitées arrivent dans le feed. Nous considérons que les algorithmes apprennent du traitement des analystes et sont ainsi capables de s'adapter selon la manière dont nous traitons les données reçues.

Le travail s’effectue en symbiose. L'analyste nourrit l'algorithme, qui nourrit l'analyste, qui nourrit l'algorithme.

Comment travailles-tu en tandem avec les Data Scientists par exemple ?

Auparavant, j’ai travaillé avec eux. On se mettait d’accord sur le démarrage, sur certaines routines. On identifiait des cas un peu épineux pas forcément faciles à traiter pour un algorithme car cela ne répondait pas au modèle qu’ils avaient établi. Je les aidais en leur donnant des pistes sur le traitement de ce genre de cas si cela se produit.  De toute manière, il y aura l’étape de la vérification, le seul moyen réellement fiable.

Est-ce que à chaque fois c'est véridique ou il arrive d'avoir des faux positifs ?

Il arrive d'avoir des faux positifs. L’analyste va alimenter l'algorithmique, la machine en disant tu l'a mis un score beaucoup trop élevé, mais en mettant de côté, c'est un peu l'action que ça vient derrière. Le point principal est de comprendre comment le Data Scientist et l’analyste cyber vont travailler ensemble car nous sommes spécialisé en data et nous allons par la suite sortir un programme en cyber. Le nerf de guerre dans le cas de cyberattaques est la donnée. Finalement il faut également se demander dans quelle mesure les algorithmes qui étaient implémentés pour des scannes en cybersécurité étaient bien importants pour ces entreprises. Ce lien est extrêmement crucial car cela permet d’apporter un tri très fascinant.

J’apprécie le côté où on se dit que finalement, le métier que nous et les analystes faisons repose à la fois sur les machines et sur l’être humain. Il y aura forcément besoin à un moment donné ou un autre d'une vérification humaine.

C'est ce que l’on met en avant dans notre solution puisque les deux sont complémentaires, mais l'un ne peut pas exister sans l'autre.

Pour revenir à l'état entre la Data et la Cybersécurité, on suit tout un processus de la création d’un algorithme à son déploiement. As-tu une idée du moment où le logiciel malveillant pourrait se glisser dans tout le pipeline data ?

Je ne pense pas qu’un logiciel malveillant puisse modifier l’algorithme. Le fait d’insérer de la donnée qui allait mettre à mal l’algorithme est intéressant car il existe des services d’antivirus modernes «  DDR » reposant sur des couches de Machine Learning. En revanche, si un moment donné le modèle échoue, n’importe qui pourrait faire apprendre ce qu’il souhaite à l’algorithme.  C'est surtout que l'algorithme va prendre cela pour acquis.

Comment est-ce que tu fais ta vieille technologie?

Je m'occupe de plateformes cybercriminelles sur lesquelles se trouvent diverses informations. Ma source favorite est Twitter car cela permet d’avoir des informations quasiment en temps réel sur le sujets d’actualités, dont toutes les technologies. Twitter est court, permet de rediriger vers de vrais articles qui ne sont pas forcément des journaux , mais plus des blogs de chercheurs en sécurité et permet de se tenir à jour sur l’actualité.

Les formations en cybersécurité ne sont pas encore assez démocratisées !

Il commence à y avoir quelques écoles qui tirent leur épingle du jeu et qui font de la cyber leur spécialité.

Aujourd’hui je pense que l'expérience prime sur la théorie ! Pour les métiers techniques, c'est le cas.

Concernant le marché du recrutement en cybersécurité, comment est- ce que tu le qualifierais ?

Il est en expansion grandissante et ce marché recrute dans tous les domaines. Il recrute de nombreux ingénieurs mais pas seulement.

C'est tout un tas de métiers transverses qui sont reliés à la cybersécurité par l'un des côtés !

Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Marina Kia
Écrit par
Marina Kia
 - 
Content & Event Manager
@ Jedha

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes