Soirée Portes Ouvertes en ligne : découvrez nos formations !
Mercredi 4 octobre à 19h
En ligne

Découvrez nos programmes de formation accélérée en Data et Cybersécurité, et posez toutes vos questions à Marine.

S'inscrire
Retour à l'accueil du blog
Bien choisir son ordinateur grâce à la Data Science
2
 min
Projet data
 Publié le 
18/6/2018

Bien choisir son ordinateur grâce à la Data Science

Vous vous êtes déjà surement posé ce problème : vous voulez acheter un ordinateur au meilleur prix, mais vous faites face à plusieurs difficultés. Il y a beaucoup de critères à prendre en compte, dont certains sont assez techniques, et vous n’avez pas tellement le temps pour vous informer précisément.

Sortir des tendances significatives d’un grand ensemble de données hétérogène est précisément l’intérêt des statistiques. L’étude s’attache ainsi à savoir comment les algorithmes de Machine Learning peuvent nous aider à faire des choix complexes et ce jusque dans ce problème de la vie quotidienne.

L’algorithme choisi pour répondre à cette problématique est celui de la régression linéaire multi-variable. L’algorithme détermine les coefficients de l’équation linéaire permettant de prédire au mieux le prix de l’ensemble des ordinateurs de la base de données. Les coefficients ainsi déterminés prennent en compte la présence ou non de chaque composant ainsi que la valeur de chaque caractéristique. Ils représentent ainsi un prix « moyen » pour chaque composant ou caractéristique.

Regarder le code sur Github

Données, préparation & nettoyage

La base de données est agrégée depuis la page internet du revendeur. Le texte est directement copié du site internet. La méthode est ainsi transposable à tous les sites d’e-commerce. Les données textuelles sont ensuite réorganisées grâce aux fonctions automatiques d’un logiciel de type tableur. L’exemple d’analyse se base sur 26 ordinateurs afin que l’exercice puisse être réalisé dans un temps limité, celui de l’atelier.

Le jeu de données est préparé informatiquement, afin qu’on puisse lui appliquer l’algorithme de la régression linéaire multi-variable. On s’assure que les coefficients de l’équation linéaire soient positifs car ils représentent des prix moyens. Les composants à contribution nulle ont été enlevés et sont donc, d’après cette étude, jugés comme non-significatifs. Les composants restants sont, d’après l’étude, les composants significatifs dans l’établissement du prix.

Résultats de la prédiction

Les coefficients de l’équation, représentant le prix « moyen » de chaque composant ou caractéristique, sont présentés dans un tableau.

Bien acheter son ordinateur grâce à la Data Science

Le graphique suivant montre les prix estimés selon l’algorithme, pour les comparer avec les prix réels observés sur le site d’e-commerce.

Les chiffres en abscisse correspondent au numéro d’identification des ordinateurs, classés par ordre de prix croissant.

Bien acheter son ordinateur grâce à la Data Science
On observe ainsi que l’algorithme arrive à prédire le prix avec une très grande précision.

Impact du modèle : l'offre est-elle une bonne affaire ?

Le modèle de prédiction permet ainsi d’obtenir des informations capitales dans le choix de l’ordinateur, au prix d’un effort très raisonnable. Le temps nécessaire peut être quasi-instantané si la base de données est déjà disponible et le code informatique correctement paramétré. Le modèle permet ainsi de savoir :

–-> Quels sont les caractéristiques significatives dans l’établissement du prix de l’ordinateur ? Êtes-vous prêts à payer le prix moyen d’une caractéristique particulière ?
--> S’agit-il d’une bonne affaire ou non ? Le prix prédit représente un prix moyen calculé sur la base des caractéristiques de l’ordinateur. Si le prix réel est plus faible que le prix prédit, alors cela veut dire que l’offre est statistiquement une « bonne affaire ».

Si vous souhaitez acquérir les compétences en Data recherchées des recruteurs, n'hésitez pas à regarder notre formation Data Analyst pour débutant. Vous pouvez également prendre rendez-vous avec notre team admissions pour plus d'informations.

Antoine Krajnc
Écrit par
Antoine Krajnc
 - 
CEO & Fondateur

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes