Prédire les performances en force athlétique

Sélectionnez un chapitre
La Force Athlétique est un sport de force dérivé de l’haltérophilie, dont l’objectif est de soulever une charge maximale sur 3 mouvements : le squat (flexion de jambes), le bench (développé couché) et le deadlift (soulevé de terre). L’athlète a 3 essais par mouvement et le classement est fait sur le total (somme des charges réalisées sur les 3 mouvements).
[Le projet de Gwénaëlle Breton, alumni Lyonnaise de notre formation Essentials en Data : 40 heures de formation pour devenir comprendre les problématiques, apprendre Python et la gestion de bases de données avec SQL et réaliser son premier projet Data
En France la première fédération officielle est la FFForce (fédération française de force), affiliée à la fédération internationale IPF (international powerlifting federation). Les 3 mouvements que nous tentons ici d'optimiser :


Quelles données ?
Un passionné de force athlétique recense sur un site internet les résultats des compétitions depuis bientôt 15 ans, compétitions des années 70 à aujourd’hui. Après un premier nettoyage de données sur Excel (suppression des données incomplètes), le fichier contenait 25 114 lignes. Une ligne correspondant à un résultat de compétition d’un athlète. Ne pouvant avoir accès aux données de la base, j’ai récupéré à la main des données en sélectionnant un périmètre défini.

Objectif de l'étude
La question était de savoir s’il est possible de prédire les performances d’un athlète. Les données que nous avons sont les performances passées, la catégorie d’âge, la catégorie de poids, le poids et le sexe.
À qui servirait la réponse à cette question ?
En premier lieu aux Clubs de force qui gèrent des athlètes. En effet, les budgets pour les compétitions (déplacements) et le matériel à acheter dépendent directement du niveau de ses compétiteurs. Beaucoup de Clubs ont des difficultés à planifier le budget de la saison à venir. Aussi, ses informations pourraient servir lors des demandes de subvention ou la stratégie des compétitions en équipes. Ensuite, cette info pourrait être utile aux Coachs, qui pourraient améliorer/adapter leur planification. Et enfin aux athlètes, pour leur permettre d’avoir une idée de progression et ajuster leurs attentes.
Préparation des données
Les 25 114 performances ont été importées dans Jupyter, et c’est en Python qu’ont été traitées les données.Dans le fichier de base, nous avons des lignes qui correspondent à des performances à une compétition donnée. Pour notre modèle, on cherche à regrouper les performances par saison (en prenant la meilleure réalisée sur la saison), en prenant les performances des 2 premières saisons afin de prédire celles de la 3ème saison. Après traitement en Python sur Jupyter, le fichier final contient 1 548 lignes (correspondant à 1 548 athlètes ayant fait au moins 3 saisons de compétitions).

Description des données
Avant de trouver notre modèle, décrivons un peu nos données. Nous avons 1 548 athlètes au total, dont 84 % d’hommes et 16% de femmes. Il y a 37 % de jeunes (moins de 24 ans), 34 % de séniors (24 à 39 ans) et 29 % de masters (plus de 39 ans). Cette première exploration permet d’avoir un ordre d’idée des valeurs de performances. Il y a peu de différence entre la moyenne et la médiane, notre échantillon est donc plutôt bien distribué. Pas de valeurs aberrantes à supprimer des données.

Description du modèle et des résultats
L’objectif étant de prédire une performance en kg, j’ai choisi de faire une régression linéaire multiple.

R2 ? Il s'agit de la mesure de la qualité de la prédiction ? Les coefficient R2 sont plutôt bons, l’erreur absolue cohérente avec notre échelle. Nous allons donc pouvoir analyser nos résultats. Dans un premier temps, j’ai lancé le modèle sur les 1 121 athlètes ayant fait exactement 2 saisons dans mes données d’origine. J’ai pu y voir mes propres prédictions :

Ces valeurs me semblent réalistes par rapport à ma progression, et en prenant en compte le biais naturel en compétition qui diminue légèrement les performances : le stress !
Critères qui impactent négativement les performances
La première chose que l’on constate, c’est que les Masters progressent globalement beaucoup moins. Ensuite, les femmes de -72 kg progressent moins bien, et on remarque que l’impact n’est pas proportionnel au poids.

Pour nos 4 variables à prédire (total, squat, bench et deadlift), on constate que les performances précédentes, surtout la dernière, impactent le plus le résultat. Ce qui semble cohérent. Pour la suite de l’analyse j’ai donc décidé de les enlever afin de pouvoir mieux visualiser l’impact des autres paramètres. En premier lieu, j’ai décidé de me pencher sur les critères impactant le Total.


Critères qui impactent positivement la performance
On sait que les facteurs de la force sont complexes, les principaux sont la longueur des membres, l’insertion des muscles et la quantité absolue de masse musculaire. On sait également que les hommes ont beaucoup plus de masse musculaire que les femmes. Sachant cela, il parait logique que les hommes soient beaucoup avantagés niveau performances.
Les jeunes progressent plus vite de manière générale, cela démontre qu’il y a un intérêt à démarrer jeune.
On constate également que les hommes en -105 kg sont avantagés. On peut se demander pourquoi pas les -120 kg et +120 kg ? Cela peut s’expliquer par le fait qu’à partir d’un certain poids, les athlètes n’ont pas forcément plus de masse musculaire.
Enfin, pour une femme de taille moyenne, un poids correspondant à une répartition corporelle idéale, atteint naturellement, oscille autour des 60 kg. Néanmoins, de nombreuses athlètes hésitent entre rester en 63 kg ou passer en 57 kg. Cette étude pourrait démontrer un intérêt à choisir la catégorie -57 kg.

Comparaison des critères par mouvement
La première chose que l’on peut remarquer, c’est qu’il y a un comportement irrégulier parmi les mouvements, mais également par rapport au comportement sur le total. Cela confirme que les mouvements ne sont pas corrélés entre eux. Être fort sur un mouvement n’implique pas forcément être fort sur les autres.
--> Le seul critère commun : le fait d’être un homme.
--> Les hommes de -105 kg sont avantagés sur le Squat.
--> On remarque également que le poids de corps impacte directement le Bench. Cela pourrait paraitre illogique puisque c’est un mouvement « haut du corps ». Cependant, en pratique un transfert de force est fait des pieds vers le haut du corps (appelé aussi « leg drive »), ce transfert de force est directement proportionnel au poids du corps.
--> On ne peut pas « expliquer » la performance au Deadlift (hors âge). Ceci peut s’expliquer par le contexte du « match » en compétition. En effet, le Deadlift est le dernier mouvement effectué, et le choix de la performance à tenter/réaliser dépend des performances des concurrents. Ainsi, les performances réalisées ne sont pas toujours représentatives du potentiel de l’athlète.

L'équipe idéale pour le championnat
Chaque année a lieu une compétition en équipes : 3 athlètes, 1 athlète réalise un seul des trois mouvements. Si l’on prenait en compte la performance maximale absolue pour déterminer le succès d’une équipe, notre modèle nous permettrait de définir l’équipe idéale comme suit :

Conclusion & perspective
Ce modèle de prédiction assez simple donne déjà quelques clés aux clubs et aux coachs en force athlétique pour planifier au mieux une saison à venir.
Pour poursuivre ce travail, dans un premier temps je construirai une nouvelle base à partir des résultats officiels publiés sur le site de la FFForce. Même si les données ont moins d’antériorité (fédération assez récente), je pense d’une part que la probabilité d’erreurs dans les données est plus faible, d’autre part cela me permettrait d’y ajouter la date de naissance et donc l’âge exact.
Car dans les données que j’ai utilisées, nous n’avions que la catégorie d’âge. Je pense notamment à la catégorie Sénior, qui comprend les athlètes de 24 à 39 ans, qui est une fourchette plutôt large, et je me demande s’il ne serait pas possible d’affiner un peu plus le modèle en étant plus précis sur ce critère.
Aussi, cela permettrait d’ajouter au modèle le critère de la Ligue Géographique. Est-ce que les moyens humains, financiers, de formation etc. mis en place par une Ligue a un impact sur la progression de ses athlètes ?
Enfin, plutôt que de prendre les 2 premières saisons pour prédire la troisième, je chercherai à inclure les dernières saisons et l’ancienneté, afin de prédire la prochaine saison.
La force athlétique est un sport complexe, je pense que présenter cette étude à un ou plusieurs coaches afin d’ouvrir la discussion et la critique sur la démarche pourrait être bénéfique.
Vous souhaitez vous lancer dans la data ?
Si vous souhaitez acquérir les compétences en Data recherchées des recruteurs, n'hésitez pas à regarder les formations Data que Jedha Bootcamp propose.