Cet article est associé à un projet que nous avons développé ou soutenu :
Off_the_charts
L'évaluation des performances humaines est notoirement difficile, même pour un œil expert. La difficulté ne réside pas nécessairement dans la perception de la performance, même si cela requiert de surmonter certains biais cognitifs, mais dans la cohérence des évaluations lorsque différents sujets sont observés et/ou lorsque plusieurs observations s’étalent dans le temps. Pour ajouter à la complexité, les sujets peuvent travailler en équipe pour atteindre certains objectifs, de sorte qu’un succès ou un échec ne rende que partiellement compte de la performance. Pour les sports d'équipe, l'approche cynique ne suffit certainement pas.
Méthodologies d'évaluation des performances
Pour comprendre l’intrigant processus qui sous-tend l'évaluation, par l’homme, de la performance humaine, le point de départ obligatoire consiste à comparer les évaluations à l’ensemble des données associées à la performance observée, les données devant être collectées selon une méthodologie stricte. Et cela doit être réplicable à grande échelle, pour que les résultats soient significatifs.
C'est précisément le travail qu’ont entrepris Pappalardo et al en 2017 en comparant les statistiques des joueurs de football pendant les matchs avec les notes que ces joueurs recevaient des experts dans les journaux sportifs le lendemain. Comme dans de nombreux sports depuis l’avènement de la sabermétrie, qui a intégré la culture populaire grâce au livre puis au film Moneyball, les statistiques du football sont disponibles en grande quantité et collectées selon une méthodologie relativement cohérente. Les chercheurs ont construit des vecteurs pour décrire les performances avec n caractéristiques représentant chacune des événements ou des actions réalisées par un joueur pendant un match de Serie A (par exemple, un but, un tacle réussi ou une passe ratée), et ont ensuite comparé ces vecteurs aux notes reçues par les joueurs dans trois journaux sportifs italiens. Nombre d’enseignements peuvent être tirés de cet article:
- Même en ignorant les biais cognitifs individuels, des éléments contextuels jouent un rôle important comme, au niveau macro, le résultat anticipé d'un match tel qu'estimé par les bookmakers ou, au niveau micro, la qualité d'une passe qui ne peut pas vraiment être reflétée dans les statistiques ;
- Les juges procèdent par heuristique, se concentrant sur un petit nombre d'événements notables et ignorant la grande majorité ;
- En particulier, l'équipe de Pappalardo a constaté que seule une vingtaine d’événements étaient pris en compte lors de l'évaluation par les journalistes ;
- Les caractéristiques sur lesquelles les juges se sont concentrés varient en fonction de la position des joueurs sur le terrain (caractéristiques techniques pour les gardiens et les attaquants mais caractéristiques collectives pour les défenseurs et les milieux de terrain) ;
- Les juges humains sont globalement d'accord les uns avec les autres, mais leurs avis divergent quand même 20% du temps.
C’est peut-être ce dernier point qui a poussé Pappalardo et son équipe à se concentrer sur des évaluations basées sur les données, même cela implique d'abandonner des aspects contextuels qui ne sont pas systématiquement reflétés dans les statistiques.
En 2019, Pappalardo s'est associé à Wyscout pour présenter PlayeRank, une métrique « mesurant la qualité de la performance sous toutes ses facettes […] puisque la performance est un concept intrinsèquement multidimensionnel ». En résumé, ils ont donné un poids à chaque événement pour obtenir un vecteur qu'ils ont ensuite multiplié au vecteur constitué du nombre d’événements dans un match spécifique. Par ce procédé, on obtient un nombre - une note - qu'ils ont utilisé pour classer les joueurs. Cela peut sembler extrêmement complexe (et c'est présenté de manière assez complexe dans l'article), mais vous avez probablement rencontré cette exacte méthodologie si vous avez déjà joué a des Fantasy Sports : les scores des joueurs sont obtenus en multipliant deux vecteurs ; un vecteur avec le nombre de chaque événement et un vecteur avec le poids de chaque événement.
S'appuyant sur cette approche, une équipe dirigée par Aydemir à l'Université d'Ankara a proposé en 2021 une méthodologie encore plus avancée prenant en compte la difficulté du match et de la compétition ainsi qu’un facteur de dégradation dans le temps à appliquer aux matchs plus anciens. L'article décrit des moyens assez ingénieux d'intégrer des ajustements contextuels et il vaut vraiment la peine de s’y plonger si vous vous intéressez à la modélisation complexe.
L'approche est probablement trop complexe pour des applications réelles, sauf si vous êtes scout pour un club de football professionnel. Les ajustements à différentes étapes du processus de calcul empêcheraient probablement le grand public de trouver la métrique pertinente. L'accessibilité est essentielle pour faciliter l'adoption : pour comprendre, les utilisateurs doivent pouvoir faire une estimation approximative du résultat grâce à un processus heuristique. C'est pourquoi les plateformes de Fantasy Sports utilisent des matrices simplifiées comme bon compromis entre accessibilité et reflet fidèle de la qualité des performances dans un contexte donné. Comme les seules exigences absolues sont la cohérence entre les joueurs (notamment entre les différentes positions) et la cohérence dans le temps, de simples vecteurs de poids sont l'outil idéal pour cette application. La simplification peut entraîner des frustrations pour les utilisateurs, mais ce n'est pas nécessairement une mauvaise chose pour une plateforme de jeu car les frustrations sont un mal nécessaire pour maximiser l’émission de dopamine.
Remonter les informations aux utilisateurs finaux
En utilisant l'approche vectorielle, il est simple de calculer la note ou le score d'un joueur. Cependant, un utilisateur qui ne reçoit que le score calculé ne pourra jamais en déduire la nature exacte de la performance d'un joueur. Le résultat lui-même ne dit rien des forces et des faiblesses d’un joueur car plusieurs vecteurs peuvent conduire au même score ; les résultats indiquent simplement la performance relative d'un joueur par rapport aux autres selon la matrice de notation. L'explication mathématique de ce problème réside dans l'un des principes les plus fondamentaux de la théorie de l'information: un entier ou un nombre avec peu de décimales (le résultat de la multiplication des vecteurs) ne peut véhiculer qu'une quantité limitée d'informations, quantifiées en bits. Même en ajoutant des couleurs ou d'autres types de décoration, il y a une limite absolue à la capacité d'information des chiffres renvoyés par l’algorithme. Et cette quantité d'informations est sans commune mesure avec la quantité d'informations à l'entrée de l’algorithme. Cela soulève la question suivante : est-il possible d'augmenter la capacité d'information à la sortie, sachant que le résultat DOIT être une valeur numérique (un entier) pour permettre les comparaisons ?
Dans la suite de cet article, nous utilisons la matrice de Sorare pour illustrer le propos. Cette matrice présente un niveau de complexité assez élevé (environ 50 événements) et des pondérations appropriées d’après notre expérience sur plusieurs plateformes de Fantasy Football*. Les scores de Sorare vont de 0 (minimum) à 100 (maximum) avec une médiane autour de 45 pour les joueurs débutant les matchs (les joueurs débutent les matchs avec un score de base de 35). La matrice est disponible dans le repository Github du projet de visualisation de données (scoringMatrix ici)
Malgré son extrême dépendance aux données, l'industrie des Fantasy Sports manque étonnamment de solutions pour visualiser les résultats de matrices de notation complexes. La plupart des entreprises de Fantasy Sports s'en tiennent à des représentations unidimensionnelles, c'est-à-dire un nombre unique qui est le résultat d'une multiplication de deux vecteurs comme expliqué ci-dessus. Cela ne permet pas de saisir la complexité de leur score et de représenter fidèlement ce qu'il s'est réellement passé sur le terrain.
L'ajout d'une deuxième dimension a été une étape importante mise en œuvre par SorareData*, le principal fournisseur de données dédiées aux plateformes Fantasy Sports de Sorare (couvrant le football, le baseball et le basketball).
Sur la base des retours des utilisateurs, la répartition entre score Décisif et score Complet leur est précieuse.
Les termes pour les deux sous-scores ont été inventés par Sorare eux-mêmes pour expliquer comment ils ont construit leur matrice. Le score Décisif comprend un nombre limité d'événements à faible fréquence mais à fort impact tels que les buts ou les passes décisives (impact positif) ou les pénaltys concédés ou les cartons rouges (impact négatif). Le score Complet englobe un grand nombre d'événements moins importants lorsqu'ils sont pris individuellement, comme des passes ou des tacles, mais qui, cumulés, peuvent également refléter une performance vraiment exceptionnelle.
Il existe donc deux sous-scores, qui permettent de comparer des compétences plus techniques pour certains postes avec des compétences plus collectives et cela est cohérent avec les conclusions de Pappalardo dans l'article de 2017.
La deuxième dimension permet d’augmenter la quantité d’informations transmises mais, seule, elle n'est pas suffisante pour comparer les athlètes en fonction de leurs forces et faiblesses respectives. Certainement pas si vous essayez de les comparer à différents postes (attaquants, milieux de terrain, défenseurs ou gardiens de but).
Pour fournir une description détaillée, l'industrie du jeu et l’industrie du sport utilisent généralement les mêmes outils : des graphiques polaires ou des radars. Ces graphiques sont faciles à comprendre d'un coup d'œil et représentent le centile dans lequel se situe l'athlète. En d'autres termes, ils décrivent les forces et les faiblesses d’un athlète par rapport à tous les autres. Pour Sorare, le radar pourrait être divisé en deux pour représenter les multiples dimensions de chacun des scores Décisif et Complet.
bleu: Erling Haland (moyenne env.70) / rouge: Edin Dzeko (moyenne env.50)
Cependant, de nombreuses caractéristiques d'une matrice de notation de football sont des événements relativement rares, en particulier du côté décisif. Par exemple, avec un but, un athlète se situe dans le 90e centile, même avec une échelle logarithmique. Ainsi, la forme du "radar papillon" ne permettrait pas de faire la différence entre un joueur avec un score moyen de 50 et un joueur avec un score moyen de 70 si leurs scores respectifs dépendent fortement du nombre de buts marqués.
Le fait que l'on s'attendrait à identifier des différences de score en un clin d’œil grâce à l’aire du radar conduit cependant à une observation intéressante : le message porté par la forme elle-même peut être plus complexe qu'initialement envisagé ; non seulement les sommets véhiculent des informations, mais l’aire aussi. En faisant en sorte que la l’aire grandisse proportionnellement au score des athlètes, vous pouvez dans le même temps transmettre le résultat de la multiplication vectorielle ET fournir la répartition détaillée des forces et des faiblesses de l'athlète à travers les sommets.
La première étape consiste à identifier la zone correspondant au score de base, c'est-à-dire 35 pour le football de Sorare (il pourrait être nul pour les matrices permettant des scores négatifs), et à disposer les caractéristiques de la matrice de notation en cercle autour de la base. Ensuite, la base peut s'étendre ou se rétrécir (proportionnellement) le long de chaque segment. Les événements peuvent être combinés par catégories pour réduire le nombre de segments, en particulier du côté du score Complet. Notez que les points négatifs attaquent la base le long des segments jusqu'à ce que le centre soit atteint, moment auquel un trou se forme et s'étend vers l'extérieur à partir du centre. Lorsque c'est le cas, comme tous les points négatifs associés aux différents événements sont agrégés dans le trou, il en résulte une nouvelle situation où la représentation graphique (le trou au centre) contient beaucoup moins d'informations qu’à l'entrée de l’algorithme (les points négatifs associés à chaque événement). Pour cette raison, la solution n'est pas entièrement satisfaisante. Mais vous pouvez juger par vous-même sur la base de cette vidéo comparant trois joueurs très similaires (même score moyen, même position).
3 milieux de terrain avec des scores similaires (moyenne entre 72 et 74 sur la période)
Et ce n'est pas qu'une vidéo de démonstration : pour vous permettre d'explorer davantage, nous avons créé une application Web utilisant cette technique de visualisation ainsi que d'autres fonctionnalités. Le projet n’a rien d’ambitieux du point de vue du développement, mais vous devriez toujours pouvoir le prendre en main ici. Il couvre à peu près tous les joueurs de football du monde et des statistiques sont disponibles pour toutes les compétitions couvertes par Sorare (ce qui signifie en pratique toutes les compétitions couvertes par leur fournisseur de données Opta). Nous ne stockons aucune information sur les joueurs et leurs statistiques, l'application récupère les informations directement à partir de Sorare à chaque fois qu'un utilisateur recherche un joueur. Par souci de performance, les scores ne sont récupérés qu'à partir du 1er juillet 2022. Le code source de l'application est disponible sur Github.
*Avertissement : Au début de son parcours entrepreneurial en 2020, j'ai soutenu le fondateur de SorareData, fournisseur de données axé sur les plateformes de Fantasy Sports de Sorare. Plus d'informations sur ce projet sont disponibles ici. Cela m'a conduit à occuper le poste de Product Owner de SorareData pendant environ un an jusqu'à ce que l’équipe soit constituée. J'ai aidé pour la conception de certaines fonctionnalités et conçu le paywall. Bien que mes échanges avec l'équipe soient désormais rares, je possède encore du capital de SorareData et je suis un utilisateur actif puisque j'utilise leurs outils pour les Fantasy Sports sur Sorare. J'ai également été Business Angel de Sorare a sa création ; je n'ai plus de parts depuis 2021. Je possède toujours des NFTs de cette période et je continue à jouer régulièrement.