Pratiques commerciales : là où l’IA ne fait pas débat

Malgré les 200 millions d’utilisateurs hebdomadaires de ChatGPT (OpenAi) et les 400 millions d’utilisateurs des modèles de Meta, l’Intelligence Artificielle grand public est encore à un stade embryonnaire. Et comme pour tout secteur à ce stade de développement, du temps est nécessaire à l'établissement de standards et de pratiques de marché. Les acteurs du secteur, à la recherche de modèles économiques ou simplement d’une validation de “product-market fit", ne se contentent pas d’innover en matière de produits ou de services : ils se montrent aussi créatifs pour les pratiques commerciales. Quitte à induire les clients en erreur.

Quand on vend de l’intelligence, il vaut mieux ne pas trop s’aventurer à définir le service rendu. Et le fait que des clients acceptent d’entrer dans une relation contractuelle sans définition claire prouve qu’eux-mêmes ne savent pas ce qu’ils veulent acheter. Tant qu’il y a de “l’IA"… la case semble cochée.

L’asymétrie entre clients et fournisseurs devrait s’atténuer en vertu des dynamiques de marché classiques. Mais en attendant, tous les coups semblent permis pour attirer les clients.

L’enjeu est double:

  • à court terme, pouvoir afficher de gros chiffres dans les présentations marketing pour les prochains tours de table. Ces chiffres ne couvrent en aucun cas la satisfaction des clients* mais simplement leur quantité par l’intermédiaire de métriques ne reflétant pas nécessairement la réalité économique actuelle ou future: au pire, just un nombre d’inscrits ou un nombre d’utilisateurs actifs ; au mieux le revenu projeté selon diverses hypothèses.
  • à moyen terme, s’établir comme pionnier et espérer acquérir une si grande part de marché qu’il sera impossible aux nouveaux venus de vous déloger de votre position dominante. Mais contrairement au web 2.0, ce n’est pas "l’effet réseau" qui devrait conduire à un marché oligopolistique pour l’IA**. Les acteurs du secteur misent plutôt sur un “first-mover advantage" lié aux investissements colossaux pour développer les modèles***. C’est d’ailleurs la principale justification donnée pour les levées de fonds du point précédent ; à l’exception notable de Meta, qui développe ses modèles sur ses propres ressources.

Heureusement pour tout l’écosystème, aujourd’hui, l’IA fait vendre. Les curieux sont prêts à payer pour vérifier si le dernier produit à la mode nous rapproche réellement de l’intelligence artificielle générale, mais l'IA fait avant tout vendre beaucoup de missions de conseil et de conférences visant à cerner ses opportunités plutôt que ses limites.

L’IA vend du rêve aux utilisateurs potentiels à la recherche de gains de productivité autant qu’aux entrepreneurs qui se voient millionnaires du jour au lendemain- du moins sur le papier- en cas de levée de fonds réussie. Pour ces derniers, la motivation n’est pas nécessairement financière, il peut simplement s'agir d’être dans la lumière ; d’avoir l’illusion de faire partie du cercle très fermé des entrepreneurs de la Tech tant glorifiés. Les rêves des entrepreneurs incitent aux pratiques commerciales douteuses ; les rêves des clients les permettent.

Au delà du pitch?

L’état des lieux des pratiques commerciales dans le secteur doit commencer par ces cas où le rêve ne concerne pas le potentiel de l’IA, mais l’existence même du produit ou service.

Il serait difficile de reprocher aux entrepreneurs l’ambition et l’optimisme nécessaires à toute aventure entrepreneuriale. Embellir la réalité fait partie du jeu, c’est une façon de sécuriser des ressources et de se donner du temps pour atteindre des objectifs bien réels. Dans le cas d’OpenAI, beaucoup d’annonces ont été faites et il semble qu’ils ont réellement développé des modèles performants pour la vidéo (SORA) et pour des interactions vocales avancées mais qu’ils ne sont pas prêts à les déployer à grande échelle. Cependant, dans certains cas, l’exagération dans les pitchs relève du mensonge et de la mauvaise foi sans que les motivations soient claires.

Voici quelques exemples au cours des 12 derniers mois:

  • Au quatrième trimestre 2023, une start-up nommée Rabbit a annoncé avoir levé 30 millions de dollars pour réinventer le smartphone en tirant parti des nouvelle technologies d’intelligence artificielle. L’ambition était de révolutionner la façon dont nous interagissons avec les applications de nos smartphones, en proposant un appareil qui offrirait une interface unique et actionnerait lui-même les services correspondant aux requêtes. Cette interface unique devait s’appuyer un Large Action Model, une nouvelle classe de modèle développée par Rabbit. Après une première présentation en janvier 2024, Rabbit a annoncé avoir reçu près de 100 000 pré-commandes pour son appareil à 200 dollars. Trois mois plus tard, les livraisons ont commencé et il est rapidement apparu que le “Large Action Model" n’était en fait qu’un concept marketing. En pratique, l’appareil accédait à un LLM (a priori d’OpenAi) via une API et tentait de se connecter à des applications en fonction de son interprétation des réponses du modèle (et après vous avoir demandé votre identifiant et mot de passe qui sont passés sur le réseau de façon non sécurisée). Et même si la solution était low tech, le taux de réussite rapporté par les utilisateurs semblent extrêmement faible …
  • Humane est une autre start-up dont la mission était de vous équiper d’un gadget intelligent pour remplacer votre smartphone. En mars 2023, la start-up dirigée par d’anciens designers d’Apple, a annoncé avoir levé 100 millions supplémentaires, portant alors le montant cummulé de ses tours de table a 230 millions de dollars. Le produit ne fut dévoilé qu'en novembre 2023 : un petit appareil appelé Ai Pin, s’appuyant sur les modèles d’OpenAI, et promettant de concentrer les fonctionnalités de toutes les apps de votre téléphone dans un appareil sans écran. L’appareil lui-même était vendu 700 dollars et un abonnement de 24 dollars était nécessaire.

    “Si mauvais qu’il en même difficile de cerner la raison d'être du produit" - Marques Bownlee

    “Après plusieurs jours de tests, la seule et unique chose pour laquelle je peux vraiment compter sur l'AI Pin est de m'indiquer l'heure." - The Verge

    Il y a un mois, The Verge révélait que le nombre d’appareils renvoyés par les clients dépassait les ventes mensuelles et que Humane n'avait d’autre solution que de les jeter. Et que par ailleurs des employés importants avaient quitté le navire.

  • Créée par Mustafa Suleyman, cofondateur de Deepmind, InflectionAi est l'un des rares producteurs de modèles de fondation à ne pas avoir choisi la voie de l'open-source pour attirer les utilisateurs. Mais il ne s’agissait pas d’une start-up comme les autres puisque, grâce à Suleyman - par ailleurs auteur d’un best-seller recommandant un contrôle strict des outils d’IA-, l’entreprise n’avait pas besoin de se faire un nom.

    Mi-2023, la start-up a ainsi pu lever 1,3 milliard de dollars auprès d’investisseurs comprenant Microsoft (investisseurs depuis un tour de table de 225 millions de dollars en 2022) et Nvidia. Inflection a annoncé cette levée de fonds quelques semaines après avoir publié son premier modèle appelé Pi. Leur stratégie à long terme consistait à mettre en place un énorme cluster de GPUs dont ils seraient propriétaires pour entraîner leurs modèles. Le premier modèle Pi devait être la démonstration des capacités d’Inflection et de leur positionnement dans l'écosystème : une intelligence artificielle « émotionnellement intelligente ». Mais tous ceux qui l’ont essayée semblaient s’accorder sur le fait que cette IA n’avait d’intelligente que le nom.

    En mars 2024, moins d’un an après la levée de fonds, Microsoft a débauché Suleyman et de nombreux ingénieurs d’Inflection et dédommagé les autres investisseurs à hauteur de 650 millions de dollars. La version officielle de cet épisode est que Microsoft a payé pour avoir accès aux modèles d’Inflection. Et c'est probablement ce que l'histoire retiendra à propos de Suleyman qui dirige désormais Microsoft AI.

Chat with PI. Source : Allie K. Miller

Si les principales victimes sont les fonds de capital risque et les acteurs historiques de la Tech ne sachant pas quoi faire de leur cash, les utilisateurs finaux - ceux qui achètent les équipements, comme dans les cas de Humane ou de Rabbit, peuvent se sentir floués. Pour les modèles, ce ne sont pas tant les utilisateurs finaux des modèles que les développeurs qui peuvent être frustrés d’avoir passé du temps à construire des solutions autour d’une API et d’avoir acheté des crédits pour un service qu’ils n’utiliseront pas. Heureusement dans le cas d’Inflection, personne n’a dû perdre du temps tant le modèle était inutile.

Des chiffres qui ne veulent rien dire.

Pour convaincre les clients, il faut montrer qu’on est bon. Et pour gagner des parts de marché il faut montrer qu’on est meilleur que les autres. Or les clients n’ont ni le bagage technique pour évaluer la performance, ni le temps de comparer les différents fournisseurs. Et dans les rares cas où les utilisateurs possèdent à la fois les compétences techniques et le temps, l’argent constitue un obstacle de taille car il faut reproduire les tests sur plusieurs API payantes et/ou en louant des GPUs pour faire tourner des modèles publics dans le cloud. Et pour valider les réponses, on peut aussi faire appel à un… LLM. Réaliser un benchmark représente donc potentiellement des millions de requêtes et la facture peut être très salée.

Des jeux d’évaluation standards et publics ont été mis au point de sorte que tout le monde puisse obtenir un score pour un modèle selon une méthode prédéfinie et que les modèles puissent être comparés entre eux**** sans avoir à tester tous les modèles dans des tests privés. Ces jeux de test étant par définition publics, les données d'évaluation finissent dans les corpus d'entraînement des modèles, soit parce que quelqu’un n’a pu résister à la tentation de les y mettre, soit parce qu’elles ont été scrappées de façon automatisée sur internet et que personne n’a pris la peine de filtrer le corpus. Tout le monde y trouve son compte et tous les modèles sont ainsi « contaminés » de façon plus ou moins évidente. C’est ce qui explique la saturation des benchmarks que l’on observe et, pour cette raison, il n’est pas vrai de dire que les derniers modèles d’OpenAI sont meilleurs que les précédents ou que les petits modèles de Microsoft rivalisent avec les gros modèles de Meta ou Mistral.

Source : OpenAi
Source : Microsoft

L’autre pratique très répandue pour fausser les évaluations est l’utilisation de différente techniques de prompting, c’est-a-dire prendre comme référence le score d’un modèle concurrent obtenu par un prompt simple (une question pour une réponse - 0-shot) mais à ne pas interroger son propre modèle de la même façon. On peut, par exemple, fournir des exemples de bonnes réponses dans le prompt (few-shots) ou demander au modèle d’expliciter son raisonnement “logique" ou sa stratégie pour obtenir la réponse (par exemple, par la strategie de chain of thoughts aussi appelée CoT). Un “bon" prompt peut augmenter significativement la performance d’un modèle mais le score qui en résulte ne reflète pas la performance relative aux autres modèles si le reste du tableau n’est pas soumis à une évaluation selon la même technique. L’autre problème de l’utilisation de différentes techniques est qu’un prompt simple nécessite moins de tokens à l'entrée et à la sortie que les techniques élaborées mais que le cout relatif des differentes approches n’est jamais explicité.

Source : Google

Si le grand public ignore encore que les benchmarks ont perdu toute forme de signification et n’ont plus de valeur que pour les départements Marketing, la communauté des utilisateurs s’est organisée pour mettre en place des évaluations alternatives basées sur des scores ELO. Dans la pratique, des utilisateurs comparent les réponses de deux modèles différents au même prompt, et votent pour le meilleur. Un score relatif peut ainsi être défini et le classement de LMSYS a longtemps été la référence dans le domaine. Mais ceux qui voyaient la panacée dans ces scores ELO oubliaient que le cœur de métier des laboratoires de recherche en IA était d’identifier des tendances dans un océan de données non structurées et d’aligner leur modèle pour les répliquer. Il n’est pas possible pour un score ELO du “saturer" mais il est très clair depuis quelques mois que les leaders du marché ont bien identifié les préférences des utilisateurs de LMSYS (par exemple en termes de format ou de longueur de la réponse) et tous les nouveaux modèles semblent produire des ELO scores sans corrélation avec les capacités réelles des modèles pour d’autres usages que le scoring de LMSYS. Les derniers modèles d’OpenAI ou celui de xAI peinent ainsi à justifier dans la pratique les scores qui les placent en haut du classement.

Source : LMSYS Arena
Source : OpenAi - ChatGPT

Pour les vendeurs de modèles, il ne s’agit pas seulement de prouver qu’ils sont les meilleurs pour attirer de nouveaux clients, mais aussi de pousser leurs clients existants à basculer vers des modèles plus compacts donc plus rapides et moins chers à servir. OpenAi a récemment défini GPT4o comme modèle par défaut en insistant dans sa communication sur la meilleure performance du modèle (sous entendu : selon les évaluations) ce qui ne se vérifie pas dans la pratique : GPT4-Turbo, prédécesseur de GPT4o reste meilleur mais il faut désormais fair une démarche pour y accéder. Si vous êtes un simple utilisateur payant son abonnement fixe mensuel, le coût pour OpenAi ou Anthropic vous importe peu ; utiliser un modèle moins cher n’impacte que la marge du vendeur et c’est de bonne guerre si vous y trouvez votre compte.

Mais si vous traitez de gros volumes de données ou produisez des données synthétiques, vous passez nécessairement par l’API et payez pour les tokens que vous consommez. Le prix et le débit, c'est-à-dire le nombre de tokens qui entrent dans le modèle (prompt) et qui sortent (réponse) chaque seconde, sont d’ailleurs les arguments principaux pour l’utilisation d’APIs plutôt que des modèles open-sources en local. Rares sont les utilisateurs qui ont l’infrastructure pour servir des modèles publics s’approchant de ceux d’OpenAI, d’Anthropic (Claude) ou de Google (Gemini) avec des débits similaires. Mais l’écosystème s’est rapidement doté de prestataires qui hébergent les meilleurs modèles open-sources et y donnent accès via une API. La compétition entre ces acteurs se fait à la fois sur le débit et sur le prix : les tokens sont a priori vendu à perte- en quelque sorte subventionnés par les fonds de capital risque- le million de tokens ne vaut que quelques centimes*****. Personne ne révèle vraiment sa recette pour servir les modèles à grande échelle mais il semble que, là aussi, on attire le chaland en affichant des chiffres parfois trompeurs.

Pour le comprendre, il faut repartir du score de l’évaluation, test public ou d’un score ELO, qui cimente la position d’un modèle open-source dans la hiérarchie. Un modèle rivalisant avec les modèle fermés d’après les évaluations - à condition qu’il soit correctement configuré par le prestataire**** - constitue un argument de vente déterminant. Dans le cas du plus gros modèle de Meta, Llama-3.1-405B, de nombreux prestataires ont rapidement ****** annoncé pouvoir servir le modèle à des prix et des débits extrêmement compétitifs par rapport aux modèles fermés. L’une des clés pour servir ce modèle de façon économique est de réduire la précision des paramètres du modèle.

Le concept de précision des nombres en informatique n’est pas tout à fait trivial mais vous pouvez imaginer que chaque paramètre est un nombre qui prend plus de place, en nombre de bits, si la précision est grande. Moins la précision est grande, plus les opérations se feront rapidement et moins cela coûtera cher mais, comme son nom l’indique, moins les calculs seront précis ce qui impacte la performance. Dans le cas de Llama-3.1-405B, les prestataires ont quasiment tous initialement servi le modèle avec une précision moindre (FP8, pour 8 bits soit 1 octet) que celle avec laquelle les évaluations avaient été réalisées par Meta (bf16, 16 bits). Nous arriverons peut-être un jour à des versions quantizée (à précision réduite) sans dégradation mais ce n’est pas encore le cas. Si peu d’utilisateurs pourraient noter la différence, il fallait savoir lire entre les lignes pour identifier la dichotomie bien réelle entre le service vendu et la performance servie.

Cette asymétrie d’information laisse d’ailleurs penser que certains prestataires servent des versions encore plus quantizées (ce qui est typiquement le cas pour l’inférence locale) sans l’expliciter. Il n’est pas non plus à exclure que les prestataires quels qu'ils soient (API de modèles fermés ou hébergeurs de modèles open-sources) basculent entre différentes versions de modèles pour faire face à des pics de demande. Il n’y a d’ailleurs aucune façon de garantir que les requêtes soient aiguillées vers tel ou tel modèle, et certains ont parfois dû se défendre d’avoir changé le modèle sous-jacent sans avoir prévenu les clients. Dans tous les cas, construire une solution autour d’un modèle spécifique et espérer y avoir acces sur le long terme semble être une stratégie risquée.

Source : OpenAi - ChatGPT

Outil ou système?

Lorsqu’on utilise un outil d’IA générative via un navigateur ou via une API, le besoin de clarté sur le service rendu dépasse la simple question du modèle vers lequel la requête est aiguillée. Au sujet de l’encadrement des réponses par le prestataire lui-même, le manque de transparence est souvent gênant. Il y a plusieurs manières d'interférer pour promouvoir ou censurer certaines informations que pourraient générer le modèle :

  • d’abord, durant les phases de post-training et de renforcement qui suivent l’entraînement du modèle. Ces phases sont importantes pour permettre aux utilisateurs d’interagir de façon naturelle avec les modèles mais elles servent aussi à les aligner avec certaines valeurs. C’est par exemple ce qui avait conduit à la controverse autour du modèle de génération d’images de Google qui avait été tellement entraîné à montrer de la diversité qu’il sous-représentait les personnes blanches (et c’est un euphémisme).
    Source : BBC
  • par une altération du prompt de l’utilisateur, typiquement en y attachant un prompt système défini par le prestataire afin d’ajouter automatiquement des instructions sur la façon de traiter les requêtes. A part dans le cas d’Anthropic, ces prompts systèmes sont rarement publics et sont révélés par les LLMs eux-mêmes quand leurs utilisateurs arrivent à leur extirper ces informations*******. S’il serait tentant de tresser des lauriers à Anthropic pour leur transparence, il a été révélé récemment que certaines phrases étaient ajoutées à toutes les requêtes via API, ce qu’ils n’avaient jamais dit.
  • Il est enfin possible de guider le modèle par des vecteurs de contrôles qui changent directement la façon dont les neurones sont activés. La méthode a fait ses preuves de façon expérimentale mais il n’est pas clair si elle est appliquée en production. La recherche et les avancées dans le domaine de l’interprétabilité des modèles laisse entrevoir un usage plus large de ces vecteurs de contrôle.

Certaines institutions se sentent investies de la responsabilité de faire simuler des valeurs à leurs modèles en interdisant de répondre à certaines questions. Si l’intention peut sembler louable de prime abord ce n’est en rien différent de la politique du Parti communiste chinois visant, littéralement, à s’assurer que les modèles accessibles au public « promeuvent les valeurs socialistes » (c’est dans la loi!).

Quelle protection des données?

Enfin, un aspect essentiel de la relation commerciale entre fournisseurs et clients de LLMs est l’utilisation des données. Les questions se posent pour les données que vous soumettez, et pour les données qui ressortent du modèle. Les développeurs de modèles ont à la fois intérêt à récupérer vos données pour entraîner leur modèles (au mieux c’est autorisé par défaut, au pire ce n’est pas clair) et à vous interdire d’utiliser les données qui ressortent du modèle à des fins commerciales (voire à faire en sorte que les données produites par le modèle leur appartiennent).

Source : OpenAi - ChatGPT

Toute personne qui travaille beaucoup avec les LLMs comme assistants sait que, très rapidement, il n’y a plus de distinction possible entre les données issues de l’utilisateur et celles issues du modèle car c’est un processus itératif auquel l’homme et la machine contribuent, chacun recopiant et modifiant les suggestions de l’autre. Les conditions d’utilisation et de protection des données ne fonctionnent pas vraiment dans la pratique. Ce sujet n’est certainement pas une préoccupation majeure pour les utilisateurs individuels mais une entreprise sera certainement plus sensible à l'intégration de ses données dans les corpus d'entraînement, et les incertitudes sur la propriété des données issues du modèle constituent une épée de Damoclès si la relation avec le prestataire venait à se détériorer. Les départements juridiques seraient par ailleurs bien avisés de s’enquérir de qui est responsable si un modèle conduit à des fuites de données sensibles. Car comme dans le cas des prompts systèmes censés être confidentiels, les LLMs ont énormément de mal à garder un secret******* lorsqu’on leur soumet une information…


* les données sur la satisfaction des utilisateurs sont le plus souvent partagées dans le cadre de modèles internes. Amazon ou Meta communiquent sur le nombre d’heures économisées (principalement en jours-hommes de développement) mais ceci est à relativiser car ce qui est quantifié est la satisfaction des managers/actionnaires et non pas celles des utilisateurs (les développeurs)
** aujourd’hui rien n’empêche les clients de changer de vendeur d’API pour accéder aux modèles, ni ne les incite vraiment à rester. La partie de la chaine de valeur qui semble la moins exposée au transfert de client est l’infrastructure (data centers)
***Si elle est très largement relayée dans la presse, la stratégie du “winner takes all" liée à l'intensité en capital de cette industrie naissante est très loin d’être une évidence. Les mastodontes du secteur sont quasiment obligés d’axer leur communication là- dessus car cela justifie leur valorisation (et les levées de fonds régulières). Si vous entendez parler du fait qu’il n’y a pas de limite aux “scaling laws" c’est de ça qu’il s’agit: plus vous dépensez, plus votre modèle sera performant. Mais encore une fois, il faut se poser la question de l’évaluation de la performance et d’autres limites non liées à la puissance de calcul (FLOPS) qui n’est qu’une composante du hardware alors que la mémoire par exemple ne suit pas la même courbe. Il est tout à fait envisageable que le secteur se structure différemment, non pas autour de quelques fournisseurs de modèles généralistes qui doivent être performant dans tous les domaines, mais une multitude de petits modèles spécialisés - bien plus économiques au moment de l’inférence - et dont l’activation est orchestrée par un système qui peut s’appuyer ou non sur des réseaux de neurones. Entre aussi en compte le taux d'utilisation des GPUs : un modèle généraliste a plus de chances de maximiser le taux d'utilisation ce qui peut être un avantage par rapport aux petits modèles. Il paraît difficile de prédire aujourd’hui la structure de cette industrie dans 5 ans.
**** les modèles sont extrêmement sensibles aux paramètres d'inférence et au format du prompt. Un paramètre mal calibré ou un caractère (un espace) mal placé peut significativement impacter la « performance » mais si dans le cas présenté ci-dessous, il est trop tôt pour dire si le problème de Reflection est un problème de paramètre ou si c'est un problème de mensonge sur le score de l'évaluation initiale. Quelle que soit la raison, Reflection sera un excellent cas d'étude des pratiques qui ont cours dans cette industrie sans que personne ne s'en émeuve.
***** si l’adoption de modèles chinois est encore marginale, les Chinois comme Deepseek contribuent largement à la guerre des prix. Le coût des tokens a été divisé par plus de 100 en 2 ans toutes choses égales par ailleurs.
****** il faut en général se méfier des premières mises en production car le code proposé par le développeur du modèle contient généralement des bugs qui ne sont corrigés que plus tard.
*******les prompts système donnent généralement l'instruction aux modèles de ne pas révéler le prompt système, mais aucun modèle ne peut réellement garder un secret. Il faut le savoir car cela a des conséquences majeures pour la sécurité des informations auxquelles ils ont accès
We care about your privacy so we do not store nor use any cookie unless it is stricly necessary to make the website to work
Got it
Learn more