Qu’est-ce que l’Intelligence Artificielle (IA) générative ?
En novembre 2022, OpenAI, entreprise qui était alors encore méconnue du grand public, lance publiquement son premier modèle de ChatGPT (Chat Generative Pre-trained Transformer).
Aujourd’hui, une multitude d’acteurs sont parties prenantes de cette course à l’innovation.
La concurrence s’exerce-t-elle librement sur le marché de l’IA générative ?
Début 2024, l’Autorité de la Concurrence (ADLC) s’est intéressée au fonctionnement concurrentiel du secteur de l’IA générative. Elle a analysé près d’une cinquantaine de contributions des acteurs du secteur pour livrer un avis détaillé (plus de 100 pages) de la situation concurrentielle du marché de l’IA générative.
Cet avis s’intéresse plus particulièrement à l’amont de la chaîne de valeur de l’IA générative, c’est-à-dire au stade de la conception, de l’entrainement et de la spécialisation des modèles de langage.
L’ADLC explique, dans son communiqué accompagnant l’avis rendu sur le fonctionnement concurrentiel du secteur de l’IA générative, que la concurrence sur ce marché repose non seulement sur la capacité des acteurs à développer des modèles toujours plus puissants et polyvalents, mais aussi sur l’accès aux vastes ressources informatiques nécessaires pour entraîner ces modèles (c’est-à-dire en amont de la chaîne de valeur). Les acteurs déjà présents sur le cloud ont ainsi une longueur d’avance.
Par ailleurs, la différenciation se joue sur les applications pratiques : chaque acteur cherche à proposer des solutions spécifiques adaptées aux besoins de marchés variés, allant de la génération de contenu créatif à l’automatisation de processus industriels. Cette compétition intense est alimentée par les investissements colossaux en R&D, tout en étant marquée par des enjeux stratégiques autour de la propriété des données, de la régulation et de l’éthique qui façonnent la dynamique du secteur.
L’ADLC identifie des questions liées à l’accès à ces ressources, à la puissance de calcul, aux données et à une main d’œuvre qualifiée, mais aussi aux prises de participations et aux partenariats des grands acteurs du numérique, ainsi qu’aux risques de collusion entre les acteurs du secteur.
Un marché dominé par de puissants acteurs
Le secteur de l’IA générative implique évidemment les grands acteurs du numérique (notamment Alphabet et Microsoft qui sont omniprésents à différents échelons, ainsi que d’autres acteurs présents sur des activités plus spécifiques comme Amazon qui est particulièrement impliqué en matière de cloud, l’informatique en nuage). Cela concerne aussi différents développeurs de modèles (qu’ils s’agissent de start-up ou de laboratoires) qui sont spécialisés dans la modélisation de l’IA générative impliquant un processus d’apprentissage. La création de modèles d’IA générative est donc le fruit d’une collaboration étroite entre ces acteurs, impliquant aussi des fournisseurs très spécifiques, essentiels pour l’entrainement des modèles d’IA générative :
- Les fournisseurs de composants informatiques: l’IA générative, comme tout secteur lié à l’informatique, est grande consommatrice de composants hardware, notamment les GPU (Graphics Processing Unit) ou processeur graphique. Les GPU apportent une extraordinaire puissance de calcul permettant de former, d’optimiser et d’exploiter des algorithmes complexes nécessaires au fonctionnement de l’IA et de traiter d’importants volumes de données.
- Les fournisseurs de cloud ou services informatiques en nuage: le fournisseur de services cloud va permettre, par le biais de ses services de plateforme, d’infrastructure, d’application et de stockage, de fournir des ressources de calcul à distance suffisantes aux développeurs de modèles. On y retrouve les « hyperscalers » habituels comme Amazon Web Services (AWS), Microsoft Azure et Google Cloud Platform (GCP), des fournisseurs de cloud comme OVHCloud ainsi que des fournisseurs spécialisés dans l’IA comme CoreWeave.
Ces différents acteurs vont intervenir, en fonction des spécificités de leur rôle, dans deux phases distinctes de la vie d’une IA générative : l’entrainement (qui requiert une grande puissance de calcul et un volume important de données pour la phase dite d’apprentissage du modèle d’IA) et l’inférence (qui correspond à l’utilisation du modèle et requiert une puissance de calcul fonction du nombre d’utilisateurs et des demandes générées).
Un secteur marqué par de fortes barrières à l’entrée
L’ADLC insiste sur le fait que bien qu’hautement concurrentiel, le marché de l’IA générative est marqué par de fortes barrières à l’entrée (l’ADLC en identifie au moins 5).
En premier lieu, le marché est à l’affût d’ingénieurs, hautement qualifiés, qui développent ces modèles et sont capables de coder et de mettre en place une architecture performante. Ces profils sont d’autant plus recherchés que les compétences théoriques ne sont pas suffisantes, les postes à pourvoir exigent des compétences pratiques acquises par des expériences passées. En somme, ils sont très peu nombreux à pouvoir prétendre à ces postes et sont en conséquence très recherchés.
Il y a ensuite les composants hardware, mentionnés précédemment, dont la puissance de calcul est absolument nécessaire afin de pouvoir entraîner correctement les modèles. Ces processeurs graphiques ne sont commercialisés que par quelques entreprises notamment Nvidia ou Google, ils sont très coûteux et indispensables pour l’entrainement et l’inférence des modèles d’IA. La demande est tellement élevée que le secteur a fait l’objet d’importantes pénuries.
Par ailleurs, les entreprises souhaitant initier des modèles d’IA doivent avoir accès à des quantités importantes de données, l’objectif étant « d’alimenter » suffisamment le modèle pour l’entrainer. La masse de données nécessaire afin d’alimenter l’IA est souvent recueillie au sein de sources publiquement accessibles qu’il est nécessaire de trier afin qu’elles soient correctement traitées et utilisées par l’IA. L’accès aux données est une source d’inquiétude pour les acteurs du marché pour diverses raisons : caractère pérenne de cet accès, évolution de la législation à cet égard, droits de propriété intellectuelle, etc.
Le cloud est également un investissement obligatoire pour accéder à la puissance de calcul nécessaire à l’entrainement de modèle d’IA. Par ailleurs, les entreprises utilisatrices de services cloud accèdent aussi aux modèles via les places de marché de ces fournisseurs. Les développeurs ont ainsi intérêt à rendre leurs modèles disponibles sur les places de marché des différents fournisseurs de cloud.
C’est enfin le financement qui constitue la principale barrière à l’entrée du secteur de l’IA générative. L’ADLC relève que les investissements dans le secteur ont été multipliés par près de six entre 2022 et 2023 (ils atteignent plusieurs milliards d’euros pour l’ensemble du secteur). Cela s’explique, d’une part, par la nécessité de pousser l’innovation technologique toujours plus loin, que ce soit dans le développement de modèles plus optimisés, de composants hardwares plus puissants ; et, d’autre part, par les investissements dans le maintien des infrastructures toujours plus couteuses, telles que le cloud, afin de permettre un accès facile, rapide et constant aux IA.
Des avantages concurrentiels pour certains acteurs liés à leur présence sur d’autres marchés du numérique
Du fait de leur position dominante sur le secteur du numérique, de leurs capacités financières et de leur présence sur des marchés connexes à celui de l’IA générative, les grandes entreprises bénéficient d’avantages certains sur le marché de l’IA générative. Notamment, elles bénéficient de ce que l’ADLC identifie comme « un accès privilégié aux intrants » à savoir à la puissance de calcul, à de larges volumes de données et à du personnel qualifié.
L’ADLC rappelle que la puissance de calcul est un paramètre qui a déjà été pris en compte par ces grandes entreprises qui ont ainsi pu investir, pour certaines, dans le développement de leurs propres accélérateurs d’IA comme les TPU de Google ou le Trainium d’AWS, adaptés à leurs propres écosystèmes afin de ne pas nécessairement avoir à recourir à ceux de Nvidia. Pour les autres, même sans le développement de leurs accélérateurs, il leur est plus facile de négocier des prix en achetant en grande quantité et en concluant des accords préférentiels notamment avec Nvidia.
Par ailleurs, ces entreprises bénéficient d’un accès plus aisé à des données importantes, soit par le biais de leurs bases de données internes, par exemple du fait d’activités connexes comme Google avec son moteur de recherche ou encore YouTube ; soit par leur capacité à acheter de tels accès (bien illustré par l’accord conclu par Google pour accéder aux données de Reddit, un site communautaire américain de discussions et d’actualités sociales, pour quelques 60 m$).
Notons également que ces entreprises bénéficient d’un accès privilégié aux rares personnes qualifiées en la matière, grâce notamment aux salaires attractifs et aux conditions de travail avantageuses offertes par ces entreprises.
En plus de ces avantages d’accès aux intrants, les grandes entreprises du numérique bénéficient d’avantages liés à leur intégration verticale (donc en amont ou en aval) et conglomérale (c’est-à-dire sur des marchés connexes, i.e. liés au marché de l’IA générative). Un point important peut, par exemple, être relevé : les données issues de l’utilisation par des utilisateurs-clients des outils reposant sur les modèles d’IA sont exploitées par ces entreprises pour enrichir leurs bases de données, affiner les futurs modèles et améliorer leur performance. Cette intégration des outils d’IA dans leurs écosystèmes (par exemple, fonction Copilot pour l’outil de recherche de Microsoft Bing) permet de proposer de nouveaux services mais aussi (car utilisant déjà les services proposés par ces acteurs).
En conclusion : un secteur concurrentiel empreint de risques notamment en amont de la chaîne de valeur
L’ADLC ne se prononce pas sur la définition de marchés pertinents dans le secteur de l’IA générative. Elle estime qu’il est également prématuré de se prononcer sur les parts de marché des acteurs qui y sont présents, même si elle laisse entendre qu’il est certain que la position de certains acteurs crée les conditions d’une forte concentration à leur profit.
Au cours de son enquête, l’ADLC a identifié plusieurs risques d’abus, notamment en amont de la chaîne de valeur, pouvant restreindre la concurrence.
Ces pratiques seront, sans nul doute, attentivement surveillées par l’ADLC sous l’angle des ententes anticoncurrentielles mais, aussi et surtout, de l’abus de dépendance économique et de l’abus de position dominante (articles L.420-1 et L.420-2 du code de commerce).
L’ADLC imagine ainsi aisément :
- des risques d’abus au niveau des composants informatiques (fixation des prix, restrictions de l’approvisionnement, imposition de conditions contractuelles déloyales, comportements discriminatoires ou encore concentration de la puissance de calcul aux mains d’une poignée d’acteurs) ;
- des risques de verrouillage du marché;
- des risques relatifs à l’accès aux données: refus d’accès, imposition de conditions discriminatoires d’accès ou encore pratiques visant à se réserver une exclusivité d’accès à certaines données ;
- des risques liés à l’accès à une main d’œuvre qualifiée: accords de non-débauchage pouvant constituer des pratiques anticoncurrentielles prohibées ou pratiques visant à exclure certains concurrents en recrutant l’ensemble des ressources humaines compétentes du marché ; et
- des risques liés à la présence d’entreprises sur plusieurs marchés distincts : ce positionnement des grands acteurs serait susceptible de nuire à la concurrence entre les acteurs, à l’innovation ainsi qu’à la diversité des offres proposées aux consommateurs (notamment, refus ou limites d’accès à des puces ou données nécessaires pour entrainer des modèles concurrents, accords d’exclusivité entre fournisseurs de services cloud et développeurs de modèles susceptibles d’avoir un impact sur la concurrence entre fournisseurs, prises de participations minoritaires et partenariats des géants du numérique susceptibles d’affaiblir l’intensité concurrentielle entre deux entités, risques de collusion entre entreprises du secteur, etc.).
Les recommandations de l’ADLC
Parmi les recommandations formulées par l’ADLC, outre l’appel lancé aux différents services d’instruction (Commission européenne, DGCCRF, etc.) d’utiliser pleinement le cadre règlementaire pour garantir la dynamique concurrentielle du secteur, on relèvera qu’elle se prononce en faveur du développement de supercalculateurs publics qui permettraient aux opérateurs académiques (voire privés, contre rémunération) d’accéder à la puissance de calcul, ressource clé du marché de l’IA générative. Alors que la compétition règne entre les acteurs privés, les pouvoirs publics investiront-ils eux aussi ce secteur d’avenir ?