Mercredi, Elon Musk, PDG de Twitter, Tesla et SpaceX, a tweeté une menace de poursuite contre Microsoft, accusant le géant du logiciel d’utiliser illégalement les données de Twitter pour former son modèle d’intelligence artificielle (IA). Cela s’est produit après que Mashable a annoncé que Microsoft prévoyait de supprimer Twitter de sa plate-forme publicitaire, qui permet aux acheteurs d’annonces de gérer tous leurs comptes de médias sociaux en un seul endroit.
Le tweet de Musk disait : « Ils se sont entraînés illégalement en utilisant les données de Twitter. C’est l’heure du procès. » Cependant, aucune action en justice ne semble avoir été déposée, et ni Twitter ni Microsoft n’ont commenté de manière significative la question.
La propriété des données devient une question controversée dans la course au développement de l’IA générative, les grandes entreprises technologiques cherchant à développer des modèles de pointe et les propriétaires de données cherchant à les arrêter ou à facturer l’utilisation de leur contenu. Microsoft développe ses propres grands modèles de langage (LLM) et vend l’accès aux modèles d’OpenAI, dans lesquels il a investi 10 milliards de dollars l’année dernière dans un accord inhabituellement structuré. Musk était co-fondateur d’OpenAI avant de quitter son conseil d’administration en 2018 et a critiqué le passage de l’entreprise d’un modèle à but non lucratif à une entreprise très précieuse influencée par Microsoft.
Les LLM comme le GPT d’OpenAI nécessitent des téraoctets de données pour la formation, dont une grande partie provient de sites Web tels que Reddit, StackOverflow et Twitter. Les données de formation sur les réseaux sociaux sont précieuses car elles capturent des conversations informelles en va-et-vient. Alors que ces modèles d’IA passent des laboratoires de recherche et des universités au monde de l’entreprise, les propriétaires de données commencent à faire des demandes.
Par exemple, Reddit a annoncé plus tôt cette semaine qu’il facturerait aux entreprises l’accès à son interface de programmation utilisée pour alimenter les conversations entre les utilisateurs dans le logiciel de formation à l’IA. Universal Music Group a également déclaré cette semaine que la formation par l’IA de la musique des artistes violerait leurs accords et la loi sur le droit d’auteur en réponse à une vidéo virale d’une chanson qui prétendait utiliser l’IA pour imiter le rappeur Drake. De plus, Getty Images poursuit Stable Diffusion, alléguant que la société a copié son contenu pour entraîner son générateur d’images IA.
En décembre, Musk a déclaré que Twitter « suspendrait » l’accès d’OpenAI à sa base de données. Il a également annoncé son intention de créer son propre grand modèle de langage dans l’une de ses sociétés appelée TruthGPT.

C’est peut-être une manière subtile et peu coûteuse de rappeler à ChatGPT qu’il faut passer à la caisse. De cette manière c’est le client qui vient demander le prix tout en sachant qu’il a fauté en utilisant des données sans payer (donc situation de négociation plus favorable pour Elon).
Il est malin le Sud-Africain !
Les chinois doivent bien rigoler, les ricains se fight entre eux!