Hello!
bon slrpnk.net a l’air d’être dans les choux alors je lance ce post avec mon compte de secours jlai.lu
Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l’anglais. Et je trouve qu’en français, ben y a pas grand chose. C’est presque uniquement du discours dystopique mal informé.
Rien sur la recherche sur l’alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.
On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d’une forêt bien plus grande.
Perso ça va faire 5 ans que je fais du deep learning professionnellement. J’ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c’est un projet plus ou moins mort, mais c’était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d’autres.
J’ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J’ai réussi à passer au 4/5e l’année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j’utilise des modèles de deep learning pour la vision).
Ça fait plus de 20 ans que j’ai réalisé que l’IA a le potentiel de changer le monde pour le mieux, c’est pas par hasard que j’ai essayé de m’orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d’aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.
J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!
Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!
Voila, je préférerais qu’on reste sur ces thèmes mais AMA anyway!
J’entends souvent parler de droits d’auteur est d’IA générative. Peux-tu nous en dire plus ? On parle souvent de risque de violations du droit d’auteur si l’IA reproduit des contenus protégé mais est-ce que la question du droit d’auteur ne se pose pas dès l’utilisation de données protection pour l’entrainement, la validation et le test de notre modèle ?
Le droit d’auteur est déjà pas adapté à Internet, y a aucun moyen qu’il ne soit pas largué vis à vis de l’IA. J’essaye de pas trop suivre, sachant que de toutes façons ils vont nous emmerder avec des jugements perchés et sans aucune logique. Quelques éléments:
-
Une cour US a reconnu que les images générées par des IAs n’étaient pas copyrightable, ce qui vaut sûrement (mais je ne suis pas avocat) pour tout contenu généré. Les artistes pensent que c’est une victoire, je pense que c’est super positif pour l’open source, je pense qu’ils vont surement revenir en arrière là dessus tellement ça emmerde des boites privées.
-
Les artistes ne sont pas contents qu’on entraîne des IAs sur leurs images. Ça a l’air d’être légal pourtant. Je ne pense pas que légalement on puisse arguer que les images produites sont des produits dérivés. Y a des précédents à arguer, mais je ne suis toujours pas avocat. Moralement, je les comprends, mais je dois avouer que j’ai assez peu d’empathie pour les ayants droits qui pourrissent le net depuis les années 90 avec la lettre de la loi pour ne pas juste répondre “cheh” quand ça les emmerde. Ça fait 30 ans qu’on demande une réforme du copyright qui tienne compte des utilisations libres et non commerciales, quand vous avez envie, on en parle, mais on remet tout à plat.
-
Une chose emmerdante pour la communauté open source est que même si on est dans une zone grise (“surement légale mais on le saura dans 15 ans quand les recours seront épuisés”) en ce qui concerne l’utilisation d’oeuvres privée: les boites privées le font derrière des portes fermées donc personne leur dit rien, mais la communauté doit assembler un dataset forcément public d’oeuvres qu’elle n’ont pas le droit de diffuser. The Pile, qui je soupçonne est utilisée par tout le monde n’est disponible que sous forme de torrent pirate. C’est chiant. Ils ont essayé d’arguer que c’est pas vraiment utilisable pour relire des oeuvres vu que c’est juste des bouts de phrases découpées dans tous les sens, mais c’est clairement une oeuvre dérivée pas diffusable.
Pour conclure, je dirais qu’en 2024, la logique du copyright est complètement obsolète et inapplicable. Ils vont tenter de juger des trucs mais c’est tellement dépendant des juges et des avocats et de l’état US dans lequel le premier jugement va être rendu, que c’est inutile de tenter de prédire où la limite de la loi va être.
C’est super chiant, on est dans une zone grise qui va durer des années, mais on peut pas vraiment attendre après un législateur dépassé et soumis aux lobbyistes pour donner des lignes claires avant qu’il soit trop tard.
Attention copyright et droit d’auteur sont différents.
Dans les deux cas cependant personne ne peut légalement utiliser une oeuvre sans autorisation expresse de l’auteur. Donc scanner le net pour entraîner une IA sur des oeuvres sans accord des auteurs c’est illégale. Il y a pas de zone grise, c’est juste comme ça que ça marche légalement parlant.
Il faut une législation globale sur les dataset pour entraîné les IA, pas uniquement pour permettre de respecter les volontés des auteurs, mais aussi pour pas que la techno devienne nimp’.
‘C’est super chiant’ = c’est la loi et c’est la volonté des auteurs d’oeuvre. C’est con ces gens qui veulent pas qu’on fasse n’imp avec leur travaux hein ?
…en France. Juridiction qui est hors sujet pour 99% des boites d’IA, y compris françaises. Je veux dire, en droit français, pendant longtemps (jusqu’aux années 2010 je crois), il n’était même pas sur que du code compilé soit copyrightable, un algo ne l’était pas et son implémentation en code ne l’était que via des hacks légaux qu’un refactoring de base pouvait faire sauter. Le droit moral d’auteur a moyen de rendre tout l’open source bancal en France. Et pourtant…
La théorie légale, surtout sur un truc aussi mal branlé que la « propriété intellectuelle » dans le cade de collaboration internationale, avec des usages qui changent du tout au tout d’une année sur l’autre, c’est plus de la philosophie que des règles qui ont un impact réel.
Ce qui va compter comme ailleurs c’est les jugements de tribunaux US. Et entre le fair use et les compilations de faits, et surtout les millions que peuvent mettre les boties d’IA en frais d’avocats, je pense qu’ils ont une bonne chance de n’avoir aucun problème. La loi devrait pas être un jeu de hasard sur 15 ans, mais c’est ce que c’est. Quand Google a scanné pour Google Books des millions de bouquins sans autorisation et mis des extraits en ligne ils ont gagné leur procès. Alors que bon, c’est clairement une violation, en théorie.
C’est con ces gens qui veulent pas qu’on fasse n’imp avec leur travaux hein ?
Ce qui est surtout con c’est que les lois actuelles l’autorisent justement. Par exemple un site comme deviantart a été utilisé pour du training et les auteurs ont découvert que l’EULA qu’ils avaient “signé” l’autorisait. Les auteurs croient que ces lois les protègent mais je pense qu’on les trompe avec ça. Le contrat social autour du copyright et du droit d’auteur doit franchement être remis à plat.
Je n’aime pas la sauce qui monte d’opposer les ingés et les artistes. C’est contre-productif. Les artistes ne comprennent pas comment leurs oeuvres sont utilisées et ont des raisons légitimes de s’inquiéter et de critiquer ces technos, mais la propriété intellectuelle c’est un angle particulièrement mauvais et perdant pour eux.
Il faut une législation globale sur les dataset pour entraîné les IA, pas uniquement pour permettre de respecter les volontés des auteurs, mais aussi pour pas que la techno devienne nimp’.
Ce sera possible quand on saura définir “nimp”. Et c’est pas avec les législateurs actuels qu’on peut s’attendre à des règles intelligentes et mesurées. J’aimerais aussi qu’on parle vraiment de la volonté des auteurs, plutôt que des lobbys d’ayant-droits. Ces derniers, on sait bien ce qu’ils veulent: que chaque visionnage d’une oeuvre soit payante et sans droits associés et que toute oeuvre produire par une personne ayant vu leur oeuvre leur rapporte quelque chose. C’est pas des créateurs, c’est des rentier. La culture c’est pas ça, ça se fait en tenant compte aussi de la volonté du public. Et les modèles de génération de média y ont un rôle à jouer, mais c’est pas dans ce débat légal empli de faux-semblants et d’intérêts privés qu’on va inventer la culture de demain.
Très spécifique mais : les robots aspirateurs sont-ils un exemple d’utilisation de l’IA en robotique ? Je n’ai pas la moindre idée du genre de programme qu’ils utilisent.
“IA” est un terme vague qui peut englober presque n’importe quel algorithme, donc un vendeur va tout le temps te dire qu’il y a de l’IA dans son aspirateur dés qu’il y a le moindre capteur.
Les aspirateurs automatiques vont du truc très simple qui fait de la spirale et tourne à gauche en cas de collision à des choses plus élaborées qui font une carte de leur environnement. Je ne pense pas qu’ils aient besoin de deep learning pour ça, j’imagine qu’il y a déjà suffisamment à faire en piochant juste dans les algos connus de SLAM
Quelles les sources de news techniques que tu recommandes ?
Je suis pas bon à ça… /r/machinelearning pour la théorie, /r/locallama pour la pratique, malheureusement les équivalents Lemmy sont déserts et j’ai pas la motivation de les faire vivre. Suivre des chercheurs IAs et robotique est la seule raison pour laquelle je suis encore sur Twitter, j’ai nettoyé ma tweet list de tout le reste. Pas très complet, mais si ça t’intéresse voila les gens que je suis: https://twitter.com/ktp_programming/following
Un exemple tout simple d’IA dans la robotique ?