Hello!

bon slrpnk.net a l’air d’être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l’anglais. Et je trouve qu’en français, ben y a pas grand chose. C’est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l’alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d’une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J’ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c’est un projet plus ou moins mort, mais c’était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d’autres.

J’ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J’ai réussi à passer au 4/5e l’année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j’utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j’ai réalisé que l’IA a le potentiel de changer le monde pour le mieux, c’est pas par hasard que j’ai essayé de m’orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d’aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu’on reste sur ces thèmes mais AMA anyway!

5 points

Coucou merci pour l’AMA !

Quelle est la réalité du problème d’AI imbreeding que certains relèvent ? Si j’ai bien compris il y a un risque que les modèles (de langage ou de génération d’image) apprennent sur du contenu généré par IA, ce qui entraînerait à des résultats de plus en plus mauvais ?

Je suppose que ma question est plutôt quelles sont les mesures prises dans le milieu pour s’assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d’entraîner l’IA ?

Et en plus léger, qu’elle est la première fois que tu as entendu parler d’IA ?

permalink
report
reply
5 points
*

Perso je ne crois pas que ce soit un problème, ou en tous cas pas encore. Les publis que j’ai vu sur le sujet semblent indiquer que les sorties de LLMs produisent des datasets de meilleure qualité que les datasets originaux. Et quand on y pense, ça a du sens: un modèle a été entraîné à produire des “bons” textes à partir d’un peu n’importe quoi. Il y a une certaine logique à ce qu’un premier LLM arrive à faire une version améliorée du premier dataset.

Est ce qu’on peut itérer longtemps comme ça? Pas sur, mais je pense qu’on surestime le problème voire qu’on l’imagine.

quelles sont les mesures prises dans le milieu pour s’assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d’entraîner l’IA ?

Pour ceux qui sont dans la course à la perf et au meilleur benchmark: zéro. Tant que mettre plus de données améliore les résultats, ils font ça. Tout github, tout reddit, tout facebook y passe.

La recherche est en train de montrer que - surprise! - la qualité des données d’entraînement influe grandement sur la qualité du modèle et ça intéresse surtout les groupes avec moins de moyens.

Les chercheurs qui travaillent sur les problèmes d’alignement (d’éthique) s’intéressent à ces questions aussi. Par exemple une discussion intéressante avait lieu à EleutherAI pendant qu’ils assemblaient The Pile: Est ce qu’il faut intégrer toute la librairie du Congrès US? D’un coté c’est intéressant d’avoir des siècles de discussion législative, de l’autre, sur une bonne partie de cette période, on considère que les noirs sont une marchandises et sur la majorité de la période, des citoyens de seconde zone.

Ce qu’il y a d’intéressant c’est que des données pourries, biaisées, racistes, peuvent tout de même aider le modèle à s’améliorer, mais il faut que ce soit fait correctement et il y a là matière à des débats qui relèvent de la politique et de la philosophie appliquées (“Peut-on combattre le racisme en ignorant les thèses racistes?” Vous avez 4 heures)

permalink
report
parent
reply
4 points

Merci pour tous ces détails !

permalink
report
parent
reply
3 points

Et en plus léger, qu’elle est la première fois que tu as entendu parler d’IA ?

Oh ça date! Je lis de la SF depuis que je suis petit, et les robots m’ont toujours fasciné, on m’a rapidement expliqué que le software était le plus gros facteur limitant, du coup l’IA devient le problème à résoudre rapidement. Je pense pas avoir eu plus de 12 ans quand on a commencé à en discuter.

permalink
report
parent
reply
5 points

J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF

T’en écris toi même ? Je suis curieux de ce que peuvent donner les LLM en littérature mais j’ai l’impression qu’il faut des prompts bien pensés et écrits pour avoir de bons résultats. Moi en jouant un petit peu j’ai pas eu des trucs très convaincants mais je suis passé sur un stream de MonsieurPhi où il donnait des prompts très longues avec des exemples de texte pour générer des microfictions et ça marchait plutôt bien. Bref, qu’est ce que tu penses des LLMs pour une utilisation “artistique”, et est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

permalink
report
reply
4 points

Je m’y suis essayé. J’aime bien écrire, mais assez rapidement, écrire de la SF me frustre: penser aux possibilités de la techno me donne envie de les réaliser, pas de fantasmer dessus!

Sur les LLMs et la littérature, j’ai été surpris d’entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C’est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu’on lit pour échanger avec un auteur. Alors c’est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l’intention humaine derrière un texte fait en effet partie de l’expérience.

Le problème que j’ai eu quand j’ai essayé des trucs (avec GPT3.5 je pense à l’époque) c’est que les modèles ont du mal à rester cohérents. Tu explores une cave et tu te retrouves sur un balcon, des objets apparaissent ou disparaissent, etc.

C’est pas insurmontable, et perso j’aimerais bien faire des expériences de jeu narratif (où un moteur de jeu classique garantirait la permanence des objets et la cohérence générale) mais je ne vois pas l’intérêt de générer des livres avec des LLMs. Les livres, c’est un medium entre humains. Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

J’ai un pote qui bosse dans le domaine et avec qui on partage un gout pour le heavy metal. À peu près au moment où GPT-3 sortait, il m’a envoyé des paroles de chanson générées, dont une en particulier qui m’a bluffée. “Beacon of the Valkyries”, qui décrit l’ambiance d’un lieu avant une grande bataille épique. Un thème qui aurait pu être une chanson de Manowar ou Sabaton. Ce qui m’a impressionné c’est que le titre était très bien choisi: il faut comprendre que les Valkyries accompagnent les morts au combat, qu’une bataille va en créer, qu’elles volent, qu’une balise peut donc les guider, que le titre est évocateur.

Depuis beaucoup de gens ont fait des expériences similaires mais à l’époque j’ai cherché un moment sur internet pour vérifier si cette expression n’existait pas déjà quelque part tellement je ne pouvais y croire. Ça m’a convaincu que même une “bête” prédiction de texte pouvait faire émerger une forme de compréhension des concepts.

permalink
report
parent
reply
2 points

Sur les LLMs et la littérature, j’ai été surpris d’entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C’est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu’on lit pour échanger avec un auteur. Alors c’est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l’intention humaine derrière un texte fait en effet partie de l’expérience

Ouais j’ai vu passé cet extrait aussi, mais je suis pas convaincu par l’argument. Ou alors j’ai du mal à comprendre ce qu’il entend par “intention humaine”, et pourquoi une machine en serait incapable. Certains parlent d’âme aussi, mais sans pouvoir le définir clairement, comme si il y avait quelque chose de magique que seul l’être humain peut transmettre à ses créations. J’ai l’impression que c’est un argument qu’on avance parce que l’orgueil en prendrait un trop gros coup si on admettait le contraire, mais depuis la révolution scientifique ce serait pas la première leçon d’humilité qu’on se prendrait dans la face. Et puis de toute façon dans le cas des LLMs il y a toujours un être humain derrière, et donc probablement une “intention”.

Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

permalink
report
parent
reply
4 points

Alors attention, l’argument c’est pas qu’une machine ne peut pas le faire! Je m’attendais de façon un peu blasée à ça quand la question est arrivée et j’ai été surpris par la réponse. Il dit pas qu’une machine ne peut pas le faire, mais que c’est inintéressant si elle le fait, car il lui manque l’intention, le vécu. Quand j’ai lu le Problème à Trois Corps, que j’ai pas trouvé fantastique d’un point vue SF, les passages qui m’ont le plus intéressé étaient ceux qui parlaient des déboires des protagonistes sous Mao, sachant que l’auteur est chinois. Les mêmes passages écrits par un Américain m’auraient moins intéressé. Savoir que La Vie des Autres a été réalisé par quelqu’un qui n’a jamais habité à Berlin Est a rendu le film plus mauvais pour moi.

Un auteur pourrait faire passer une intentionnalité évocatrice ou un style via un LLM, mais je trouve qu’à ce moment le medium est moins intéressant et que ça brouille le canal entre le lecteur et l’auteur.

Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

Ça fait longtemps que ça se fait! Depuis que quelqu’un a fine-tune je sais plus quel modèle sur Harry Potter et fait générer la suite d’un dialogue imaginaire avec les persos, il y a énormément de gens qui s’amusent à ça (80% d’entre eux pour du roleplay érotique mais bon…). Je crois que koboldAI est ce qu’ils utilisent le plus et ils ont des modèles spécialisés pour ça.

permalink
report
parent
reply
1 point

@snoopy@peculiar.florist

Coucou, merci pour cette AMA ! :)

Je pense que mon post va être capillotracté, enfin essayons.

Pour le coup, je suis interessé par la structure neurale et les limitations “hardware”.

En fait je me disais que ce qui bloque l’IA était matériel car le matériel est fixe et ne peut changer d’architecture, de logique, les circuit sont fixes…enfin, surtout ça ne reproduit pas complètement les circuits neural biologique. Logiciel car il suit une formule et ne peut pas apprendre. On a trouvé une alternative avec le circuit de récompense. Voilà en gros mes petites idées.

Donc, voici mes questions :

  • quand on parle de réseau neural est ce le meme système qui est utilisé partout ? Ya t-il d’autre modèle ? Des familles de reseaux neurales comme des OS ?
  • est ce qu’il existe d’autres concepts de structures que le “réseau neural” pour entrainer l’IA ?
  • niveau hardware, est il possible d’imaginer que l’IA créé et optimise son propre système comme elle le fait pour ses algorithmes ? C’est à dire qu’elle fabrique son propre ordinateur et l’optimise.
  • sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

Et enfin, pour moi, le point de bascule IA/grand public était alpha go et sa créativité. :)

  • Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ? Peut elle générer ses propres prompts/envie ?

En espèrant ne pas etre trop brouillon. Tu peux reformuler mes questions si besoin. Merci :)

permalink
report
reply
3 points

Sur les réseaux de neurone, petite anecdote en guise d’introduction. En école d’ingé, on avait des cours intéressants… et d’autres moins. En maths, pas mal de choses assez abstraites avaient du mal à m’intéresser. Dans un TD de stats où le prof a décidé de faire des calcules de proba sous forme matricielle, je m’endormais à moitié au milieu de ce qui me semblait être de la branlette intellectuelle et à un moment le prof conclue “Et voila! Ce que vous venez de faire est l’équivalent d’une phase d’apprentissage sur un réseau de neurones!” Heing?

Le réseau de neurones est une façon de présenter les choses au public, c’est une archi simple à comprendre par laquelle on commence en général mais plein d’architecture n’obéissent pas à ce paradigme.

La chose universelle dans le deep-learning c’est la descente de gradient. Pour expliquer rapidement l’idée est de voir ton modèle comme une fonction avec des entrées et des sorties. Exemple simple: le problème MNIST: je te donne une image de 24x24 (784) pixels qui représente un chiffre et le programme sort 10 probabilités: celle que le nombre soit un 0, ou un 1, ou un 2, etc.

Quand tu essayes de le résoudre, tu crées une fonction qui tente de résoudre ce problème en sortant les bonnes probas. Le deep learning c’est de créer une fonction avec plein de paramètres, impossibles à régler à la main, mais qui sachent se modifier automatiquement en fonction de l’erreur en sortie. Si tu as classifié un “5” en tant que “3” à 80% mais en tant que “5” à 75%, il s’agit de trouver les changements de paramètres qui permettent de changer ces sorties. Le truc est de faire une fonction qui soit dérivable de façon continue en fonction de tous ces paramètres.

Un réseau de neurone est une façon générique et souvent efficace de faire ça, mais il en existe d’autres. On peut arguer que VAE et mécanismes d’attention (partie cruciale des Transformers, le “T” dans GPT) ne sont pas des réseaux de neurone.

niveau hardware, est il possible d’imaginer que l’IA créé et optimise son propre système comme elle le fait pour ses algorithmes ?

Pas besoin d’imaginer. Google fait ça en software via AutoML et Nvidia a entrainé des modèles pour la conception de hardware.

Après il faut comprendre un truc: un modèle de langage moderne, c’est 2000 lignes de C. C’est rien, c’est tout petit comme programme. On a une assez bonne idée du hardware qui permet de bien optimiser les quelques opérations qui prennent du temps.

sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

Aucune idée! Je m’y connais beaucoup plus en LLM qu’en ordi quantique et j’ai pas envie de dire de bêtises. Si ça fonctionne un jour, les ordis quantiques boosteront clairement des algos aujourd’hui considérés trop couteux, ça va forcément aider en IA, mais je ne sais pas via quels algos.

Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ?

Est ce que la créativité est autre chose qu’un peu de hasard filtré par les expériences d’un artiste? C’est assez philosophique comme question et même les grands noms de l’IA se disputent sur ces questions. Un LLM est clairement une machine statistique qui répète des motifs, mais qui est capable de le faire à un niveau d’abstraction élevé, ce qui est (était?) considéré comme une marque d’intelligence. Se rendre compte que la cause précède l’effet est considéré comme une remarquable découverte philosophique mais n’est “que” l’observation d’un pattern à un niveau abstrait.

Peut elle générer ses propres prompts/envie ?

Par rapport aux IAs de science fiction, les LLMs actuels n’ont pas de volonté, de personnalité, (j’appelle cette partie manquante “anima”, j’ai vu ça quelque part mais on dirait que seul moi utilise ce mot). On peut leur en donner, mais ça va toujours nous sembler artificiel. Il est tout à fait possible de faire jouer un rôle à un LLM et de régulièrement lui demande ce qu’il veut faire.

permalink
report
parent
reply
2 points

Merci trop bien pour tes réponses.

j’ai envie d’explorer un peu les animas. J’ai l’image d’une expérience biologique : https://yewtu.be/watch?v=aBYtBXaxsOw

Et comme tu dis il est possible de faire jouer un rôle. Et je me dis que ce role peut etre définit parallèlement en fonction de nos besoins :

  • le carburant,
  • la procréation = optimisation des gènes/algo par combinaison et élimination par selections. naturelles/résultat
  • le sommeil = rangement et trie des donnée + maintenance motrice.

C’est très basique.

Quelles sont les expériences réalisées pour la création des animas ? Est ce que ça ne serait pas un simple message d’erreur : plus de batterie ?

Des exemples ? Est ce que ce que la recherche de carburant ne se traduirait pas par des émotions négatives soit accèleration recherche carburant (nervosité) ou ralentissement (économie energie)?

Un peu comme doom avec l’écran couvert de sang qui gène le joueur, et le rend inquiet ?

Je pars dans tous les sens, disons juste les animas. Siktu as des ressources, je veux bien. :)

permalink
report
parent
reply
2 points

Alors je pense que ce qui peut t’intéresser c’est la recherche en reinforcement learning, qui est plus du domaine de la robotique où les robots tentent de planifier des actions, dans un univers virtuel ou réel.

L’est-y pas mignon Albert?

Mixer cette approche et les LLM c’est le graal actuel, et je pense qu’on va bientôt l’atteindre.

À ce moment là se poseront d’autres problèmes d’alignement car le modèle (et je pense que j’appellerai ça IA à ce stade) aura une intentionnalité et des plans. Il faudra faire attention aux métriques qu’on lui donne!

permalink
report
parent
reply
2 points

Quels sont les conseils que tu donnerais à des professionnels qui veulent mettre en place des solutions l’IA éthique ? Ici j’entends par éthique, qui ne soient pas un renforcement de la déshumanisation des prises de décision, du “c’est comme ça et c’est tout”, des systèmes bureautiques incompréhensibles et peu flexible face au besoin réel.
On dit souvent qu’il faut faire en sorte que IA ne reproduise pas les biais systémiques des humains mais quels sont les actions concrêtes à mettre en place ?

permalink
report
reply
2 points

Nous (les devs de solutions d’IA) on a un mandat simple: que l’IA soit controllable, prédictible, qu’elle fasse ce qu’on lui demande.

Certains pensent qu’on doit faire des systèmes qui refuseront d’obéir à certaines choses, qu’elles corrigeront les biais humains automatiquement. Je suis en désaccord (soft, on peut en discuter). Si tu demandes à une IA de reproduire un système injuste, elle le fera. Mais si tu lui dis “reproduis ce système mais en en retirant le biais sexiste et raciste” elle le fera. Il faut juste reconnaître et accepter ce besoin.

Pour la déshumanisation par les algorithmes, le problème est humain, pas technique. Cette BD l’exprime mieux que moi: https://grisebouille.net/panique-algorithmique/

permalink
report
parent
reply
3 points

le problème est humain, pas technique.

100 % d’accord. Cependant, la question technique et la question humaine vont pour moi de paire.
L’IA renvoi un modèle, un algorithme dont la construction n’a été supervisée que indirectement par un être humain et dont la structure peut être extrêmement complexe. Comment éviter les biais dans ces algorithmes ? Au delà d’arrêter, nous-autres développeurs, d’être sexistes, racistes et tout ce que tu veux, comment prendre conscience des biais implicites, des reproductions d’oppression systémique que nous somme en train d’écrire dans nos IA ?
Je ne pense pas que quiconque ait voulu que son IA écart les CV des femmes ou qu’elle confonde les noirs et les chimpanzés mais c’est arrivé.
Comment prévenir ces problèmes plutôt que de devoir les guérir ? Et comment guérir les IA déjà existantes de leurs biais ?

permalink
report
parent
reply
3 points

Alors il y a sûrement plus de réponses techniques que tu imagines! Mais déjà parlons de l’aspect humain, il y a 2 problèmes humains à mon sens qu’on aura du mal à résoudre purement techniquement:

  1. Reconnaître qu’il y a un biais à corriger dans le dataset et vouloir le corriger. Si on a un dataset de décisions RH qui écarte les femmes par sexisme, et qu’on reçoit l’instruction “entraîne un modèle qui nous remplace le plus précisément possible”, la mission est d’entraîner un modèle sexiste. À nous de le refuser ou de prouver que le boulot en question ne requiert pas une bite pour être fait correctement.

  2. Arriver à articuler clairement nos buts. Un effet pervers intéressant avait été montré via un algo qui aidait les étudiants et les étudiantes à s’orienter vers la filière qui avait le plus de chance de déboucher sur un diplôme. Une université avait un taux de réussite plus faible chez les femmes, probablement par sexisme, du coup l’algo n’a proposé que des hommes pour cette université. C’est en effet dans l’intérêt des étudiantes. Et c’est un biais sexiste. Est-ce ce qu’on veut?

Une fois ces problèmes passés, le problème posé est comment créer un modèle non-baisé à partir d’un dataset biaisé.

Une des présentations les plus intéressantes que j’ai vu sur ce thème, et qui tenait de la discussion technique autant que de la philosophie appliquée démontait quelques approches naïves sur un cas d’école: prédire la peine d’accusés dans des tribunaux US. Il est bien documenté que la justice US a un biais raciste auquel s’ajoute un racisme systémique.

  1. Impossible de cacher la “race” de la personne concernée, de trop nombreux proxys existent: lieu d’habitation, d’étude, lieu d’arrestation, etc.
  2. Impossible de forcer un quota de décisions: la police est raciste aussi et arrête plus de noirs, forcer le même taux de condamnation serait tout aussi injuste voir amplifierait les injustices!
  3. Impossible d’ajuster avec une constante manuelle, le biais raciste n’est pas constant.

La solution proposée consistait à expliciter les variables sur lesquelles un biais existait, c’est à dire un déséquilibre dans le dataset, et forcer une décorrélation entre le jugement et ces variables. Le système apprend alors tout ce qui est corrélé à la “race” et le différencie de ce qui amène à une condamnation. Il y a des noirs innocentés, il y a des blancs condamnés, apprendre les critères qui permettent ça donne un système qui a pu retirer le biais de son dataset, à condition qu’on le lui ait pointé du doigt.

permalink
report
parent
reply
3 points

Mention spécial à ce grand Homme qu’est Al-Kwarizmi. Savant et vulgarisateur de génie qui a marqué son époque et le cours de l’Histoire au point d’être derrière les mots algorithme et algèbre, au point d’être la cause de la diffusion des chiffres arabes en occident.
Vive les Ouzbeks !

permalink
report
parent
reply
3 points

Quelle est selon la meilleure approche pour approfondir des connaissances en IA une fois sortie du monde universitaire ?
Pour une meilleure compréhension des IA pour quelqu’un qui a déjà un bagage théorique sur le sujet le point de vue mathématiques/statistique est-il plus ou moins intéressant que le point de vue informatique ?

permalink
report
reply
5 points

Ce qui manque souvent aux universitaire c’est la pratique. Bosser dans le domaine, c’est à 95% de la plomberie, et à 5% de la théorie. Apprend à utiliser les outils, git, jupyter, pip, vLLM (si c’est de LLMs dont tu parles), docker, pandas, numpy, les différents packages spécialisés, etc. (et je ne mentionne pas les libs bas niveau d’optimisation, si c’est ton sujet y en a pas mal aussi mais je connais moins)

Perso j’ai un biais pro-maths et pro-théorie: je trouve ça important de comprendre ce que le modèle fait pour l’utiliser bien mais plein de gens bossent dedans sans trop savoir. Mais ça aide de façon invisible. Exemple: Je me doutais qu’un LLM devenait plus intelligent si tu lui donnais une consignes, et que tu le forces à générer une centaine de symboles inutiles avant de commencer à te répondre. Ça choque même des gens du domaine, mais si t’as compris ce que les chain-of-thought provoquent tout est logique.

Je discutais avec une équipe internationale à Penang d’un truc qui m’intriguait: même en Asie je trouvais plein de francophones dans le domaine. Un Malaisien m’a dit “vous avez une meilleure culture mathématique, ça aide” et c’est peut être un peu prétentieux de le dire, mais j’ai l’impression que c’est vrai. On fait plus de théorie, ça nous aide dans des niches moins maitrisées par les devs capables de vite sauter d’une lib à l’autre sans savoir ce qu’elles font.

permalink
report
parent
reply
2 points
*

Des ressources français, anglais ou autre pour développer ce côté math-théorie ? Pour le côte pratique, il y en a plein YouTube (^_^)

Merci, tant que j’y suis, pour tes réponses. Je lis toutes même quand je ne répond pas forcément.

permalink
report
parent
reply
3 points

Alors la théorie je l’ai beaucoup faite via des articles de blog de type <notion> explained. “Layer normalization explained”, “BERT explained”. Il y a quelques publis qui sont intéressantes à lire mais sur les technos qui ont plus d’un an, une bonne explication sur un blog aidera à aller au but et ajoutera en plus des infos sur l’utilisation actuelle de cette tech.

Les choses à comprendre:

  • La descente de gradient, c’est la base de tout
  • Le perceptron multicouche, le layer le plus simple
  • Le rôle des optimizers
  • Les différentes “couches”:
    • Full connected layer (c’est la même chose qu’un perceptron)
    • Convolution
    • Softmax (techniquement une fonction d’activation mais elle est importante)
    • Normalisation
    • Dropout
    • Attention
    • Maxpool (ça s’utilise encore ça?)
  • Dans les LLMs, comprendre les tokenizers
  • Dans la génération de media, comprendre les modèles de diffusion et les GAN

Ah, et tu croiseras probablement des bayesiens à un moment dans cette exploration. Ils vont te parler de “priors” de fonction de distribution, tout exprimer sous forme de proba… Je blague un peu en disant que c’est une secte à part, mais c’est principalement une différence de vocabulaire: ils voient tout sous le prisme de la théorie bayesienne que (personnellement) je trouve qu’il font rentrer au chausse-pied en compliquant des notions simples. Mais je le dis pas trop fort, ça vire souvent à la guerre de religion sinon :-)

permalink
report
parent
reply
2 points

Quelles genre de pratique vises-tu ? Fine-tuner des modèles existants. Construire plein de mini-modèles from scratch pour classer les pétales d’iris et prédire les chiffres du transports aériens ? Autre ?

permalink
report
parent
reply
3 points

Ce qui t’intéresse le plus! Tu peux assembler un petit classifier et l’entrainer from scratch, fine-tuner un petit modèle existant ou bien juste utiliser des modèles.

MNIST, un classifieur d’images 24x24 de chiffres écrits à la main, est un bon exercice de départ.

Charger un modèle pré-entrainé et aller examiner ses représentations latentes est aussi rigolo.

permalink
report
parent
reply

Forum Libre

!forumlibre@jlai.lu

Create post

Communautés principales de l’instance

Nous rejoindre sur Matrix: https://matrix.to/#/#jlai.lu:matrix.org

Une communauté pour discuter de tout et de rien:

  • Fil quotidien “comment allez-vous?”
  • Contenu détendu
  • Questions à la communauté
  • Aujourd’hui j’ai appris
  • Anecdotes personnelles
  • Bonnes nouvelles
  • Projets locaux / associatifs
  • Inspiration
  • BD / illustrations
  • Etc.

Les mots d’ordre sont : respect et bienveillance.

Les discussions politiques sont déconseillées, et ont davantage leur place sur

Les règles de l’instance sont bien entendu d’application.

Fils hebdomadaires"

  • Lundi Méta
  • Mardi Créatif
  • Mercredi CinéSéries
  • Jeudi Tech
  • Vendredi Livres
  • Samedi DJ/Musique
  • Dimanche Jeux Videos

“Demandez-moi n’importe quoi”

Communautés détendues

Communautés liées:

Loisirs:

Vie Pratique:

Communautés d’actualité

Société:

Pays:

Communauté de secours:

Community stats

  • 89

    Monthly active users

  • 2K

    Posts

  • 7.5K

    Comments