Utilité et éthique des LLM

J'ai un positionnement assez ambivalent par rapport aux IA génératives par LLM : je ne suis pas un naïf béat devant un supposé potentiel infini qui révolutionnera l'humanité dans moins de 3 ans et résoudra tous ses problèmes, et je ne suis pas non plus un réfractaire obtus qui considère que c'est juste moche et inutile (mais je ne suis pas loin d'être le réfractaire obtus qui considère que c'est dangereux et toxique)

Positionnement personnel

Ce qui me retient principalement d'utiliser les modèles actuels est à la fois contextuel et structurel :

1) (contextuel) le manque d'éthique dans l'entrainement de la plupart des modèles disponibles, théoriquement améliorable au détriment du volume de donnée d'apprentissage :

le vol de propriété intellectuelle et non respect des licences d'utilisation,
l'utilisation de base de connaissance avec du contenu illégal,
l'utilisation de travail humain mal payé et probablement traumatisant pour le fine-tuning.

2) l'abandon de compétences humaines : remplacement de métiers gratifiants, diminution des facultés de réflexion indispensables

3) la proportion d'erreur sortie par les modèles, intrinsèque à leur fonctionnement et qui n'a pas été réglée malgré tous les prophètes qui affirmaient depuis 2 ans que ce n'est qu'une histoire d'amélioration. Oui les modèles ont progressé et peuvent réaliser un grand nombre de tâches avec une fiabilité supérieure à un jet de pièce, mais rarement applicable dans un contexte professionnel nécessitant de la fiabilité et surtout de la réplicabilité.

4) l'impact sociétal de ces outils maximisant la rétention en jouant sur les ressorts psychologiques de l'utilisateur,

créant des illusions tenaces dans leur esprit : illusion de contact social, illusion de fiabilité / illusion de compétence.
pollution, corruption et flood des bases de connaissance et de création par des contenus générés automatiquement en grandes quantité
mise en silo des connaissance dans des espaces privés asséchant les espaces d'échange et d'apprentissage mutuel, affaiblissement des communs numériques
l'impact environnemental de solutions démultipliant le volume de calculs sur GPU et donc les besoins en ressourecs notamment eau et électricité

Plus globalement, le plus gros problème de cette industrie est de négliger largement l'impact potentiel de leurs outils, tous les usages délétères à large échelle qui peuvent en être faits, sous prétexte que si ce n'est pas eux qui fournissent la technologie un autre acteur moins vertueux le fera. Des démarches nationales et internationales émergent (AI act) mais le lobbying des entreprises du milieu est puissant (Vers un allègement du RGPD ?)

Exercice de pensée

C'est une nouvelle fonctionnalité de Twitch qui m'a fait reconsidérer d'un point de vue théorique l'utilité potentielle de telles technologies : depuis quelques mois, dans Twitch on peut afficher différemment le chat en ne montrant qu'un message dans un coin du cadre en surcouche à la vidéo (sans doute plagié sur l'UX d'USB avec le choix "montrer tout" ou "message actuel" d'ailleurs chui sûr)

J'ai capté au bout d'un moment que ce système ne pouvait pas montrer tous les messages et qu'il devait résoudre une problématique fondamentale universelle que j'ai décelé un peu partout ces derniers temps : l'impossible exhaustivité. Quand on a une tension bloquante entre deux critères, souvent entre un volume de donnée et des limitations d'interface : nécessité d'échantillonner des images quand le taux d'images par seconde est trop élevé pour la machine, besoin de définir des stratégies de "mémoire du contexte" des LLM (seulement les derniers messages / fragments du début, milieu et fin...) quand le volume de la discussion dépasse la capacité de contexte...

Ici la problématique est celle de choisir quel message afficher depuis le chat complet. On a depuis longtemps résolu ce genre de question par des méthodes basiques : échantillonnage temporel (on prend le message apparaissant après un delta T défini, peu importe ce qu'il dit), sélection parmi un ensemble en se basant sur le nombre de mots ou une heuristique de "pertinence".

C'est sur ce dernier point que j'imagine qu'un agent LLM pourrait se positionner : on lui donne une liste de messages publiés sur un intervalle et il détermine lequel afficher d'après des critères implicites et subjectifs d'intérêt ou de pertinence. Je ne dis pas que c'est ce qui se passe mais ce serait possible et pourrait sembler être une réponse à une problématique pas vraiment résolue d'ici là. Il peut sembler que ça ferait partie des contextes où un mauvais choix par le LLM ne serait pas forcément problématique.

Mais même si on ignore tous les autres problèmes comme le coût énergétique pour une fonctionnalité non cruciale, ça laisse une grosse question ouverte récurrente quand on parle de LLM : les biais. Les critères de sélection seront à l'intersection de la base d'apprentissage et du prompt donné à l'agent. Il est certain que certains messages pertinents mais moins conventionnels risquent de passer à la trappe, et si on aborde un aspect politique il est imaginable que ce genre de sélection sur un stream politique exclura les messages de populations opprimées, voire qu'il plébiscitera les messages allant dans le sens de la ligne éditoriale du streamer (ou de Twitch).

Dézoom

J'ai vu au fil des dernières années de nombreux usages d'IA, pour la traduction automatique, constitution de résumés de documents, prise de note de réunion, avec les problèmes que ça apporte. Et pour le développement logiciel, l'utilisation pour le prototypage, les scripts, le débug, avec personnellement un bilan assez mitigé entre aide ponctuelle et perte de temps voire introduction d'erreurs. Mais dans l'ensemble on parle d'un potentiel gain de temps sur ces activités, avec parfois un déblocage technique, une dimension qui peut sembler consubstantielle au besoin de rentabilité dans le cadre professionnel.

En revanche je commence à voir des cas d'application qui auraient été globalement impossibles sans, comme cité dans l'exemple ci-dessus mais aussi pour la détection de failles de sécurité (Bugs détectés dans CURL). Et c'est là un point où on est vraiment dans la situation de la boite de pandore featuring paradoxe de la reine rouge : une fois qu'elle est ouverte, impossible de revenir en arrière. Parce qu'une fois disponibles, ces outils peuvent être utilisé par des opposants / adversaires / concurrents qui auraient de nouvelles facultés pour détecter des vulnérabilités logicielles. Dans ce cas, la seule façon est de consolider soi-même ses outils avec des méthodes équivalentes et donc de devoir utiliser ces LLM également.

J'ai l'impression que les externalités négatives de l'IA générative sont supérieures aux bénéfices qu'elle permet. Mais on ne va malheureusement pas pouvoir bannir ces LLM, la technologie existe et a été diffusée mondialement au grand public et je ne vois pas comment résoudre certains problèmes qu'elles posent autrement qu'en les utilisant également, même si ça me fait profondément mal de l'admettre.

Je serais très intéressé pour avoir d'autres retours sur ces problématiques, après tout on nage dans des eaux inconnues et bouillonnantes et on a besoin d'y réfléchir ensemble pour progresser et tenter de trouver des solutions.

Précédent : Leur Groenland sous perf

Alias:
Commentaire:

Utilité et éthique des LLM

Positionnement personnel

Exercice de pensée

Dézoom

Add a comment