Évolution des LLM : diversification des données, enjeux culturels et perspectives réglementaires

Dans cette première partie de l'interview, Pierre-Carl Langlais met en lumière l'importance d'élargir le spectre des données utilisées, les challenges liés à la diversité linguistique et les possibles implications des nouvelles réglementations.

Évolution des LLM : diversification des données, enjeux culturels et perspectives réglementaires
Image créée avec Dall-E

  1. Comment diversifier les données d’entraînement des LLM pour garantir une plus grande robustesse des futurs modèles ?

Pour garantir une plus grande robustesse des futurs modèles de LLM, il est important de diversifier les données d’entraînement. En plus de la structuration et de la réflexion préalable sur les données, il est essentiel d'inclure une variété de sources et de types de données pour éviter les biais et améliorer la représentativité des modèles. Cela implique l'intégration de données provenant de différents domaines, cultures, et langues, ainsi que la prise en compte de divers contextes sociaux et professionnels. En enrichissant le corpus avec des données diversifiées, on peut s'assurer que les modèles sont non seulement précis dans leurs réponses, mais aussi capables de comprendre et de traiter efficacement une gamme étendue de requêtes et de scénarios. Cette approche holistique est indispensable pour développer des LLM qui sont non seulement performants mais aussi équitables et inclusifs.

Une approche innovante est l'utilisation de données d’entraînement générées par des LLM eux-mêmes. Cette méthode, que nous appelons "text book", consiste à prendre des textes de référence de haute qualité, souvent spécialisés pour certains métiers, et à demander aux LLM de générer des questions à partir de ces textes. Cette technique aide à surmonter le défi de trouver des séries de questions-réponses adaptées pour l'entraînement en One shot, c'est-à-dire la capacité d'un modèle à comprendre et à généraliser à partir d'un seul exemple ou d'une seule instance. Bien que trouver ces textes de référence soit un défi en soi, cette méthode permet d'enrichir les corpus d'entraînement avec des données variées et spécifiques. En fin de compte, cela contribue à la robustesse du modèle, car on peut ensuite guider le LLM dans sa génération de réponses, assurant ainsi une meilleure qualité et pertinence dans le fine-tuning. Le "fine-tuning" consiste à ajuster finement les poids du réseau neuronal pré-entraîné sur un ensemble de données spécifique à la tâche à accomplir. Cela permet de personnaliser le modèle pour des applications spécifiques tout en capitalisant sur les connaissances acquises lors du pré-entraînement.

  1. En quoi la prédominance de l'anglais dans les données d'entraînement affecte-t-elle la performance et la diversité culturelle des LLM en français ? 

C'est une question fondamentale. Effectivement, la majorité des données utilisées pour les LLM est en anglais. Pour GPT-3 par exemple, la majeure partie des données provient de Wikipédia en anglais et de sélections de textes sur Reddit. Le français représente seulement environ 0,19 % de ces données, ce qui est très peu. Cela dit, les LLM fonctionnent quand même relativement bien en français grâce à un transfert linguistique qui permet d'appliquer des connaissances acquises d'une langue à une autre. Mais cette situation entraîne une forme d'anglicisation et un appauvrissement culturel en français, tant au niveau des références que du style d'écriture. Cela est d'autant plus perceptible en français qu'en anglais. Il y a un vrai besoin de modèles qui reflètent non seulement le français standard, mais aussi ses variantes régionales et professionnelles, ainsi que ses évolutions historiques.

  1. Quelles seraient les conséquences de l'adoption de l'AI Act sur l'utilisation et sur la régulation des LLM ?

Si l'AI Act est adopté, son impact sur l'utilisation des LLM serait notable, introduisant une approche réglementaire plus dirigiste et top-down. Cela signifierait que des règles et des normes spécifiques émaneraient du niveau européen, influençant la manière dont les LLM sont développés et utilisés. Les acteurs du domaine devraient se conformer à ces nouvelles directives, ce qui conduirait à une évaluation plus rigoureuse des risques associés à leur utilisation. Il y aurait sûrement une emphase sur l'analyse des publics ciblés et sur la gestion des données, surtout celles qui ne sont pas correctement anonymisées. La sécurisation des infrastructures LLM deviendrait aussi une priorité, étant donné la facilité actuelle de récupérer des données ou des prompts. 

En absence de l'AI Act en revanche, le risque d'incidents industriels dus à une compréhension insuffisante des enjeux des données serait plus élevé. L'utilisation de datasets issus de sources douteuses ou peu contrôlées serait une préoccupation majeure. Ainsi, l'adoption de l'AI Act serait vue comme une étape nécessaire pour établir un cadre plus sûr et responsable pour l'utilisation des LLM.


La seconde partie de notre échange se concentre sur les stratégies-clés pour maximiser l'efficacité des LLM en entreprise. Pierre-Carl Langlais insiste sur l'importance d'une collaboration intersectorielle pour combiner expertise technique et connaissances métier afin de mieux exploiter les capacités des ces modèles. Il souligne également le rôle crucial d'une communauté dédiée aux LLM pour partager les connaissances et les expériences dans ce domaine en constante et rapide évolution. Deux domaines d'application principaux sont identifiés : l'optimisation de la gestion documentaire et l'amélioration de la communication d'entreprise. Ces utilisations promettent des gains de temps et d'efficacité, tout en soulevant des questions de sécurité et de confidentialité des données.

Génial ! Vous vous êtes inscrit avec succès.

Bienvenue de retour ! Vous vous êtes connecté avec succès.

Vous êtes abonné avec succès à WENVISION.

Succès ! Vérifiez votre e-mail pour obtenir le lien magique de connexion.

Succès ! Vos informations de facturation ont été mises à jour.

Votre facturation n'a pas été mise à jour.