Data
Optimisation et adoption des LLM : stratégies intersectorielles, communautés dynamiques et valeur ajoutée pour les entreprises
Dans cette seconde partie de l'interview, Pierre-Carl Langlais expose les stratégies pour une mise en œuvre réussie des LLM dans le cadre professionnel, en soulignant, entre autres, le besoin de coopération entre différents secteurs et la constitution de réseaux dynamiques.
- Quelles stratégies mettre en place pour maximiser l’efficacité des LLM ?
Une collaboration intersectorielle
Une collaboration intersectorielle est essentielle pour améliorer le fonctionnement des LLM car elle permet de combler les lacunes de compréhension et d'expertise entre différents domaines. D'un côté, les spécialistes en Data Science sous-estiment souvent la capacité des LLM à résoudre des problématiques spécifiques en analyse de texte ou en compréhension. Ils restent généralement limités aux applications classiques en NLP, ce qui entrave l'exploration de nouvelles possibilités. De l'autre côté, les professionnels de différents métiers peinent à évaluer comment les LLM peuvent solutionner des problèmes inattendus ou non identifiés. Cette collaboration intersectorielle, facilitée par des acteurs tiers, permettrait de créer des ponts entre ces domaines, d'échanger des connaissances et des expériences, améliorant ainsi la conception et l'application des LLM.
Je pense vraiment que, à terme, on va assister à une sorte de répartition des rôles, surtout dans les projets LLM. Ce n'est pas quelque chose qui peut se faire au hasard, surtout pas dans une entreprise. Ça va demander la collaboration de différents corps de métier, tous réunis autour d'une même table. Prenons par exemple les enjeux d'ingénierie : “Comment fait-on fonctionner tel ou tel modèle ?”, “Quel type de machine faut-il ?”, “Est-ce qu'il faut un GPU”, “Qu’est-ce que tout cela implique en termes de coûts ?” Ce sont de vraies questions centrales aux projets LLM. Et puis, il y a aussi toute la partie design au sens strict : comment on conçoit les boutons, comment on les agence... Pour ça, il est nécessaire d'avoir une interaction directe avec le processus de tuning. Ce tuning, il doit être totalement guidé par le design. Si ces aspects sont négligés, le projet ne marchera tout simplement pas.
Créer une communauté dédiée aux LLM
Sur un autre plan, la création d’une communauté virtuelle dédiée aux LLM est également essentielle pour assurer un échange efficace des connaissances, Même en anglais, c'est assez compliqué. Alors qu’il existe de nombreux fils de conversation en ligne pour répondre à des questions sur Python par exemple, cela reste un phénomène marginal pour les LLM. C'est un savoir qui est en train de s'inventer. Il y a des communautés open source qui sont en train de se restructurer, mais principalement Discord. C’est un processus qui n'est donc pas encore globalisé, ce qui est dommage. Je pense que nous verrons de nouveaux développements dans ce domaine dans un ou deux ans.
Actuellement, nous sommes confrontés à une multitude de nouveaux concepts qui peuvent sembler un peu abstraits de l'extérieur. Ces concepts incluent des questions telles que la définition du taux d'apprentissage (vitesse à laquelle un modèle apprend en mettant à jour ses paramètres pour s'adapter aux données d'entraînement), la sélection des modèles à utiliser et la création de statistiques. Il y a beaucoup à comprendre et à assimiler, et cela peut être compliqué. La complexité vient aussi du fait que ces concepts évoluent rapidement. Par exemple, j'ai dû changer complètement ma méthode de travail il y a deux ou trois semaines à cause d'un nouveau modèle qui a été publié. Ce modèle a radicalement modifié la façon dont je procédais jusqu'à présent. C'est une indication de la vitesse à laquelle le domaine évolue. Je crois qu'à un certain point cependant, il y aura une stabilisation. Jusqu'à ce que cela se produise, naviguer dans ce domaine reste un défi.
C'est pour ça aussi qu'on avait créé la communauté LLM (https://www.lebonllm.fr/). C'était dans cette idée de voir une communauté française émerger qui n'existait pas encore. Au début, j'avais l'impression d'être un peu seul aux commandes, de pousser le projet moi-même. Mais aujourd'hui, c'est tout autre chose. On voit de nouvelles personnes qui apportent leurs propres expériences et leurs propres idées, et ça, ça change tout. Ça brise un peu cette sensation d'isolement qu'on peut ressentir quand on travaille seul sur des concepts novateurs comme les LLM. C'est rassurant de voir qu'il y a d'autres personnes qui, comme moi, se sentaient peut-être un peu isolées dans cette aventure, mais qui maintenant contribuent activement et enrichissent la communauté.
- Quels seraient les domaines dans lesquels les LLM pourraient apporter une plus-value aux entreprises ?
Optimisation de la gestion documentaire et des processus d'entreprise
Je vois deux enjeux majeurs dans l'utilisation immédiate des LLM. Le premier, largement sous-estimé, concerne l'analyse des activités d'une entreprise : la gestion des documents, l'identification et le classement des textes, etc. Les LLM pourraient, par exemple, déterminer la complexité d'une question et décider si elle nécessite l'intervention d'un service spécialisé. Beaucoup de ces tâches sont actuellement manuelles, mais pourraient être automatisées. Cela représenterait un gain de temps considérable. Par exemple, un LM pourrait traiter 50 000 documents en une heure, une tâche impossible à réaliser aussi rapidement sans son aide.
Améliorer la communication : enjeux d'automatisation et de confidentialité des données
Le deuxième enjeu concerne la communication. La communication est très codifiée et souvent répétitive, ce qui rend son automatisation possible sans déshumaniser le processus. Cela peut être efficace, mais il faut veiller à l'application des bonnes normes pour que cela fonctionne correctement. Je pense que le fait de trouver des formes culturelles qui ressemblent à la façon dont les gens parlent permet d’initier une transition en douceur vers une acceptation plus sereine des nouvelles technologies. D’un coup, l’IA générative ressemble moins à un robot désincarné qui va s’emparer du travail des équipes. Je remarque que de nombreuses entreprises ne réalisent pas à quel point elles disposent déjà d'énormes corpus de données qui pourraient les aider à paramétrer leurs LLM. Le vrai défi, c'est d'abord de pouvoir y accéder, surtout quand ces données ne sont pas toujours dans des formats facilement exploitables. Et puis, il y a aussi cette question cruciale de la sécurité : comment protéger toutes ces informations ?
Une partie intéressante porte sur les échanges par mail. C'est ce qu'on fait le plus souvent en entreprise. L'utilisation d'outils d'anonymisation et de synonymisation présente un potentiel considérable. Ces outils sont efficaces pour décrypter la structure d'un texte et le réécrire avec des formulations similaires, mais suffisamment différentes pour préserver la confidentialité. Par exemple, ils peuvent remplacer un nom propre par un autre, ou transformer un lieu de naissance en un lieu fictif. Cette méthode permet de brouiller les pistes tout en conservant l'essence du message original, ce qui réduit le risque de divulgation accidentelle d'informations personnelles.
L'adoption des LLM dans le milieu professionnel ouvre la voie à des avancées significatives, tant dans la gestion documentaire que dans la communication interne et externe. Il y a cependant des défis liés à l'accès et à la sécurisation des données qui ne doivent pas être négligés. La clé réside dans l'équilibre entre l'efficacité technologique et le respect de la confidentialité, en veillant à ce que l'automatisation ne s'opère pas au détriment de l'humain. En adaptant les LLM aux spécificités culturelles et linguistiques des utilisateurs, on peut faciliter une acceptation plus large et plus fluide de ces technologies.
Pour lire la première partie de l'interview :
Évolution des LLM : Diversification des données, enjeux culturels et perspectives réglementaires