L'avenir de l'IA en entreprise : les assistants embarqués

L'adoption des assistants IA en entreprise connaît une croissance soutenue, transformant progressivement les méthodes de travail tant chez les développeurs que dans les équipes métier. Ces outils polyvalents s'imposent désormais comme des instruments de travail essentiels, avec une multiplicité de cas d'usage qui ne cesse de s'étendre. Dans les mois à venir, nous assisterons inévitablement à une intensification de leur utilisation, impliquant davantage d'utilisateurs et une fréquence d'usage accrue. Un changement d'échelle qui ne sera possible que grâce à l'IA embarquée.

Un nouveau paradigme pour l'entreprise

L'IA embarquée représente une évolution significative dans la relation qu'entretient l'entreprise avec l'intelligence artificielle. En introduisant de nouveaux profils tels que les LLM Engineers, et en proposant des modèles locaux prêts à l'emploi, personnalisés et optimisés, elle permet de maîtriser les coûts, d'améliorer l'expérience utilisateur à qui elle offre une grande souplesse, et personnaliser l'utilisation des outils aux besoins spécifiques des différents métiers.

Ce changement de paradigme constitue sans doute une des clés du passage à l'échelle de ces nouvelles pratiques qui s'intègrent progressivement dans l'entreprise contemporaine et qui deviendront incontournables dans l'organisation de demain. À mesure que ces technologies évolueront, elles pourraient redéfinir en profondeur nos méthodes de travail et de collaboration, ouvrant la voie à une nouvelle ère d'innovation organisationnelle.

Les défis du passage à l'échelle

La maîtrise des coûts

Une utilisation massive des assistants IA implique une sollicitation intensive des grands modèles de langage (LLM) qui les sous-tendent. Face à cette réalité, deux options principales s'offrent aux entreprises :

L'utilisation de modèles en ligne via un abonnement basé sur le nombre d'utilisateurs et la quantité de tokens utilisés. Au delà des considérations liées à la gouvernance et la sécurité des données, l'équation économique est directe : plus l'utilisation des LLM augmente, plus la facture s'alourdit.
Le déploiement de LLM sur des infrastructures GPU propriétaires, comme VertexAI. Dans ce cas également, l'intensification de l'usage nécessite des machines plus puissantes (voire plus de machines), entraînant une augmentation proportionnelle des coûts d'infrastructure.

La problématique devient alors stratégique : comment éviter une explosion des coûts alors que l'adoption de ces assistants s'intensifie au sein des équipes ?

L'impératif d'une expérience utilisateur optimale

Les études démontrent une corrélation directe entre le temps de réponse d'un LLM et sa sollicitation par un nombre croissant d'utilisateurs. Si cette réalité est compréhensible d'un point de vue technique, elle devient problématique du point de vue de l'expérience utilisateur. Les collaborateurs exigent légitimement un accès rapide et fluide à leur assistant, sans latence perceptible.

L'enjeu consiste donc à garantir une qualité d'expérience constante malgré l'augmentation du nombre d'utilisateurs. Cette dimension devient cruciale pour assurer l'adoption pérenne de ces technologies dans l'environnement professionnel.

La nécessité d'une expérience personnalisée

Les usages en entreprise se caractérisent par leur diversité et leur spécificité. Un développeur cherchant à générer du code n'aura pas les mêmes attentes qu'un rédacteur de contenu, un commercial analysant ses leads ou un analyste réalisant des synthèses.

L'accroissement du nombre d'utilisateurs entraîne mécaniquement une multiplication des cas d'usage. Est-il possible d'imaginer un modèle universel optimal pour l'ensemble de ces applications ? Cette question devient d'autant plus critique que les exigences en matière de précision s'intensifient, particulièrement dans les domaines métiers experts où les hallucinations ne sont pas permises.

Comment disposer d'un catalogue de modèles spécialisés par expertise métier, sans pour autant exploser les coûts ?

Le constat : un défi d'industrialisation

Imaginons le scénario où les premières initiatives d'adoption d'assistants IA en entreprise rencontrent un succès immédiat. Les utilisateurs pionniers sont conquis, ce qui entraîne un engouement qui s'étend à davantage de collaborateurs et une multiplication des cas d'usage. C'est précisément à ce stade que les difficultés apparaissent, lorsqu'il s'agit d'opérer ce qu’on appelle le "passage à l'échelle".

IA embarquée et décentralisation : les secrets du passage à l'échelle

Une IA embarquée est un système que l'utilisateur emporte avec lui. Contrairement à l'approche centralisée traditionnelle, les systèmes embarqués sont déployés directement sur les terminaux des utilisateurs - smartphones, ordinateurs portables ou postes de travail, et amènent avec eux tous les outils permettant au collaborateur d'utiliser leur assistant, sans dépendance extérieure, ni même d'Internet. Il devient autonome.

En adoptant ce paradigme de décentralisation de l'IA, les modèles peuvent alors être déployés localement et optimisés pour des tâches spécifiques. Ce changement offre plusieurs avantages déterminants :

L’utilisation locale des modèles élimine les problématiques de coûts d'infrastructure et de consommation de tokens
La disparition des risques de latence liés à la charge des LLM, chaque modèle étant dédié à un utilisateur spécifique
Une optimisation par usage permettant une adoption par tous les métiers de l'entreprise
La flexibilité pour les utilisateurs de sélectionner le modèle approprié selon leurs besoins spécifiques
L'accès à un catalogue de modèles installables librement sur les terminaux
Une maintenance et des mises à jour centralisées des modèles
La proposition de RAG (Retrieval-Augmented Generation) spécifiques, disponibles ici aussi au travers de catalogues, permettant aux collaborateurs d'installer localement les bases de connaissances pertinentes
La dépendance à un model central, une base de connaissance centrale, à même Internet disparaît, ce qui simplifie considérablement les infrastructures

Avec l'IA embarquée, nous assistons à un changement fondamental de paradigme : le collaborateur n'utilise plus un assistant générique, mais SON assistant personnalisé, configurant ainsi son environnement de travail selon ses préférences et ses besoins. C'est véritablement un système IA sur mesure qui opère au plus près de l'utilisateur.

La promesse est belle, mais concrètement, comment met-on en place une telle idée ?

En réalité, les solutions technologiques existent déjà, et ont déjà été mises en application. L'enjeu désormais est de les faire fonctionner toutes ensembles.

La concrétisation de l'assistant local

Il existe déjà des LLM conçus pour fonctionner sur des smartphones. Google Gemma 3, par exemple, représente un modèle ultra-léger offrant d'excellentes performances et capable d'analyser le contenu d'images. L'exécution locale d'un LLM est donc possible avec des outils comme Ollama, sans nécessairement recourir à des GPU grâce à des modèles adaptés.

De même, l'assistant local peut s'exécuter dans un navigateur web via des outils comme Streamlit, ou au travers d'applications dédiées.

Le fonctionnement d'un RAG repose quant à lui sur une base vectorielle. En disposant d'un catalogue de RAG ciblant des domaines de connaissances spécifiques, les bases vectorielles résultantes demeurent suffisamment compactes pour tenir dans un smartphone ou un ordinateur portable.

Un poste de travail capable d'exécuter du code Python peut ainsi déployer localement un système IA complet : assistant, plusieurs LLM et plusieurs RAG.

La personnalisation des modèles par métier

Les besoins varient considérablement selon les fonctions : un développeur privilégiera la génération de code, tandis que les juristes rechercheront un modèle optimisé pour les contextes juridiques complexes.

Le fine-tuning des modèles permet d'ajuster leurs paramètres pour les spécialiser sur des tâches particulières. Des techniques comme Lora (Low-Rank Adaptation) offrent la possibilité de retravailler un modèle sans devoir le réentraîner intégralement. La disponibilité de modèles spécifiques et optimisés pour les différents métiers est donc déjà une réalité opérationnelle.

Avec des modèles comme Gemma 3 par exemple, il devient possible de télécharger plusieurs modèles sur son appareil, puis passer de l'un à l'autre en fonction de son besoin, voire utiliser un assistant qui saura directement quel est le meilleur modèle à utiliser en fonction de la demande.

La gouvernance et la maintenance des modèles

Le fine-tuning des LLM requiert une expertise particulière, désormais incarnée par un nouveau profil professionnel émergent : le LLM Engineer. Ce spécialiste se consacre à la construction, au paramétrage, à la maintenance, à l'évaluation, à l'optimisation et à la spécialisation des LLM. Son rôle devient essentiel dans ce dispositif, car il assume la responsabilité critique de mettre en place les modèles que les différents métiers viendront utiliser dans le quotidien de leur travail.

Sa mission inclut également leur maintenance pour garantir le niveau de précision générative requis tout en minimisant les risques d'hallucinations. Sans cette expertise spécifique, les entreprises seraient contraintes d'utiliser les LLM généralistes proposés par les éditeurs, empêchant le collaborateur de profiter d'une expérience sur mesure de son besoin.