Imagen 3 ancre la génération d’images dans les processus d’entreprise

Les IA génératives d’images sont formidables pour accélérer le processus créatif. D’ici à s’en servir en production, il y a un pas. Cette version 3 de l’IA de Google permet de l’envisager sérieusement.

Imagen 3 ancre la génération d’images dans les processus d’entreprise

Il y a les IA génératives qui se prennent pour des artistes cubistes ou surréalistes, recomposant des mains ou des visages à l’aide de formes géométriques disposées plus ou moins au hasard, et inventant des signes cabalistiques en guise d’alphabet. Et puis il y a Imagen 3. Désormais disponible sur demande, la toute dernière édition du moteur de génération d’images de Google rebat les cartes ; sa capacité à produire des gens, des objets, des textures mais aussi du texte réalistes nous a bluffés.

De quoi envisager plutôt sereinement d’introduire la génération d’images dans des process métiers en entreprise. Un vrai changement.

Le même prompt utilisé avec DallE 3 et Imagen 3 : rendu beaucoup plus réaliste du côté de Google, y compris sur le lettrage.

Attention, tout n’est pas parfait, tempère rapidement Matthieu Blanc, Machine Learning Product Specialist chez Google Cloud. Si les produits sont depuis longtemps dans le domaine public, Imagen 3 saura très bien les reproduire, mais ce ne sera pas le cas avec un tout nouveau produit lancé par une marque.” Dans ce cas, c’est une astuce introduite avec Imagen 2 qu’il faudra appliquer : un détourage automatique du produit et sa mise en situation réaliste (jusqu’à l’ombre portée).

De même, si les progrès en matière d’écriture sont spectaculaires, il arrive encore à l’IA d’oublier un mot, ou d’utiliser une sorte de lorem ipsum pour les mentions en petits caractères. “Plus il y a de texte, plus il y a de possibilités d’erreur, souligne Matthieu Blanc. Faire un gros titre, un nom de marque, ou un petit dialogue, cela fonctionne bien. Il faut tester les prompts.

Le même prompt utilisé avec DallE 3 et Imagen 3 : la calculatrice d’Imagen n’est pas encore parfaitement rendue, mais elle parvient à positionner correctement les chiffres.

Cette possibilité de faire dialoguer des personnages sera complétée d’ici quelques mois d’une fonctionnalité permettant de générer de nouvelles versions d’un personnage à partir d’un petit jeu de photos. “C’est très impressionnant et cela fonctionne aussi avec des objets, explique Matthieu Blanc. Mais attention, car dans le cas de produits, la fidélité à 100% n’est pas garantie.” Pour exposer correctement plusieurs versions d’un même produit - une voiture, un canapé dans un intérieur design, etc. -  il faudra éventuellement passer par une étape intermédiaire : demander à l’IA d’analyser une image et d’en créer une version filaire, qui permettra de générer autant d’images qu’on souhaite avec de nouvelles textures, couleurs, etc.

Le même prompt utilisé avec DallE 3 et Imagen 3 : l’exercice de juxtaposer 2 styles différents est périlleux ; le contraste est saisissant côté Imagen.

Comme souvent avec Google, il faudra montrer patte blanche pour avoir accès à cette nouvelle version de l’IA ; les entreprises ayant de véritables cas d’usage professionnels en tête ne devraient avoir aucun mal à y avoir accès. Le formulaire de demande d'accès est disponible depuis Vertex AI, dans la console Google Cloud. Il est temps d’intégrer sérieusement la génération d’images dans les business cases. 

Génial ! Vous vous êtes inscrit avec succès.

Bienvenue de retour ! Vous vous êtes connecté avec succès.

Vous êtes abonné avec succès à WENVISION.

Succès ! Vérifiez votre e-mail pour obtenir le lien magique de connexion.

Succès ! Vos informations de facturation ont été mises à jour.

Votre facturation n'a pas été mise à jour.