
Cet article est extrait de la revue Sciences et Avenir – La Recherche n°908, datée d’octobre 2022.
Est-ce réel ou créé par un algorithme ? Pendant ce temps, les incroyables progrès de la soi-disant intelligence artificielle (IA) rendent moins visible la frontière entre la réalité et son modèle. Les premiers mois de 2022 ont permis de traverser un domaine encore jamais vu : arrivée à maturité, la recherche peut transformer les mots en images (photos, dessins, croquis, recueil d’échantillons, etc.) un écran d’ordinateur.
Le véritable pouvoir de ces technologies réside dans leur accès limité. Mais pour nous rassurer, il en existe d’autres disponibles en ligne. Dall-E 2 (le nom qui relie Salvador Dalí au robot Wall-E du film éponyme) est le plus populaire. Il a été dévoilé en avril par le centre de recherche privé sur l’intelligence artificielle OpenAI, qui dirige ces développements. Craiyon est une version publique simple. Imagen, de Google, et StableDiffusion, créée par une équipe de recherche de l’Université Ludwig-Maximilians de Munich (Allemagne) et la startup Stability.AI, spécialisée dans le traitement d’images. Ceux de Midjourney, du début de l’Amérique du même nom, sont une forme d’art esthétique. En juin, c’est la semaine britannique L’économie Il a également été utilisé pour concevoir sa première page : un verso sur fond de formes géométriques colorées, comportant une inscription dédiée à “les nouvelles frontières des sciences cognitives “.
Cela a un nom actuel : “text-to-image”. Dans la première étape, l’utilisateur crée des visualisations à partir de mots et de phrases en langage naturel. Mais la recherche semble nous permettre d’aller plus loin. En ajoutant des mots comme “signe”, “fusain”, “aquarelle”, mais “Van Gogh” ou “Dali”, par exemple, il peut utiliser un style graphique qui leur ressemble.
Les niveaux de détails, la fidélité à la description voulue, le réalisme des textures peuvent prêter à confusion, même pour des textes idiots. La capacité d’Imagen à produire une image riche est évidente “Raton laveur portant un chapeau d’astronaute, regardant par la fenêtre la nuit “. Un résultat étonnant, mais il a fallu beaucoup d’essais et d’erreurs sur le scénario avant d’obtenir le meilleur résultat.
Cependant, très peu de recherches ont été faites en matière sociale, artistique et économique. Remarque : fin août, le titre est un tableau Théâtre de l’Opéra de l’Espace, créé par Midjourney et présenté au jury, a remporté le concours d’art numérique à la Colorado State Fair (USA). C’est une décision qui a exaspéré d’autres artistes, qui eux-mêmes utilisaient des logiciels d’infographie classiques. Un pigiste (ou co-auteur) doit se défendre en expliquant qu’il a passé 80 heures de travail, éditant ses articles, éditant manuellement des éléments avant d’atteindre le dernier acte.
Les résultats peuvent varier selon les plateformes d’images
Cependant, des questions se posent en cours de route. L’artiste s’appuie ici sur les bases de données sur lesquelles sont entraînés les algorithmes. Cependant, ceux-ci auront un impact sur leurs performances, sans parler des vulnérabilités potentielles. “On peut avoir des interprétations différentes entre un algorithme entraîné sur une collection de photos postées sur Facebook et le même algorithme entraîné sur des photos de Flickr, explique Michel Nerval, co-fondateur du studio de production numérique U2p050. Certains sont certainement meilleurs à l’entraînement que d’autres. “
Le studio a sorti le roman graphique en septembre Moebia, “écrit” par l’algorithme VQGan+Clip à partir d’une histoire courte. Mais essayons de choisir parmi cinq bases de données. “Habituellement, on commence par saisir une phrase pour le livre. Parfois on obtient exactement le résultat attendu, mais parfois les longues phrases se perdent et l’IA se “perd” et ne fonctionne pas. Travailler avec des mots-clés pour guider l’algorithme “, précise Michel Nerval.
La révolution du « text-to-image » est une extension des IA dites artificielles, comme les GAN ou les réseaux de neurones antagonistes, apparus en 2014. (lis S. et A. n° 858, août 2018). De cette façon, deux changements “pensent” l’un à l’autre, l’un crée du contenu et le second décide s’il est bon ou non. Parfois, il est également combiné avec la saisie de texte, comme GauGan 2 du moteur graphique Nvidia.
L’outil GauGan à partir de Nvidia, vous pouvez générer des images à partir de croquis approximatifs. Il représente le GauGan 2 à partir de la description textuelle. Crédit : Nvidia
L’algorithme associe une description à une image qui n’a pas encore été vue
“L’innovation, du point de vue du document, repose sur le modèle Clip, qui permet d’afficher dans un lieu commun le texte et les images. », précise Matthieu Labeau, expert en traitement automatique du langage à Télécom Paris. Sorti en janvier 2021 par OpenAI, Clip a été entraîné sur 400 millions d’images et leur texte que l’on peut trouver sur Internet (étiquettes, métadonnées), non basé sur des images avec une étiquette sommaire (“chien”, “chaise”) comme dans les jeux de données préparés pour les chercheurs La grande nature de ce matériel de formation permet à l’algorithme d’en ajouter pour associer une description à une image qu’il n’a jamais vue.
L’objectif principal d’OpenAI est de pouvoir mieux classer et catégoriser les images. Les clips peuvent également être utilisés pour rechercher des images similaires ou affiner le contenu. Mais ce projet a conduit l’entreprise à développer l’algorithme génératif Dall-E, dont la première version est sortie en même temps que Clip. “Notre modèle est proche de celui du GPT (modèle de traitement du langage naturel développé par OpenAI, ndlr)prédire un élément à la fois (mots, texte, espacement, ponctuation…, notes de la rédaction) au lieu de mots, ces éléments sont des pièges à images “, a expliqué le créateur de Craiyon Boris Dayma.
Quant à la partie “image”, il existe une autre voie : “l’interaction”. Ce type d’algorithme d’apprentissage en profondeur produit du “bruit”, c’est-à-dire un nuage de pixels aléatoires. Ensuite “diminuez” en ajustant les pixels non pas au hasard mais en vous concentrant sur le texte qui décrit l’image souhaitée. L’efficacité de cette approche tient compte de l’image de Dall-E 2, qui est mal gérée dans la première version (non utilisée pour la clarification) ou Imagen.
C’est juste le début. Début septembre, un groupe du Massachusetts Institute of Technology (Cambridge, USA) a présenté Composable Diffusion, une amélioration de la distribution. “Il est difficile de dériver des caractéristiques à partir de descriptions “mot à image” complexes et actuelles, par exemple de nombreux adjectifs ; des éléments peuvent manquer dans l’image. “, a déclaré Shuang Li, co-auteur de l’étude.
L’approche proposée implique plusieurs exemples descriptifs, qui nécessitent l’examen de chaque partie de la phrase. Cela montre également que, si l’IA montre des capacités étonnantes, elle dominera toujours la race humaine. Il est la personne qui possède le code, le publie ou non, l’améliore, développe les modèles et détermine les jeux de données d’apprentissage. S’il s’agit d’une innovation mécanique, cela dépend toujours des humains.
Le côté obscur de la technologie
Il est impossible, avec les algorithmes Midjourney ou Dall-E 2, de récupérer des images à partir de mots au sens sexuel ou violent. Il est conçu pour les prévenir. Mais StableDiffusion manque de ces protections… D’où les inquiétudes de Joshua Achiam, expert en apprentissage par renforcement chez OpenAI. Dans des tweets postés le 10 septembre, il salue la promesse d’innovation “text-to-image”, mais redoute l’afflux de contenus violents, choquants et manipulateurs. .
Autre problème persistant en IA : le biais. Étant donné que ces algorithmes sont formés sur le contenu trouvé sur Internet, ils sont capables de discriminer tous les types. A cela s’ajoutent les violations du droit d’auteur. L’agence photo Getty Images a annoncé fin septembre qu’elle n’accepterait pas les images générées par l’IA, opérations de sécurité qui apparaissent sur les bases d’entraînement sans autorisation.