Dall-E
DALL-E (ou DALL·E) est un programme d’intelligence artificielle générative, capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí.
Microsoft a implémenté le modèle dans l’outil Image Creator de Bing et prévoit de l’implémenter dans son application Designer.
DALL-E utilise une version à 12 milliards de paramètres du modèle de langage GPT-3 pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d’un capybara triste »), et générer les images demandées. Il peut créer des images d’objets réalistes (« un vitrail avec l’image d’une fraise bleue »), mais aussi des objets qui n’existent pas dans la réalité (ex. : « un cube avec la texture d’un porc-épic »).
DALL-E a été cité comme le logiciel existant faisant le plus preuve de créativité.
1-La spécificité
Depuis les années 2000, de nombreux réseaux de neurones ont pu générer des images réalistes. La spécificité de DALL-E est de pouvoir les générer à partir d’invites en langage naturel, qu’il « comprend », et « il échoue rarement ».
2-Code source
OpenAI n’a pas publié de code source pour l’un ou l’autre modèle, bien qu’une « démo contrôlée » de DALL-E soit disponible sur le site Web d’OpenAI, où la sortie d’une sélection limitée d’exemples d’invites peut être visualisée.
Des alternatives open source, formées sur de plus petites quantités de données, comme DALL-E Mini, ont été publiées par d’autres.
Selon la MIT Technology Review, l’un des principaux objectifs d’OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses ».
3-Histoire
DALL-E a été révélé par OpenAI le .
En 2020, OpenAI constate que « tout comme un grand modèle de transformeur entraîné sur le langage peut générer du texte cohérent, le même modèle exact entraîné sur des séquences de pixels peut générer une image cohérente ».
L’image GPT a montré que le même type de réseau de neurones peut aussi être utilisé pour générer des images avec une haute fidélité. Selon OpenAi (janvier 2021) : « la manipulation de concepts visuels par le langage est désormais à portée de main ».
En , OpenAI a annoncé DALL-E 2 (affirmant qu’il pouvait produire des images photoréalistes à partir de descriptions textuelles), ainsi qu’un éditeur permettant de simples modifications de la sortie. Lors de l’annonce, le logiciel était encore en phase de recherche, avec un accès limité à des utilisateurs bêta présélectionnés. Le modèle pouvait encore faire de graves erreurs, y compris des erreurs qu’aucun humain ne ferait.
DALL-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d’art originales et réalistes à partir d’une description textuelle. Il peut combiner des concepts, des attributs et des styles ».
Selon Stable Diffusion, DALL-E créait déjà environ deux millions d’images par jour lors de la phase tests. Quand la plate-forme a atteint un million d’utilisateurs (mi-septembre 2022) Emad Mostaque a estimé que le seuil d’un milliard d’images par jour devrait être atteint « plutôt tôt que tard », surtout quand la possibilité de faire des animations sera activée. Peter Welinder, vice-président des produits et des partenariats d’OpenAI, a estimé lors du MIT Technology Review en juillet 2022 que DALL-E pourrait même un jour prochain dépasser ChatGPT 3 en intérêt.
Une concurrence existe ou émerge, avec notamment DALL-E Mini, puis Craiyon (générateur d’images de moindre qualité mais gratuit) ou Midjourney et Stable Diffusion (qui sont eux de meilleure qualité). Google développe aussi, secrètement Imagen.
On s’attend à ce que l’art assité par intelligence artificielle croisse très rapidement en volume et en créativité.
4-Architecture
Le modèle baptisé Generative Pre-trained Transformer (GPT) a d’abord été développé par OpenAI, en 2018, en utilisant l’architecture Transformeur. La première itération, GPT, a été mise à l’échelle pour produire GPT-2 en 2019 ; et en 2020, il a été de nouveau mis à l’échelle pour produire GPT-3, avec 175 milliards de paramètres.
Le modèle de DALL-E est une implémentation multimodale de GPT-3 avec 12 milliards de paramètres qui « échange du texte contre des pixels », entraînés sur des paires texte-image provenant d’Internet.
Il utilise l’apprentissage en mode zero-shot (en) (Zero-shot learning : c’est-à-dire sans recours à des données d’apprentissage préalable pour générer une image à partir de la description et des indices qui lui sont directement fournis en consigne).
DALL-E génère plusieurs images en réponse aux invites.
Source: Wikipédia sous licence CC-BY-SA 3.0.