Les équipes d’OpenAI sont régulièrement précurseurs des travaux de deep learning.
Dans cet article du début de l’année 2021, les auteurs présentent DALL-E (d’après le personnage Wall-e et l’artiste Salvador Dali) : un réseau de neurones entraînés sur 12 milliards de paramètres, à partir d’un dataset d’images décrites textuellement.
L’intérêt : générer à partir d’une expression linguistique n’importe quel concept, image, dessin, ou même de reconstruire une partie d’une image manquante à partir de sa description. Un renard en pâte à modeler assis dans une forêt ? L’emoji d’un koala vêtu d’un chapeau jaune, d’un pantalon bleu et de gants rouges ? Le reflet d’un Rubik’s Cube dans le miroir selon une certaine orientation ? Malgré des rendus parfois discutables, c’est avant tout la diversité des requêtes qui peut lui être proposé qui fait tout le sel de cette publication, et qui permet d’imaginer des usages pratiques considérables dans les prochaines années.
Découvrez l’article de référence :
Zero-Shot Text-to-Image Generation
Auteurs : Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever
Source : https://www.cornell.edu/
Publication le : 26/02/2021
Envie de rester informé(e) ?
Abonnez-vous à la Newsletter Scal[ia]
Articles connexes