7 avril 2025

Ghibli & OPENAI

Depuis peu, je vois sur mon fil d’actualité des personnes s’extasier sur les dernières nouveautés implémentés par OpenAI permettant de reproduire le style ghibli sur leurs portraits. Ce qui s’apparente à priori à une nouveauté est en réalité plutôt archaïque: les modèles génératifs de transfert de styles existent depuis presque dix ans, c’est même l’une des premières intégrations d’algorithmes de deep learning pour l’élaboration d’images, antérieur au modèle antagoniste génératif (ou GAN pour Generative adversarial network) et au modèles de diffusions.
OpenAI étant un mastodonte du domaine, ils ne sont pas inquiétés par la notion de droit d’auteur, là où ces anciens modèles de transferts de style s’arrêtaient à du Rembrandt ou du Munch, pour utiliser des ressources dans le domaine public.

Mais est-ce possible de reproduire son portrait suivant des styles précis sans passer par les services d’OpenAI ?

Je vous présente ainsi une production reprenant votre portrait sous forme d’un workflow comfyui. Il se base sur deux modules distincts: InstantID pour la reconstitution fidèle du visage lors de la génération, accompagné d’un LoRA (pour Low Rank Adaptation) – un affinage de modèle pour des générations plus précises, ici dans le style de Moebius. On utilise ici un modèle de diffusion ancien s’agissant de StableDiffusion XL, modèle sorti en juillet 2023, et léger car ne faisant que 3,5 milliards de paramètres (contre environ 12 sur Flux dev 1.1). Vous n’avez pas besoin des datacenters OpenAI pour produire ces visuels, vous pouvez le faire sur votre ordinateur localement.

Le modèle LoRA de Moebius a été publié sur Civitai par l’utilisateur·trice Kappa_Neuro, il·elle a évidemment utilisé des images sous copyright pour son entraînement, ce qui a alimenté sa démarche était une volonté de reproduire des visuels qu’il·elle appréciait, et a voulu partager ça avec la communauté open source.

Le workflow comfyui proposé est versatile et peut se décliner sur d’autre “style”, d’autre LoRA et d’autre prompt. Je me suis déjà décliné en elfe ou me projeter dans années 20’.

Le modèle génératif d’OpenAI est à l’instar de son prédécesseur DALL-E un modèle auto régressif, dont le fonctionnement est bien distinct des modèles de diffusion standard comme celui utilisé ici, il est extrêmement performant pour d’autres tâches, par exemple pour la génération typographique dans une image.