26 novembre 2024

Des IAs et des Mains v2

Reprise du projets des IA et des mains. Les modèles de diffusions ont des lacunes sur certaines productions de sujets dans une composition. Il y a quelque temps on pouvait voir en ligne des “memes” sur les erreurs de générations sur les mains. Plus récemment, sur le dernier modèle Stable Diffusion 3 on retrouvait des erreurs sur des générations de personnages.

J’avais initié une recherche de prototype pour régénérer mes mains à base de Stable diffusion dans un billet de blog ici et .

Le 21 novembre 2024, Black Forest Lab a annoncé leur nouveau modèle d’inpainting (permettant de redessiner par dessus une image existante) pour Flux Dev 1 appelé Flux Fill. Ainsi pourquoi pas ne pas réitéré l’expérience avec le modèle « state of the art” –  le plus fin et précis pour regénérer ces mains.

Ainsi depuis une captation réelle on produit une passe masquant les mains en utilisant un algorithme de détection des mains issues de mediapipe, puis on demande à Flux Fill de générer des mains dans cet espace vide.

Le résultat est saisissant, presque trop parfait – le modèle produit très peu d’accident. On va alors essayer injecter plus d’erreur en changeant les prompts pour contraindre l’algorithme entre la réalisation d’une image cohérente et l’adhérence au prompt.

J’ai ainsi réalisé plusieurs inférences pour tester les capacité de flux. Un premier prototype où l’on change le prompt pour forcer Flux à générer des pieds. Puis un second prototype pour générer en utilisant un masque plus large et laisser plus de place pour que l’algorithme hallucine.

J’ai mis à disposition un script qui permet de produire automatiquement le masque pour l’inpainting à partir de mediapipe accessible sur github.

Et ci-dessous vous pouvez voir le workflow comfyui utilisé pour ce prototype avec le worflow ci-joint (metadonnée de l’image)