Stable Diffusion : après SDXL voici Stable Cascade encore meilleur

Cela faisait bien longtemps que je ne vous avais pas parlé d’intelligence artificielle ici ! Désolé, encore une fois, c’est toujours malheureusement par manque de temps et pas d’envie ça, c’est sur… Cependant, je ne pouvais pas résister à l’idée de vous parler de cette nouveauté qui vient d’être annoncée par Stability AI ! Ils viennent en effet de rendre disponible un nouveau modèle de génération d’images encore plus performant et surtout gratuit si vous avez une carte graphique assez puissante pour le faire tourner.

Après Stable Diffusion XL qui est couramment appelé SDXL, nous avons donc le droit à ce nouveau modèle Stable Cascade qui est annoncé comme beaucoup plus performant que son prédécesseur. Il comprend mieux vos prompts et il est surtout beaucoup plus rapide pour vous générer de belles images. Il y en a eu du chemin parcouru depuis la première version qui était à l’époque Stable Diffusion 1.5 ! Imaginez dans quelques mois ce que nous pourrions avoir entre les mains avec des modèles de génération d’images très performants, capable de tourner sur une simple carte graphique grand public.

Ça arrivera ça, c’est une certitude, et ce, notre plus grand bonheur. Il faut juste attendre les nouvelles versions des modèles qui poussent l’optimisation toujours plus loin. Quand on voit ce qu’il est déjà possible de faire avec des modèles d’intelligence artificielle pour la génération de texte sur un simple CPU, forcément la génération d’images suit la même tendance.

Quoi de neuf avec Stable Cascade ?

Stable Cascade, un modèle de génération d’images composé de trois parties distinctes : Stage A, Stage B et Stage C. Stable Cascade utilise une approche en cascade pour générer des images à partir de texte, ce qui lui vaut son nom de « Cascade ». Son architecture est donc composée de trois étapes distinctes.

La première étape, appelée Stage A, est responsable de la compression en utilisant le principe VAE de 20 millions de paramètres. Cette étape permet de réduire la taille des images tout en conservant suffisamment d’informations pour les générer ultérieurement.

La deuxième étape, appelée Stage B, est une étape de diffusion qui peut utiliser un modèle de diffusion de 700 millions de paramètres ou une version plus détaillée de 1,5 milliard de paramètres. Cette compression supplémentaire permet de réduire encore plus la taille tout en préservant leur qualité.

Enfin, la dernière étape, appelée Stage C, propose des modèles encore plus grands pour des applications de fine-tuning. Cette étape permet de générer des images à partir des étapes précédentes. Les modèles proposés pour cette étape ont des tailles variant de 1 milliard à 3,6 milliards de paramètres, en fonction de l’application souhaitée.

Stable Cascade est un modèle de génération d’images qui permet de compresser efficacement les images tout en préservant leur qualité, grâce à son architecture en cascade composée de trois étapes distinctes. Les modèles proposés pour chaque étape permettent de s’adapter à différents niveaux de détails et de qualité, en fonction des besoins de l’utilisateur.

En dissociant le processus de création d’images à partir de textes de l’étape de décodage d’images, il devient possible de former et d’optimiser le modèle initial basé sur le texte avec une grande efficacité, y compris en utilisant des technologies telles que ControlNet et LoRA. D’après les analyses de Stability AI, cette optimisation ciblée permet de réaliser une économie de coûts jusqu’à 16 fois supérieure comparée à l’ajustement d’un modèle de diffusion stable de même envergure.

Un autre point fort notable de Stable Cascade est sa capacité à manipuler le texte dans les images. Il se montre nettement supérieur à SDXL pour l’intégration de textes dans les visuels, démontrant des compétences typographiques avancées.

Vous pouvez déjà télécharger gratuitement Stable Cascade et par exemple faire votre inférence dans Stable Diffusion WebUI pour générer vos images.

Laisser un commentaire