Новая модель Stable Cascade для Stable Diffusion

Stability AI только что выпустила предварительную версию модели которые вы можете запустить локально на своем собственном компьютере.

Мы наконец-то получили новую модель от Stability AI, и хотя технически это не следующая модель stable diffusion, она может быть лучше, чем другие модели и будущее моделей ИИ с открытым исходным кодом для преобразования текста в изображение. И я объясню почему.

Подробные уроки по нейросетям смотрите в моем Телеграм канале

Подписывайтесь на мой Бусти блог

Новая генеративная модель по генерации изображений Stable Cascade для Stable Diffusion

Очевидно, Stable Diffusion совершил огромный прорыв, например с появлением Stable Diffusion XL. Также была выпущена Stable Video в двух версиях. И кажется, что Stable Diffusion настолько хорошо доработана и адаптирована для самых разных задач, что ей по силам практически всё.

Но команда Stability AI по-прежнему привержена своей миссии продвигать исследования в этой области. Вчера они представили нечто совершенно новое, о чем, на мой взгляд, стоит говорить больше. Это называется Stable Cascade. Оно построено на принципиально новой архитектуре. Я думаю, по возможностям оно соперничает со Stable Diffusion XL, DALL-E 3 и MidJourney версии 6.

Итак, давайте разберемся. Этот новый релиз Stability AI немного отличается от предыдущих. Новая модель называется Stable Cascade. Главное её отличие в том, что она построена не так, как все предыдущие версии Stable Diffusion. Поэтому она получила собственное название.

Вкратце, архитектурная основа — это исследования, известные как Worst-In. Пока модель выпущена как исследовательский превью в некоммерческих целях.

Попробовать можно бесплатно на HuggingFace Demo https://huggingface.co/spaces/multimodalart/stable-cascade (скопируете ссылку и вставьте в браузер)

Ссылка на скачивание расширение Stable Cascade для Automatic 1111 https://github.com/blue-pen5805/sdweb-easy-stablecascade-diffusers

Главное преимущество новой архитектуры Stable Cascade — это исключительно простое обучение и дополнительная настройка на потребительском железе. Это достигается за счет трехэтапного подхода, о котором я расскажу чуть позже. Такой подход позволяет гораздо больше экспериментировать с моделью и адаптировать её под нужды сообщества, используя меньше вычислительных мощностей.

Конечно, Stable Diffusion и Stable Diffusion XL тоже можно было дорабатывать без слишком мощного железа. Но на чем-то менее производительном, чем RTX 3090, это либо занимало много времени, либо возможности внести существенные изменения в модели через обучение или создание лор были ограничены.

Я считаю крутым, что Stability AI демонстрирует свое стремление сделать технологию доступнее для большего числа людей, особенно без дорогих GPU. Очень здорово, что они сразу предоставляют все контрольные точки и скрипты вывода. В прошлом нам приходилось ждать их выхода. Кроме того, они специально выпускают скрипты для дополнительного обучения управляющей сети и создания лор, чтобы пользователи могли экспериментировать.

С этой новой архитектурой они хотят проверить, работает ли она. Это напоминает мне некоторые мои предыдущие видео о других исследовательских превью от Stability AI, которые тоже были принципиально новыми.

Еще один хороший пример — когда они выпустили модели, которые намекали на идею использования двух разных моделей вместе, как ранние версии Stable Diffusion XL.

Круто, что здесь применен похожий подход, но с совершенно иной реализацией. Итак, как Stability AI описывает эту модель?

Вкратце, они говорят, что эта инновационная модель Stable Cascade использует интересный трех этапный подход, устанавливая новые стандарты качества, гибкости, дополнительного обучения и эффективности. При этом делается акцент на дальнейшем снижении преград, связанных с железом.

Кроме того, они выпускают код для обучения и вывода на GitHub (ссылку дам ниже), чтобы еще больше расширить возможности по настройке модели и ее результатов. Модель доступна для вывода в библиотеке Diffuser.

Теперь о технических деталях. Вкратце они говорят, что Stable Cascade отличается от Stable Diffusion тем, что построена на основе конвейера из трех различных моделей. Ранние версии Stable Diffusion XL тоже использовали две модели — основную и дорабатывающую, чтобы добавить больше контекста, разрешения и деталей.

Они называют эти стадии A, B и C. И говорят, что такая архитектура позволяет иерархически сжимать изображения, достигая замечательных результатов при использовании очень сжатого латентного пространства.

Ключевой момент — как они манипулируют латентным пространством. Есть три очень распространенных элемента: диффузионная модель на стадии C, модель слияния на B и вариационный автокодировщик на А.

Любопытно, что работа идет от стадии C к А, и resultant изображение получается на выходе A.

Преимущества StableCascade
Требует в 8 раз меньше вычислительных ресурсов, чем Stable Diffusion 2.1, для обучения.

Сравнимое или даже лучшее качество изображения при вдвое меньшем времени вывода.
Улучшает качество генерации изображений на основе предпочтений пользователей.

Архитектура StableCascade

Архитектура StableCascade состоит из трех этапов:

Сжатое латентное пространство: Маленькое и сжатое латентное пространство, которое обеспечивает быструю начальную генерацию.
VQGan: Второй этап, который де компрессирует и детализирует изображения из сжатого латентного пространства.
Декодирующий VAE: Третий этап, который похож на декодирующий VAE и генерирует окончательное изображение.

Сравнение с другими моделями

StableCascade превосходит другие модели генерации изображений, такие как SDXL и SDXL Turbo, по следующим параметрам:

Выравнивание подсказок: Лучшее выравнивание подсказок, что приводит к более точным изображениям.
Эстетическое качество: Более высокое эстетическое качество, что приводит к более привлекательным изображениям.
Скорость вывода: Более быстрый вывод, что позволяет генерировать изображения в режиме реального времени.

Дополнительные функции

Помимо высокой эффективности и качества изображений, StableCascade также предлагает дополнительные функции:
Изображение в изображение: Возможность преобразовывать одно изображение в другое.
Аутпэйнтинг и маскирование: Возможность расширять и маскировать изображения.
Генерация изображений на основе краев: Возможность генерировать изображения на основе минимального входного сигнала.
Масштабирование: Возможность масштабировать изображения с высоким качеством.

Еще больше генераций сделанных моделью Stable Cascade

Запрос:

a macroscopic photograph of strawberry ice cream with cherry cream, ice cubes, maraschino cherries, blueberries, lychees , hundreds and thousands, dark chocolate sauce, nuts, mint leaves, splashing dark chocolate sauce, in a gradient honey coloured background, fluid motion, dynamic movement, cinematic lighting, palette knife, digital artwork by Beksinski,action shot,sweetscape, 3D, oversized fruit, caramel theme, art by Klimt, airbrush art, food photography, food explosion