#10. Генеративні мережі

Мета роботи. Ознайомитися з популярними сервісами, що призначені для генерації різного вмісту за коротким описом: зображення, заголовки, тексти. Дослідити безкоштовні сервіси, що є гідною альтернативою потужним нейромережним системам.

Нейромережі для генерації зображень та текстів

На даний час створюються та вдосконалюються нейромережі для генерації зображень, доступних для використання. Вони дозволяють на основі текстових запитів, фотографій або коротких зображень створювати вражаючі картини. Однак, якість кінцевого результату залежить від вхідних даних. Алгоритми можуть застосовуватися для формування основи для майбутнього зображення і для генерації значної кількості варіантів за короткий час.

Такі генеративні мережі, як DALL-E, Midjourney і Stable Diffusion, глибоко вплинули на те, як взаємодіяти з цифровим вмістом. Вони здатні генерувати як приголомшливі, так і «слабкі» зображення. В одних випадках потрібно більше попрацювати із запитами, а в інших — достатньо однієї спроби, аби отримати добрий результат.

AI вже створив стільки зображень, скільки зробили фотографи за 150 років.

Трохи статистики:

З використанням алгоритмів перетворення тексту на зображення створено понад 15 млрд зображень.
Приблизно 80% зображень створено з використанням моделей на основі Stable Diffusion, а найпопулярніша платформа для генерацій – Midjourney, має 15 млн користувачів.
Midjourney створює 2,5 млн зображень щодня, за 15 місяців створено 964 млн зображень.
Найшвидше зростаючий продукт – Adobe Firefly, досяг 1 млрд зображень за 3 місяці.
DALL-E 2 генерує понад 2 млн зображень на день, за 15 місяців створено 916 млн зображень, Stable Diffusion за рік створив 690 млн.

Однак, для роботи з цими нейромережами виникають певні обмеження чи складнощі - платні тарифи, необхідність розгортати сервер, мінімальна кількість спроб генерації. Тому нижче наведено перелік гідних альтернатив, що надіють хороші результати.

DreamStudio

DreamStudio — це генеративна веб-програма для перетворення тексту в зображення АІ, розроблена компанією Stable Diffusion. Подібно до DALL-E2, він використовує обробку природної мови для створення зображень із підказок і пропонує користувачам елементи керування введенням для подальшого налаштування зображення. Вважається конкурентом DALL-E2.

Рис.1. Інтерфейс DreamStudio

DreamStudio є моделлю латентного перетворення тексту в зображення, що спроможна створити зображення з короткого описового текстової підказки менш ніж за 10 секунд. Це є безкоштовний і швидший конкурент DALL-E2 від OpenAI, який функціонує майже ідентично, але без такої кількості фільтрів.

Увага! DreamStudio безкоштовно надає лише 10 спроб генерації.

Feng My Shui

Feng My Shui — це нова генеративна система, яка створює зображення, засновані на принципах фен-шуй. Вона використовує алгоритм машинного навчання, щоб створити зображення, які відповідають п'яти елементам фен-шуй: металу, дереву, води, вогню і землі.

Feng My Shui може створювати зображення різних типів, включаючи пейзажі, будівлі, людей і предмети. Вона також може створювати зображення, які відповідають конкретному типу фен-шуй, наприклад, для залучення багатства чи любові.

Рис.2. Інтерфейс Feng My Shui

Feng My Shui може стати потужним інструментом для дизайнерів та архітекторів, які хочуть створити простори, які відповідають принципам фен-шуй. Вона також може бути використана для створення зображень, які не мають у собі певного значення чи послання.

Lexica пошукова система зображень і підказки

Lexica — це пошукова система підказок на основі штучного інтелекту та інструмент для створення зображень, який використовує Stable Diffusion, модель машинного навчання з відкритим кодом. Система дозволяє створювати унікальні зображення з текстового опису та черпати натхнення з найкращих підказок. На Lexica.art можна шукати зображення, що створені іншими користувачами, використовуючи панель пошуку.

Рис.2. Інтерфейс Lexica

Після створення безкоштовного облікового запису можна створити опис майбутнього зображення, натиснути «Створити» та спостерігати за результатами. За замовченням генерується 4 зображення, але за потреби можна повторити операцію. Lexica Aperture дозволяє створювати 20 зображень безкоштовно щомісяця. Якість зображень, створених Apertureє високою (набагато краща, ніж у багатьох інших популярних генераторів зображень).

Ideogram

Ideogram - нейромережа від колишніх інженерів Google Brain під назвою Ideogram. Нейромережа вміє генерувати зображення за текстовим описом, а також містить кілька пресетів: аніме, фото, графіті, фешн, 3-Д тощо. Мета проекту — допомогти людям стати творчішими за допомогою штучного інтелекту.

Рис.3. Інтерфейс Ideogram

Leonardo

Leonardo AI — це багатофункціональний генеративний інструмент AI для створення мистецтва. Хоча він особливо відомий створенням зображень для комп’ютерних ігор, генератор зображень зі штучним інтелектом від Leonardo може створювати приголомшливі зображення практично для будь-якого проекту. Це безкоштовний сервіс, який дозволяє користувачам створювати зображення на 150 кредитів щодня.

Рис.3. Інтерфейс Leonardo

Залежно від поєднання завдань із створення зображень і обробки зображень, які виконуються на платформі, щоденного кредитного балансу у 150 має бути достатнім для створення кількох десятків зображень (близько 75). Якщо створювати великі зображення і скористатися перевагами ексклюзивних преміум-функцій, преміум-план Leonardo AI починається від 10 доларів США на місяць.

Leonardo AI працює досить вражаюче і навіть перевершує Midjourney за багатьма показниками генерації зображень, зокрема завдяки додатковому набору функцій на основі штучного інтелекту, які він пропонує.

DeepAI

DeepAi — це генератор штучного інтелекту, який може допомогти створювати зображення та відео. DeepAi використовує штучний інтелект, щоб вчитися на прикладах і створювати оригінальні твори мистецтва в широкому діапазоні художніх стилів, включаючи мультфільм, абстракцію, пейзаж тощо. DeepAi має кілька методів генерації АІ мистецтва.

Генератор тексту

Рис.4. Генератор тексту DeepAi

Генератор

Рис.5. Генератор зображень DeepAi

Генерація Чат-ботом

Рис.6. Генератор зображень Чат-ботом

Craiyon

Craiyon — це модель штучного інтелекту, яка створює зображення з тексту. Користувач вводить текстову підказку, а потім Craiyon починає її створення. Він розроблений як полегшена версія DALL-E від OpenAI і спочатку називався DALL-E Mini.

Рис.7. Інтерфейс Craiyon

Спочатку модель Craiyon навчалася на мільйонах зображень з Інтернету та підписах, які їх супроводжували. Завдяки цьому він міг навчитися створювати зображення лише з текстової підказки. Однак модель створено не лише для того, щоб мати можливість відтворювати зображення, її також навчили поєднувати концепції для створення нових зображень з будь-якої підказки, на яку вона мала посилання.

Це робиться в три кроки:

Кодер перетворює текстову підказку на числа, які представляють собою слово/рядок.
Потім модель порівнює це з тим, на чому її тренували. Якщо на зображенні «побачено» котика, котик буде пов’язаний із номером.
Потім модель генерує зображення з цих асоціацій і пропускає його через фільтр якості.

Vispunk

Vispunk — це інструмент для створення зображень, який покращує робочий процес генеративного штучного інтелекту для створення зображень. Він забезпечує альтернативний підхід до традиційних робочих процесів зі штучним інтелектом, наголошуючи на використанні зображень для створення узгоджених і персоналізованих результатів.

Рис.8. Інтерфейс Vispunk

Користувачі можуть додавати власні зображення на полотно та маніпулювати ними за допомогою знайомих інструментів і нових функцій, представлених Vispunk. Інструмент пропонує Magic Assets, які дозволяють користувачам малювати приблизну форму та створювати необмежену кількість зображень подібної форми. Magic Pose генерує індивідуальні стокові зображення на основі бажаної форми, пози та опису. Vispunk дозволяє користувачам перетягувати зображення на зелену траву та створювати нові композиції.

Користувачі можуть надавати описи бажаного зображення або використовувати пошукові терміни, щоб допомогти ШІ зрозуміти, що створити. Інструмент «Вибір» дозволяє користувачам вибирати конкретні регіони для генерації штучного інтелекту, зосереджуючись на певній області, якщо це потрібно. Щоб покращити процес створення зображення, Vispunk надає такі функції, як Generative Fill, Magic Erase, Remove Background, Object Select, Move, Insert Image, Insert Інструменти Shape, Draw і Hand. Щоб отримати оновлення та залучити спільноту, Vispunk заохочує користувачів відвідати їхню спільноту Reddit.

Розпізнавання вмісту зображення

Astica

AsticaVision API — це модель комп’ютерного зору загального призначення з найсучаснішими можливостями. Доступний через API, він дозволяє розробникам надавати користувачам потужний і комплексний набір можливостей аналізу та розуміння зображень.

Рис.9. Інтерфейс Astica

AsticaVision API можна легко інтегрувати в різноманітні програми, щоб витягнути цінну інформацію з візуального вмісту. Його надійні функції, включаючи розпізнавання обличчя, розпізнавання об’єктів, категоризацію зображень, модерацію вмісту та автоматичне додавання субтитрів, роблять його ідеальним вибором для тих, хто хоче покращити свої можливості аналізу та розуміння зображень.

Основні функції asticaVision API

Розпізнавання обличчя (вік і стать).
Виявлення об’єктів.
Теги та категоризація зображень.
Модерування вмісту.
Автоматичний опис зображень і підписи.

Methexis Inc Img2Prompt

Img2Prompt - Витягування опису вмісту картинки. Потрібно завантажити картинку, а натомість отримати готовий промпт для роботи. Це добрий спосіб створення текстових підказок для майбутніх зображень.

Рис.10. Інтерфейс Methexis Inc Img2Prompt

ImageToCaption

ImageToCaption - Генератор субтитрів на основі штучного інтелекту. Створюйте захоплюючі субтитри без зусиль за допомогою нашого генератора субтитрів на основі штучного інтелекту. Ідеально підходить для публікацій у соціальних мережах, статей у блогах тощо.

Рис.11. Інтерфейс ImageToCaption

Ця інноваційна платформа є не просто інструментом, а кардинальним фактором у сфері створення контенту. Він використовує потужність нейронних мереж і обробки природної мови для аналізу зображень і створення підписів, які є точними, привабливими та відповідними до контексту.

Генеративні мережі різного призначення

Генератор відео Gen-1

RunwayML випустила Gen-2. Відео, що генеруються, стали ще кращими і видовищнішими. Доступні способи генерації:

За текстовим запитом.
За референсом.
За промптом та референсом.

Компанія зробила доступною попередню версію генератора - Gen-1. Тест доступний на 3 секунди, всього можна згенерувати на 40 секунд.

Прогнози виконуються на апаратному забезпеченні Nvidia T4 GPU. Прогнози зазвичай завершуються протягом 27 секунд.

Надає приблизні текстові підказки, які можна використовувати зі стабільною дифузією для відтворення схожих на вигляд версій зображення/картини. Спробуйте, скопіювавши текстові підказки до стабільної дифузії !

Трохи адаптована версія зошита CLIP Interrogator від @pharmapsychotic. CLIP Interrogator використовує моделі OpenAI CLIP, щоб перевірити дане зображення за різними художниками, носіями та стилями, щоб дослідити, як різні моделі сприймають вміст зображення. Він також поєднує результати з підписом BLIP, щоб запропонувати текстову підказку для створення додаткових зображень, подібних до наданого.

Генератор тексту InterKit

InferKit — це передова платформа на основі штучного інтелекту, яка вправно створює текст у людському стилі на основі наданої інформації. Використовуючи потенціал машинного навчання в поєднанні з обробкою природної мови, InferKit виходить за межі простої автоматизації, пропонуючи справжню імітацію людського вираження.

Рис.12. Інтерфейс InterKit

InferKit базується на складній парадигмі глибокого навчання. Це гарантує, що вміст, який він обробляє, відповідає контексту та є лінгвістично бездоганним. InferKit обслуговує різні сектори, від унікального створення контенту до подолання комунікаційних прогалин у підтримці клієнтів або навіть мовного перекладу.

У своїй основі він використовує так звану модель «трансформера». Цей дизайн — майстер у розпізнаванні мовних тонкощів, удосконалений великим набором текстових даних, щоб вловлювати найтонші мовні відтінки.

Генерація музики MusicGen

MusicGen — Локальна нейромережа для генерації музики на своєму персональному комп'ютері. Спочатку нейронка могла створювати аудіо тривалістю до 12 секунд, але на сьогоднішній день може згенерувати до 30 секунд. Випущено 4 версії моделі, які відрізняються одна від одної кількістю параметрів: Small, Medium, Melody та Large.

Рис.13. Інтерфейс MusicGen

MusicGen побудований на моделі Transformer, як більшість мовних моделей. Генерує кожен наступний сегмент твору так само, як LLM (Large Language Models) пишуть тексти. Модель використовує архітектуру EnCodec, текстові токени запиту зіставляються з відповідним музичним токеном. Наприклад, "happy" відповідає мажорному ключу та веселій мелодії. Порівнюючи токени разом, модель крок за кроком створює мелодію.

Основні переваги нейронки:

Довжина музичної композиції - до 30 секунд.
Невисокі вимоги щодо заліза.
Варіативність у способах генерації через нейронку. Композицію можна отримати за допомогою: Colab, Hugging Face, співу мотиву.
Безкоштовно.

Генерація анімації ModelScope Image2Video

ModelScope Image2Video — це нейромережа від Alibaba, яка генерує анімовані 3D-сцени зі звичайних картинок.

Рис.14. Інтерфейс MS-Image2Video

Працює просто: у поле перетягнути фотографію і натиснути на Submit. Сервіс працює на браузері (варто пробувати на Chrome) та через мобільні пристрої. Зазвичай генерація займає менше 5 хвилин. І, головне, все абсолютно безкоштовно.

Сервіси генерації промтів для нейромереж

PromptoMANIA - дуже зручний генератор промптів для різних генераторів мистецтв штучного інтелекту, включаючи Midjourney, Stable Diffusion, DreamStudio та інші. Він надає широкий спектр опцій та складних функцій для налаштування підказок.
Prompt Inspiration - комплексний конструктор підказок допомагає користувачам створити ідеальний промпт для виробництва зображень MidJourney, надаючи широкий вибір варіантів.
Phrazer - він допомагає користувачам створювати кращі підказки для Midjourney, Dall-E, Stable Diffusion, Disco Diffusion та Craiyon. Він пропонує клієнтам вісім елементів на вибір, включаючи нейронну мережу, колір, якість, налаштування камери, тип контенту, опис, стиль, відчуття, щоб надати індивідуальні та точні підказки.

Промпти на будь-який випадок життя, сайт допоможе вам оптимізувати роботу і отримати продуктивні відповіді на ваш запит. Якщо у вас виникло завдання, ви завжди зможете скористатися пошуком і виявити відповідні промпти, які найбільше відповідають вашому завданню.

Відео лабораторної роботи

Контрольні запитання

Які типи контенту можуть створювати сучасні АІ системи? Які приклади таких систем ви знаєте?
Як працюють генеративні системи, їх можливості та обмеження?
Як ці системи можуть бути використані у творчості, освіті, бізнесі?
Які застереження та негативний вплив можуть мать системи генерування різного контенту? Як цьому запобігти?
Якими є перспективи розвитку генеративних систем? Як ці системи змінять наше життя в майбутньому?
Якими принципами керуються розробники систем для створення картинок?
Як можна підвищити якість картинок, що генеруються цими системами?

Лабораторне завдання

Ознайомитися з теоретичними відомостями стосовно можливостей нейромереж, що спроможні генерувати певний тип даних: зображення, заголовки, текст.
Дослідити можливості наведених ресурсів щодо створення зображенні за наведеним описом. Здійнити порівняльний аналіз щодо доступності ресурсів, якості отриманих результатів, легкості користування.
Провести низку експериментів щодо витягування опису з наданого зображення. Відмітити правильність розпізнавання.
Провести кілька експериментів щодо генерації ессе з зазначеної теми. Переформулювати опис і порівняти згенеровані результати
Віднайти 2-3 ресурси, що спроможні генерувати різноманітний зміст. Надати характеристику сервіси, зазначити його особливості та спроможності.

Зміст звіту

Назва та мета виконання лабораторної роботи.
Скріни етапів виконання роботи, короткий опис здійснених робіт та результати використання наведених сервісів.
У висновку оцінити використані сервіси - їх доступність, можливості та якість отриманих результатів. Вказати сфери застосування подібних сервісів і ймовірні напрямки вдосконалень.
Навести позитивні сторони сервісів генерації зображень, текстів, заголовків, відмітити ймовірні застереження та шляхи подолання.