эйай ньюз Webview Telegram

TG Telegram Group Link

Channel: эйай ньюз

эйай ньюз

эйай ньюз

На 4chan зачем-то слили Stable Audio 1.0 [UPD: Это все же 2.0] Я скачал, запустил и качество там не очень. И не удивительно: даже вторая версия модели отстаёт от конкурентов, а эта, по ощущениям, отстаёт даже от MusicGen годовой давности. Веса тут (как…

Выяснилось что слитые веса были от Stable Audio Open 1.0

Stability релизнули открытую версию Stable Audio. Модель с архитектурой от Stable Audio 2, натренированная на открытых данных (FreeSound и Free Music Archive).

По заявлениям Stability она подходит для генерации звуковых эффектов, но с музыкой там не очень (что и показал мой опыт её использования).

Блогпост
Веса

@ai_newz

эйай ньюз

Stable Audio 2 - генерация коммерческой музыки по промпту

В отличие от suno модель не умеет в голос, но в инструментах вроде артефачит поменьше. Но самое интересное в Stable Audio 2 - это то что её тренировали только на лицензированных данных, так что новому…

19.5K viewsedited 14:59

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Kling – ещё одна СОРА от Китайских мастеров

В Китае появляются свои собственные варианты Соры (генерация видео) как грибы после дождя. Недавно китайцы анонсировано Vidu, а теперь вот новая модель Kling, которая выглядит ещё лучше.

Kuaishou - приложение для коротких видео, что-то типа ТикТока, как я понял. Так вот эти ребята вдруг представили свою видео модель Kling. Качество, как видите, впечатляет. Конечно, может это все черри-пики (так и есть), но даже если так, то это впечатляет.

Что все эти соры объединяет — так, это то, что потестировать их никому не дают (интересно почему 😂).

На сайте пишут, что можно как-то потестить через их китайский апп, но там вейтлист, и я думаю, что некитайцу получить доступ шансов мало.

Детали:
- генерит видео до 2 минут за раз
- разрешение 1080p
- пишут, что за счет хорошего понимания текста может генерировать всякую необычную дичь => промпт должен хорошо понимать. Наверно, хорошо разметили датасет.
- завезли поддержку разных соотношений сторон
- еще отдельный инструмент для мультяшных танцулек для тиктоков

Сайт какой-то лагучий, поэтому я скачал для вас все видео оттуда.

@ai_newz

10.6K views09:23

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Вот ещё генерации Kling. Честно, черипики выглядят на уровне SORA от OpenAI и гораздо лучше по сравнению с Vidu (сами сравните с этим постом).

Думаю, через 6-12 месяцев что-то такое доползет и до опенсорса. Скриньте.

@ai_newz

10.6K views09:32

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

А теперь гвоздь номера, за который мой глаз зацепился – эта генерация меня больше всего впечатлила. По одной фотке китайцы генерят видео, как человек "поёт и танцует". Выглядит вау!

Обратите внимание, какая консистентность между кадрами, ничего не прыгает и не дёргается как в покадровых контролнетах. Пишут на сайте, что используют 3д реконструкцию лица и тела как дополнительные conditions для генерации.

Целятся в тикток, однозначно.

@ai_newz

11.2K views10:43

эйай ньюз

Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт

@ai_newz

9.7K views09:18

эйай ньюз

Qwen 2 - новый китайский лидер

Идёт в 5 размерах:
➖0.5B - работает в браузере, 32k контекста,
➖1.5B - 32k контекста,
➖7B - 128k контекста,
➖57B-A14B - MoE версия для дешёвого инференса, 64k контекста
➖72B - 128k контекста.

72B модель обгоняет LLaMa 3 на бенчмарках, но на арене от неё отстаёт во всём кроме китайского. Остальные модели по бенчмарках лидеры в своих весовых категориях, но и по поводу них есть сомнения, авторы Qwen ранее были замечены в тренировке своих моделей на бенчах.

Архитектура практически идентична LLaMa. Единственное исключение - MoE версия, но про её архитектуру, я уже рассказывал, с тех пор она мало изменилась.

У всех моделей, кроме старшей, лицензия Apache 2.0. У 72B своя лицензия, похожая на лицензию ламы. Отличия: нет требования в тюнах указывать название оригинала и нижняя планка MAU, при которой необходимо получать лицензию - это 100 миллионов пользователей, а не 700 миллионов, как у ламы.

Блогпост
Демка
Веса

@ai_newz

7.7K views15:40

HTML Embed Code:

<iframe width="100%" src="https://www.hottg.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

2024/06/09 08:39:32
Back to Top