TG Telegram Group Link
Channel: эйай ньюз
Back to Bottom
эйай ньюз
На 4chan зачем-то слили Stable Audio 1.0 [UPD: Это все же 2.0] Я скачал, запустил и качество там не очень. И не удивительно: даже вторая версия модели отстаёт от конкурентов, а эта, по ощущениям, отстаёт даже от MusicGen годовой давности. Веса тут (как…
Выяснилось что слитые веса были от Stable Audio Open 1.0

Stability релизнули открытую версию Stable Audio. Модель с архитектурой от Stable Audio 2, натренированная на открытых данных (FreeSound и Free Music Archive).

По заявлениям Stability она подходит для генерации звуковых эффектов, но с музыкой там не очень (что и показал мой опыт её использования).

Блогпост
Веса

@ai_newz
Kling – ещё одна СОРА от Китайских мастеров

В Китае появляются свои собственные варианты Соры (генерация видео) как грибы после дождя. Недавно китайцы анонсировано Vidu, а теперь вот новая модель Kling, которая выглядит ещё лучше.

Kuaishou - приложение для коротких видео, что-то типа ТикТока, как я понял. Так вот эти ребята вдруг представили свою видео модель Kling. Качество, как видите, впечатляет. Конечно, может это все черри-пики (так и есть), но даже если так, то это впечатляет.

Что все эти соры объединяет — так, это то, что потестировать их никому не дают (интересно почему 😂).

На сайте пишут, что можно как-то потестить через их китайский апп, но там вейтлист, и я думаю, что некитайцу получить доступ шансов мало.

Детали:
  - генерит видео до 2 минут за раз
  - разрешение 1080p
  - пишут, что за счет хорошего понимания текста может генерировать всякую необычную дичь => промпт должен хорошо понимать. Наверно, хорошо разметили датасет.
  - завезли поддержку разных соотношений сторон
  - еще отдельный инструмент для мультяшных танцулек для тиктоков

Сайт какой-то лагучий, поэтому я скачал для вас все видео оттуда.

@ai_newz
Вот ещё генерации Kling. Честно, черипики выглядят на уровне SORA от OpenAI и гораздо лучше по сравнению с Vidu (сами сравните с этим постом).

Думаю, через 6-12 месяцев что-то такое доползет и до опенсорса. Скриньте.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А теперь гвоздь номера, за который мой глаз зацепился – эта генерация меня больше всего впечатлила. По одной фотке китайцы генерят видео, как человек "поёт и танцует". Выглядит вау!

Обратите внимание, какая консистентность между кадрами, ничего не прыгает и не дёргается как в покадровых контролнетах. Пишут на сайте, что используют 3д реконструкцию лица и тела как дополнительные conditions для генерации.

Целятся в тикток, однозначно.

@ai_newz
Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz
Qwen 2 - новый китайский лидер

Идёт в 5 размерах:
0.5B - работает в браузере, 32k контекста,
1.5B - 32k контекста,
7B - 128k контекста,
57B-A14B - MoE версия для дешёвого инференса, 64k контекста
72B - 128k контекста.

72B модель обгоняет LLaMa 3 на бенчмарках, но на арене от неё отстаёт во всём кроме китайского. Остальные модели по бенчмарках лидеры в своих весовых категориях, но и по поводу них есть сомнения, авторы Qwen ранее были замечены в тренировке своих моделей на бенчах.

Архитектура практически идентична LLaMa. Единственное исключение - MoE версия, но про её архитектуру, я уже рассказывал, с тех пор она мало изменилась.

У всех моделей, кроме старшей, лицензия Apache 2.0. У 72B своя лицензия, похожая на лицензию ламы. Отличия: нет требования в тюнах указывать название оригинала и нижняя планка MAU, при которой необходимо получать лицензию - это 100 миллионов пользователей, а не 700 миллионов, как у ламы.

Блогпост
Демка
Веса

@ai_newz
HTML Embed Code:
2024/06/09 08:39:32
Back to Top