TG Telegram Group & Channel
Лабораторный журнал | United States America (US)
Create: Update:

-- https://arxiv.org/abs/2502.20339, попытка загнать reasoning в mamba с её высокой эффективностью и низкой точностью, а затем дать побольше времени на reasoning, чтобы перегнать трансформер по точности на том же вычислительном бюджете: can models with lower complexity leverage their superior generation throughput to outperform similarly sized Transformers for a fixed computational budget? To address this question and overcome the lack of strong subquadratic reasoners, we distill pure and hybrid Mamba models from pretrained Transformers. Trained on only 8 billion tokens, our distilled models show strong performance and scaling on mathematical reasoning datasets while being much faster at inference for large batches and long sequences. Despite the zero-shot performance hit due to distillation, both pure and hybrid Mamba models can scale their coverage and accuracy performance past their Transformer teacher models under fixed time budgets, opening a new direction for scaling inference compute.
-- https://arxiv.org/abs/2502.16965, попытка загнать CoT в autoregression image generation, которая обычно хуже генерирует, чем диффузионные модели. И впрямь, CoT поднимает качество: autoregressive Image Generation with Thoughtful Reasoning (IGTR), Compared to the autoregressive method without prompts, our method shows outstanding performance and achieves an approximate improvement of 20%. Но если заглянуть внутрь — таки диффузию не догнали (сравнимые, даже чуть-чуть хуже, характеристики при вдвое большем числе параметров), но в авторегрессионных моделях они ого-го. Это подтверждает мысль, что исходной модели надо быть умной, глупой модели добавка reasoning помогает очень существенно, но не так сильно, чтобы перегнать более умную модель. Усидчивостью перегнать талантливых в общем случае не удастся. Если кошечка будет долго-долго думать, хоть и всю жизнь, она стишок не сочинит.
-- https://www.inceptionlabs.ai/news. Вот тут наоборот — диффузия для генерации кода, вдесятеро быстрее, но менее точна, чем чемпионы — https://www.inceptionlabs.ai/news.
-- ... тысячи этих работ, про test time compute против компьюта обучения не думает только ленивый. Вот даже я думаю. У меня ведь те же проблемы: учить студентов дольше, или просто заставлять их дольше думать в своих проектах (но ведь мы тоже хотим экономить test time compute -- за счёт того, что один раз потратим время на обучение, а потом много раз сэкономим на размышлениях)? Я обычно сильно удивляюсь, когда узнаю, сколько времени люди делают качественные продукты. Кажется, что хорошо обученные гении должны делать всё быстро -- но нет, у них test time compute тоже будь здоров! Жизнь показывает, что и учатся как можно лучше/дольше, и потом времени на подумать берут тоже побольше. И дальше лидируют в рейтингах.

-- https://arxiv.org/abs/2502.20339, попытка загнать reasoning в mamba с её высокой эффективностью и низкой точностью, а затем дать побольше времени на reasoning, чтобы перегнать трансформер по точности на том же вычислительном бюджете: can models with lower complexity leverage their superior generation throughput to outperform similarly sized Transformers for a fixed computational budget? To address this question and overcome the lack of strong subquadratic reasoners, we distill pure and hybrid Mamba models from pretrained Transformers. Trained on only 8 billion tokens, our distilled models show strong performance and scaling on mathematical reasoning datasets while being much faster at inference for large batches and long sequences. Despite the zero-shot performance hit due to distillation, both pure and hybrid Mamba models can scale their coverage and accuracy performance past their Transformer teacher models under fixed time budgets, opening a new direction for scaling inference compute.
-- https://arxiv.org/abs/2502.16965, попытка загнать CoT в autoregression image generation, которая обычно хуже генерирует, чем диффузионные модели. И впрямь, CoT поднимает качество: autoregressive Image Generation with Thoughtful Reasoning (IGTR), Compared to the autoregressive method without prompts, our method shows outstanding performance and achieves an approximate improvement of 20%. Но если заглянуть внутрь — таки диффузию не догнали (сравнимые, даже чуть-чуть хуже, характеристики при вдвое большем числе параметров), но в авторегрессионных моделях они ого-го. Это подтверждает мысль, что исходной модели надо быть умной, глупой модели добавка reasoning помогает очень существенно, но не так сильно, чтобы перегнать более умную модель. Усидчивостью перегнать талантливых в общем случае не удастся. Если кошечка будет долго-долго думать, хоть и всю жизнь, она стишок не сочинит.
-- https://www.inceptionlabs.ai/news. Вот тут наоборот — диффузия для генерации кода, вдесятеро быстрее, но менее точна, чем чемпионы — https://www.inceptionlabs.ai/news.
-- ... тысячи этих работ, про test time compute против компьюта обучения не думает только ленивый. Вот даже я думаю. У меня ведь те же проблемы: учить студентов дольше, или просто заставлять их дольше думать в своих проектах (но ведь мы тоже хотим экономить test time compute -- за счёт того, что один раз потратим время на обучение, а потом много раз сэкономим на размышлениях)? Я обычно сильно удивляюсь, когда узнаю, сколько времени люди делают качественные продукты. Кажется, что хорошо обученные гении должны делать всё быстро -- но нет, у них test time compute тоже будь здоров! Жизнь показывает, что и учатся как можно лучше/дольше, и потом времени на подумать берут тоже побольше. И дальше лидируют в рейтингах.


>>Click here to continue<<

Лабораторный журнал






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)