TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.

Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.

Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.

Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.

Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.

Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.

Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.

Forwarded from gonzo_ML_podcasts
Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.

Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.

Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.

Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.

Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.

Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.

Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)