TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models

Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.

В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.

Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.

Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.

Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).

Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.

Forwarded from gonzo_ML_podcasts
Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models

Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.

В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.

Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.

Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.

Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).

Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)