TG Telegram Group & Channel
КПД | United States America (US)
Create: Update:

Beware of Calibration Data for Pruning Large Language Models

Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.

Продолжение следует... (надеюсь 😅)

Beware of Calibration Data for Pruning Large Language Models

Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.

Продолжение следует... (надеюсь 😅)


>>Click here to continue<<

КПД




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)