TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
Статья: https://arxiv.org/abs/2111.10952
Код: https://github.com/google-research/text-to-text-transfer-transformer
Модель: вроде как нет

В семействе трансформеров T5 пополнение. Уже были базовый T5 (и улучшенный T5.1.1, https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511), мультиязычный mT5 (https://hottg.com/gonzo_ML/442), байтовый byT5 (https://arxiv.org/abs/2105.13626), а теперь вот мультизадачный ExT5. Следующим должен стать мультиязычный мультизадачный, а там и до байтового мультизадачного мультиязычного недалеко.

Семейство T5 в целом как-то недооценено. И вообще почему-то полные encoder-decoder трансформеры недооценены, что T5, что семейство BART (https://hottg.com/gonzo_ML/153). Топ применений, кажется, собрали половинки трансформеров, или энкодеры (семейство BERT), или декодеры (семейство GPT, https://hottg.com/gonzo_ML/305). Хотя полные трансформеры в принципе более богаты, так как декодер полного трансформера имеет возможность “смотреть” на эмбеддинги энкодера через encoder-decoder self-attention (а в чистом декодере типа GPT этот блок выпилен), а это как бы увеличивает эффективный attention span и в трансформер можно загнать больше данных. И кроме того полная архитектура позволяет комбинировать разные энкодеры и декодеры, в том числе и архитектурно различные, если надо.

Мультизадачное обучение — это очень прикольная область. Из предыдущих экспериментов мы неоднократно слышали, что с одной стороны дополнительные задачи помогают улучшить качество решения имеющихся задач, причём, положительный эффект дают порой совершенно не связанные друг с другом задачи, как было, например, в любопытной работе “One Model To Learn Them All” (https://arxiv.org/abs/1706.05137, кстати, её авторами являются авторы исходной работы про трансформеры, появившейся одновременно с этой, но трансформеры эту работу затмили). В этой работе задаче парсинга, например, неожиданно помогали задача классификации картинок ImageNet, а также (более ожидаемо) задачи машинного перевода и описания картинок. С другой стороны не редкость и случай негативного трансфера, когда одни задачи мешают другим.

В текущей работе авторы заходят со стороны ещё большего мультитаскинга, чем обычно. Для этого они собрали датасет ExMix (Extreme Mixture), включающий 107 различных supervised NLP задач и 18М примеров суммарно. Это примерно в два раза больше, чем в предыдущем самом большом исследовании. Авторы считают, что несмотря на возможный негативный трансфер, большой и разнообразный датасет лучше, чем дорогой процесс курирования датасета и поиска лучшей комбинации задач.

Напомним, что для T5 все задачи (что перевод, что классификация, что регрессия) формулируются в виде seq2seq задач трансформации одной последовательности в другую с обычным кросс-энтропийным лоссом. Это позволяет избавиться от специализированных голов и лоссов под разные задачи, а также прочих ухищрений.

Задачи ExMix грубо делятся на следующие семейства: классификация одиночного сегмента, natural language inference по двум сегментам, reading comprehension, closed-book QA, commonsense reasoning, semantic parsing, dialogue, summarization, но также есть ещё по мелочи и другие типы задач, перенос стиля, например.

Собственно ExT5 предобучается на миксе из supervised задач ExMix и self-supervised задачи span denoising на датасете C4. При обучении задачи выбираются пропорционально размерам индивидуальных датасетов с отсечкой сверху, чтобы слишком тяжёлые датасеты не доминировали.

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
Статья: https://arxiv.org/abs/2111.10952
Код: https://github.com/google-research/text-to-text-transfer-transformer
Модель: вроде как нет

В семействе трансформеров T5 пополнение. Уже были базовый T5 (и улучшенный T5.1.1, https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511), мультиязычный mT5 (https://hottg.com/gonzo_ML/442), байтовый byT5 (https://arxiv.org/abs/2105.13626), а теперь вот мультизадачный ExT5. Следующим должен стать мультиязычный мультизадачный, а там и до байтового мультизадачного мультиязычного недалеко.

Семейство T5 в целом как-то недооценено. И вообще почему-то полные encoder-decoder трансформеры недооценены, что T5, что семейство BART (https://hottg.com/gonzo_ML/153). Топ применений, кажется, собрали половинки трансформеров, или энкодеры (семейство BERT), или декодеры (семейство GPT, https://hottg.com/gonzo_ML/305). Хотя полные трансформеры в принципе более богаты, так как декодер полного трансформера имеет возможность “смотреть” на эмбеддинги энкодера через encoder-decoder self-attention (а в чистом декодере типа GPT этот блок выпилен), а это как бы увеличивает эффективный attention span и в трансформер можно загнать больше данных. И кроме того полная архитектура позволяет комбинировать разные энкодеры и декодеры, в том числе и архитектурно различные, если надо.

Мультизадачное обучение — это очень прикольная область. Из предыдущих экспериментов мы неоднократно слышали, что с одной стороны дополнительные задачи помогают улучшить качество решения имеющихся задач, причём, положительный эффект дают порой совершенно не связанные друг с другом задачи, как было, например, в любопытной работе “One Model To Learn Them All” (https://arxiv.org/abs/1706.05137, кстати, её авторами являются авторы исходной работы про трансформеры, появившейся одновременно с этой, но трансформеры эту работу затмили). В этой работе задаче парсинга, например, неожиданно помогали задача классификации картинок ImageNet, а также (более ожидаемо) задачи машинного перевода и описания картинок. С другой стороны не редкость и случай негативного трансфера, когда одни задачи мешают другим.

В текущей работе авторы заходят со стороны ещё большего мультитаскинга, чем обычно. Для этого они собрали датасет ExMix (Extreme Mixture), включающий 107 различных supervised NLP задач и 18М примеров суммарно. Это примерно в два раза больше, чем в предыдущем самом большом исследовании. Авторы считают, что несмотря на возможный негативный трансфер, большой и разнообразный датасет лучше, чем дорогой процесс курирования датасета и поиска лучшей комбинации задач.

Напомним, что для T5 все задачи (что перевод, что классификация, что регрессия) формулируются в виде seq2seq задач трансформации одной последовательности в другую с обычным кросс-энтропийным лоссом. Это позволяет избавиться от специализированных голов и лоссов под разные задачи, а также прочих ухищрений.

Задачи ExMix грубо делятся на следующие семейства: классификация одиночного сегмента, natural language inference по двум сегментам, reading comprehension, closed-book QA, commonsense reasoning, semantic parsing, dialogue, summarization, но также есть ещё по мелочи и другие типы задач, перенос стиля, например.

Собственно ExT5 предобучается на миксе из supervised задач ExMix и self-supervised задачи span denoising на датасете C4. При обучении задачи выбираются пропорционально размерам индивидуальных датасетов с отсечкой сверху, чтобы слишком тяжёлые датасеты не доминировали.


>>Click here to continue<<

gonzo-обзоры ML статей






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)