FlexTok — это токенизатор, который представляет изображение как последовательность токенов переменной длины, от самых грубых до самых детализированных.
В отличие от большинства image tokenizer'ов (где всегда фиксированное число токенов и они жёстко локализованы по патчам), здесь подход коarse-to-fine — как в PCA:
- первый токен даёт максимально сжатое представление,
- второй — добавляет детали,
- третий — ещё больше и т.д.
Такой порядок оказывается семантически разумным, хотя обучение шло без языевой подсказки. Получается структура, которую удобно использовать в генерации и понимании изображений.
Всё сделано без магии:
- используется nested dropout на токенах во время обучения,
- архитектура простая, основана на известных компонентах,
- токены можно интерпретировать по уровню детализации.
📎 Исходники: https://github.com/apple/ml-flextok
🖼️ Демка: https://huggingface.co/spaces/EPFL-VILAB/FlexTok
📊 Визуализации: https://flextok.epfl.ch
>>Click here to continue<<
