Diffusion model, whose text-conditional component works in a highly compressed latent space of images
Würstchen - это диффузионная модель, которой работает в сильно сжатом латентном пространстве изображений.
Почему это важно? Сжатие данных позволяет на порядки снизить вычислительные затраты как на обучение, так и на вывод модели.
Обучение на 1024×1024 изображениях гораздо затратное, чем на 32×32. Обычно в других моделях используется сравнительно небольшое сжатие, в пределах 4x - 8x пространственного сжатия.
Благодаря новой архитектуре достигается 42-кратное пространственное сжатие!
🤗 HF: https://huggingface.co/blog/wuertschen
📝 Paper: https://arxiv.org/abs/2306.00637
🚀 Demo: https://huggingface.co/spaces/warp-ai/Wuerstchen
ai_machinelearning_big_data
>>Click here to continue<<