TG Telegram Group & Channel
Пресидский залив (ex Надя пробует) | United States America (US)
Create: Update:

😧 Virtual Try-Off: как нейросети научились не только «одевать», но и «раздевать»? 😧
Как человек, увлечённый развитием Fashion Tech и применением компьютерного зрения в индустрии моды, я внимательно слежу за новыми направлениями и подходами. Всем уже привычна задача Virtual Try-On (VTON), когда нейросети (диффузионные модели в данный момент) виртуально примеряют одежду на изображениях людей. Однако сейчас набирает популярность противоположное направление — Virtual Try-Off (VTOFF), задача извлечения одежды с моделей и получения её канонического изображения. Это не просто новая фишка, а перспективная задача с серьёзными техническими вызовами: в отличие от традиционного VTON, где модель цифровым образом «одевается», VTOFF стремится выделить и «снять» одежду, сохранив при этом её точную форму, текстуру и даже сложные паттерны ткани.

Кстати, на идущей прямо сейчас конференции CVPR-2025 были приняты пейперы, посвящённые именно Virtual Try-Off.

Зачем индустрии моды такой подход?
1. Создание идеального каталога — возможность быстро получить идеализированное изображение одежды, свободное от складок, позы и особенностей модели.
2. Точная визуализация и кастомизация — одежда, полученная через VTOFF, может быть легко переиспользована и виртуально адаптирована к новым условиям (поза, модель, фон).
3. Повышение эффективности производства контента — сокращение затрат на новые фотосессии и обработку изображений.

Вот пара интересных подхода к задаче Virtual Try-Off, которые стоит изучить уже сейчас:

TryOffDiff: Virtual Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
Основная цель: получить оригинальное изображение одежды (без тела, позы и искажений) из одной фотографии одетого человека.
Ключевые идеи:
Визуальные признаки вместо текста: вместо текстовых промтов, как в классическом Stable Diffusion, TryOffDiff использует визуальные эмбеддинги, извлечённые с помощью SigLIP image encoder.
Адаптер: обучаемый модуль (Transformer + Linear + LayerNorm), который преобразует SigLIP-эмбеддинги в формат, совместимый с cross-attention слоями U-Net (77×768, как текст в SD).
Минимум обучения: обучаются только адаптер и attention-слои. Все остальные компоненты заморожены: VAE, U-Net, SigLIP.

TryOffAnyone: Tiled Cloth Generation from a Dressed Person
Основная цель: восстановить канонический вид одежды с фото одетого человека, представив её в виде тайлов (фрагментов), пригодных для переиспользования и редактирования.
Ключевые идеи:
Latent diffusion: архитектура построена вокруг латентной диффузионной модели с VAE-энкодером/декодером и денойзингом в латентном пространстве (по базе).
Множественные входы: модель получает изображение одетого человека, маску одежды и опционально изображение референса в той же одежде, но другой позе. Это помогает точнее реконструировать форму и текстуру.
Transformer-блок в U-Net: в середине диффузионной модели встроен обучаемый Transformer, содержащий self-attention и cross-attention для захвата контекста из разных источников (ну тут тоже весьма обычно).
Tile-based генерация: одежда восстанавливается в виде набора независимых латентных тайлов, что позволяет локально контролировать генерацию и уменьшить зависимость от глобальной позы. Такая декомпозиция упрощает переиспользование и адаптацию одежды к новым условиям (другая поза, фон, модель) и хорошо масштабируется в пайплайнах, ориентированных на кастомизацию и цифровой гардероб.
Frozen backbone: как и в TryOffDiff, VAE и часть U-Net заморожены, обучение фокусируется на attention и Transformer-блоках.

Оба подхода — TryOffDiff и TryOffAnyone — подчёркивают, что Virtual Try-Off нельзя рассматривать как простое дополнение к VTON. Это отдельный класс задач, требующий других архитектурных решений, способных восстанавливать геометрию, структуру и текстильные особенности одежды в отрыве от тела, позы и сцены.

@sonya_aesthetics

😧 Virtual Try-Off: как нейросети научились не только «одевать», но и «раздевать»? 😧
Как человек, увлечённый развитием Fashion Tech и применением компьютерного зрения в индустрии моды, я внимательно слежу за новыми направлениями и подходами. Всем уже привычна задача Virtual Try-On (VTON), когда нейросети (диффузионные модели в данный момент) виртуально примеряют одежду на изображениях людей. Однако сейчас набирает популярность противоположное направление — Virtual Try-Off (VTOFF), задача извлечения одежды с моделей и получения её канонического изображения. Это не просто новая фишка, а перспективная задача с серьёзными техническими вызовами: в отличие от традиционного VTON, где модель цифровым образом «одевается», VTOFF стремится выделить и «снять» одежду, сохранив при этом её точную форму, текстуру и даже сложные паттерны ткани.

Кстати, на идущей прямо сейчас конференции CVPR-2025 были приняты пейперы, посвящённые именно Virtual Try-Off.

Зачем индустрии моды такой подход?
1. Создание идеального каталога — возможность быстро получить идеализированное изображение одежды, свободное от складок, позы и особенностей модели.
2. Точная визуализация и кастомизация — одежда, полученная через VTOFF, может быть легко переиспользована и виртуально адаптирована к новым условиям (поза, модель, фон).
3. Повышение эффективности производства контента — сокращение затрат на новые фотосессии и обработку изображений.

Вот пара интересных подхода к задаче Virtual Try-Off, которые стоит изучить уже сейчас:

TryOffDiff: Virtual Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
Основная цель: получить оригинальное изображение одежды (без тела, позы и искажений) из одной фотографии одетого человека.
Ключевые идеи:
Визуальные признаки вместо текста: вместо текстовых промтов, как в классическом Stable Diffusion, TryOffDiff использует визуальные эмбеддинги, извлечённые с помощью SigLIP image encoder.
Адаптер: обучаемый модуль (Transformer + Linear + LayerNorm), который преобразует SigLIP-эмбеддинги в формат, совместимый с cross-attention слоями U-Net (77×768, как текст в SD).
Минимум обучения: обучаются только адаптер и attention-слои. Все остальные компоненты заморожены: VAE, U-Net, SigLIP.

TryOffAnyone: Tiled Cloth Generation from a Dressed Person
Основная цель: восстановить канонический вид одежды с фото одетого человека, представив её в виде тайлов (фрагментов), пригодных для переиспользования и редактирования.
Ключевые идеи:
Latent diffusion: архитектура построена вокруг латентной диффузионной модели с VAE-энкодером/декодером и денойзингом в латентном пространстве (по базе).
Множественные входы: модель получает изображение одетого человека, маску одежды и опционально изображение референса в той же одежде, но другой позе. Это помогает точнее реконструировать форму и текстуру.
Transformer-блок в U-Net: в середине диффузионной модели встроен обучаемый Transformer, содержащий self-attention и cross-attention для захвата контекста из разных источников (ну тут тоже весьма обычно).
Tile-based генерация: одежда восстанавливается в виде набора независимых латентных тайлов, что позволяет локально контролировать генерацию и уменьшить зависимость от глобальной позы. Такая декомпозиция упрощает переиспользование и адаптацию одежды к новым условиям (другая поза, фон, модель) и хорошо масштабируется в пайплайнах, ориентированных на кастомизацию и цифровой гардероб.
Frozen backbone: как и в TryOffDiff, VAE и часть U-Net заморожены, обучение фокусируется на attention и Transformer-блоках.

Оба подхода — TryOffDiff и TryOffAnyone — подчёркивают, что Virtual Try-Off нельзя рассматривать как простое дополнение к VTON. Это отдельный класс задач, требующий других архитектурных решений, способных восстанавливать геометрию, структуру и текстильные особенности одежды в отрыве от тела, позы и сцены.

@sonya_aesthetics
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Пресидский залив (ex Надя пробует)






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)