#unrealneural
Выравнивание изображения и текста — сложная задача, особенно по мере того, как мультимодальные данные становятся более подробными. Большинство методов полагаются на человеческие метки или обратную связь.
CycleReward: новая метрика выравнивания, ориентированная на подробные подписи, обучаемая без человеческого контроля.
CyclePrefDB: 866 тыс. пар предпочтений из согласованности цикла.
https://arxiv.org/abs/2506.02095
>>Click here to continue<<
