Датасеты — топливо для моделей, и важно готовить их качественно.
Если хотите узнать об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео; ознакомиться с кейсами реальной жизни, понять, как спарсить что угодно и генерировать данные из необычных мест — посмотрите запись доклада Дмитрия Антипова «Разметка датасетов в эпоху мультимодальности: проблемы, вызовы, решения» с AiConf 2024.
Спикер провёл слушателей через систему подготовки размеченных мультимодальных данных. От парсинга интернета через кейсы мультимодальной разметки; через использование вспомогательных моделей, в том числе LLM; через бизнес-процессы и контроль качества разметки к финальным метрикам моделей.
#записидокладовAiConf
@UseDataConfChannel
>>Click here to continue<<
