Итак, настал финальный день DataFest 2025.
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:
1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.
2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source
Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.
3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.
4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.
Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.
——
Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:
Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код
Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).
Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
>>Click here to continue<<