❤️🔥Выступление Ивана Бондаренко на DataFusion 2025:
https://broadcast.comdi.com/watch/rc34lydi
Приятного просмотра ❤️
Основные темы доклада:
1. Прогресс и проблемы больших языковых моделей:
- Потрясающий прогресс в развитии больших языковых моделей.
- Высокая стоимость обучения и инференса больших моделей.
- Проблемы задержек и комплайенса при использовании ведущих поставщиков языковых моделей.
- Ограничения пропускной способности больших языковых моделей.
2. Развитие малых языковых моделей:
- Малые языковые модели (менее 7 миллиардов параметров) становятся все более популярными.
- Преимущества малых моделей: дешевизна инференса, высокая пропускная способность, меньшее количество галлюцинаций.
- Возможность обучения и инференса малых моделей на собственном оборудовании.
3. История нейросетей и их развитие:
- Краткая история развития нейросетей с середины XX века.
- Эволюция нейросетевых систем и их сравнение с нервными системами животных.
- Переход от классического машинного обучения к глубоким нейросетевым системам.
4. Архитектура генеративных языковых моделей:
- Описание архитектуры генеративных языковых моделей, таких как GPT.
- Сравнение различных архитектур: Sequence-to-Sequence, BERT, T5, GPT.
- Особенности авторегрессивной генерации текста.
5. Знания и понимание текста в языковых моделях:
- Различие между знанием о мире и пониманием текста.
- Зависимость качества знаний о мире от размера модели.
- Независимость способности понимать текст от размера модели.
6. Экономическая эффективность малых моделей:
- Экономическая эффективность малых моделей для решения бизнес-задач.
- Примеры использования малых моделей: исправление ошибок распознавания речи, разрешение местоименной анафры.
- Пайплайн Retrieval-Augmented Generation (RAG) для улучшения экономики эксплуатации.
7. Обучение и дообучение малых моделей:
- Методы обучения малых моделей, такие как Curriculum Learning.
- Примеры успешного обучения малых моделей, таких как семейство Fi от Microsoft.
8. Потенциальные применения малых моделей:
- Фильтрация и подготовка запросов для больших моделей.
- Внедрение малых моделей в отраслях, где требуется управление базами знаний и ответы на вопросы.
- Специализированные задачи, где малые модели могут быть более эффективны, такие как распознавание именованных сущностей и антитилинкинг.
9. Заключение:
- Малые языковые модели могут быть эффективны для решения бизнес-задач.
- Важность экономической эффективности при выборе модели.
- Возможности использования малых моделей в сочетании с большими моделями для улучшения производительности и снижения затрат.
Этот отчет охватывает основные темы и идеи, представленные в докладе, и может служить руководством для дальнейшего изучения и внедрения малых языковых моделей в различных отраслях.
>>Click here to continue<<
