🚀 Docling 2.0: Новый cтандарт предобработки документов для RAG
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG #IBM
———
@tsingular
>>Click here to continue<<
