Что под капотом у ИИ-сервиса «Цифровой нормоконтроль» от Департамента градостроительной политики Москвы
На «Цифровом Нормоконтроле» можно сверить проектную и рабочую документацию с требованиями нормативки (в том числе с ГОСТом 21.101-2020). Нашла презентацию сервиса, где коллеги из ДИТ расписали стек решения.
Язык программирования и архитектура — Python для бэкенда, JavaScript для фронтенда. Для распознавания содержимого документов, получения координат и классификации объектов используют
⚫️YOLOv8 — модельдля детекции и классификации объектов в режиме реального времени — например основных надписей в проектной и рабочей документации ПД/РД.
⚫️PyMuPDF — библиотеку Python с открытым исходным кодом, которая предоставляет набор инструментов для работы с PDF. Она позволяет извлекать текст, изображения и таблицы, управлять страницами (поворот/обрезка/создание), рендерить в растровые/векторные форматы, работать с метаданными, а также объединять и разделять PDF-документы.
⚫️Tesseract OCR — движок для оптического распознавания символов, используемый для извлечения текста из растровых изображений и проблемных областей документов.
⚫️Для обучения используются датасеты с проектной и рабочей документацией.
Подробнее — про сервис и стек — в прикрепленной презентации.
Что под капотом у ИИ-сервиса «Цифровой нормоконтроль» от Департамента градостроительной политики Москвы
На «Цифровом Нормоконтроле» можно сверить проектную и рабочую документацию с требованиями нормативки (в том числе с ГОСТом 21.101-2020). Нашла презентацию сервиса, где коллеги из ДИТ расписали стек решения.
Язык программирования и архитектура — Python для бэкенда, JavaScript для фронтенда. Для распознавания содержимого документов, получения координат и классификации объектов используют
⚫️YOLOv8 — модельдля детекции и классификации объектов в режиме реального времени — например основных надписей в проектной и рабочей документации ПД/РД.
⚫️PyMuPDF — библиотеку Python с открытым исходным кодом, которая предоставляет набор инструментов для работы с PDF. Она позволяет извлекать текст, изображения и таблицы, управлять страницами (поворот/обрезка/создание), рендерить в растровые/векторные форматы, работать с метаданными, а также объединять и разделять PDF-документы.
⚫️Tesseract OCR — движок для оптического распознавания символов, используемый для извлечения текста из растровых изображений и проблемных областей документов.
⚫️Для обучения используются датасеты с проектной и рабочей документацией.
Подробнее — про сервис и стек — в прикрепленной презентации.