📊img2table — Полезный инструмент, который помогает автоматизировать извлечение таблиц из сканированных документов или изображений.
📄 Основные возможности: 🟢Распознавание таблиц на изображениях и в PDF-файлах, включая поддержку сложных структур с объединёнными ячейкам. 🟢 Интеграция с различными OCR-сервисами, такими как Tesseract, PaddleOCR, EasyOCR, Google Vision, AWS Textract и Azure Cognitive Service. 🟢 Возможность экспорта извлечённых таблиц в формат Excel или Pandas DataFrame, сохраняя оригинальную структур. 🟢Поддержка различных форматов изображений: JPEG, PNG, TIFF и други.
⚙️ Установка:
pip install img2table
Для использования с определённым OCR-сервисом:
pip install img2table[tesseract] # или [paddle], [easyocr], [gcp], [aws], [azure]
Пример использования:
from img2table.document import Image from img2table.ocr import TesseractOCR
# Инициализация OCR ocr = TesseractOCR()
# Загрузка изображения img = Image("путь_к_изображению.jpg")
📊img2table — Полезный инструмент, который помогает автоматизировать извлечение таблиц из сканированных документов или изображений.
📄 Основные возможности: 🟢Распознавание таблиц на изображениях и в PDF-файлах, включая поддержку сложных структур с объединёнными ячейкам. 🟢 Интеграция с различными OCR-сервисами, такими как Tesseract, PaddleOCR, EasyOCR, Google Vision, AWS Textract и Azure Cognitive Service. 🟢 Возможность экспорта извлечённых таблиц в формат Excel или Pandas DataFrame, сохраняя оригинальную структур. 🟢Поддержка различных форматов изображений: JPEG, PNG, TIFF и други.
⚙️ Установка:
pip install img2table
Для использования с определённым OCR-сервисом:
pip install img2table[tesseract] # или [paddle], [easyocr], [gcp], [aws], [azure]
Пример использования:
from img2table.document import Image from img2table.ocr import TesseractOCR
# Инициализация OCR ocr = TesseractOCR()
# Загрузка изображения img = Image("путь_к_изображению.jpg")