Ооо, ByteDance выпустили мощный OCR-инструмент, который превращает ваши PDF в редактируемые word-документы, при этом не ломая форматирование.
Моделька называется Dolphin и там целый комплекс инструментов, чтобы разобрать ваш PDF на составные части (картинки, текст, таблицы), а потом пересобрать обратно.
Есть бесплатная онлайн-демка, а сам репо — на GitHub. Прикрутить сверху переводчик и SaaS сервис готов
>>Click here to continue<<