Trafilatura
Это бибилиотека Python и инструмент командной строки для сбора веб-текста с сайтов. Способен к сбору основного текста, метаданных и комментариев.
Экстрактор пытается найти баланс между точностью и включением всех допустимых частей сайта.
https://github.com/adbar/trafilatura
Docs: https://trafilatura.readthedocs.io/en/latest/
>>Click here to continue<<