TG Telegram Group & Channel
Ivan Begtin | United States America (US)
Create: Update:

Регулярная подборка ссылок про данные, технологи и не только:
- Desbordante [1] инструмент идентификации паттернов в данных. Обещают что может находить хависимости между колонками таблиц, на входе получает csv, на выходе список зависимостей. Команда разработчиков из СПбГУ, на английском и на русском языках есть пояснения как инструмент работает [2]. Лицензия AGPL, что слегка ограничивает использование, но сам продукт выглядит интересно для тех кто занимается exploratory analysis, data discovery и иными дисциплинами о том какие данные бывают и как они устроены. Я так понимаю что команда разработки имела/имеет какое-то отношение к компании Unidata, судя по тому что от неё был текст на русском на хабр
- Cloudzip [4] утилита на языке Go по дистанционному листанию и выгрузке отдельных файлов из больших ZIP архивов без скачивания ZIP архива целиком. Не первый вижу инструмент в этой области и но он безусловно выглядит практично, когда тебе надо скачать индивидуальный файл из многодесяткогигабайтного архива. Практического применения у такого инструмента много, а автор его Oz Katz, один из создателей lakeFS. Написано на языке Go. Лицензия Apache 2.0
- remotezip [5] в продолжение к предыдущему инструменту, то же самое но в виде библиотеки для Python. Да, идея давняя давно витающая и реализуемая.
- klib [6] набор функций в виде библиотеки для Python по очистке данных внутри датафреймов Pandas. Выполняет набор простых операций, в каком-то смысле заменяет OpenRefine. Для тех кто чистит данные в Jupyter Notebook'ах будет полезно.
- ydata-profiling [7] ещё один инструмент из области Exploratory Data Analysis, тоже интегрированный с датафреймами. У этой же команды есть коммерческий продукт каталога данных (только облачный увы) в котором явно profiling применяется.

Ссылки:
[1] https://github.com/Desbordante/desbordante-core
[2] https://medium.com/@chernishev/desbordante-2-0-0-released-8c174aa04e87
[3] https://habr.com/ru/companies/unidata/articles/667636/
[4] https://github.com/ozkatz/cloudzip
[5] https://github.com/gtsystem/python-remotezip
[6] https://github.com/akanz1/klib
[7] https://github.com/ydataai/ydata-profiling

#opensource #data #datatools

Регулярная подборка ссылок про данные, технологи и не только:
- Desbordante [1] инструмент идентификации паттернов в данных. Обещают что может находить хависимости между колонками таблиц, на входе получает csv, на выходе список зависимостей. Команда разработчиков из СПбГУ, на английском и на русском языках есть пояснения как инструмент работает [2]. Лицензия AGPL, что слегка ограничивает использование, но сам продукт выглядит интересно для тех кто занимается exploratory analysis, data discovery и иными дисциплинами о том какие данные бывают и как они устроены. Я так понимаю что команда разработки имела/имеет какое-то отношение к компании Unidata, судя по тому что от неё был текст на русском на хабр
- Cloudzip [4] утилита на языке Go по дистанционному листанию и выгрузке отдельных файлов из больших ZIP архивов без скачивания ZIP архива целиком. Не первый вижу инструмент в этой области и но он безусловно выглядит практично, когда тебе надо скачать индивидуальный файл из многодесяткогигабайтного архива. Практического применения у такого инструмента много, а автор его Oz Katz, один из создателей lakeFS. Написано на языке Go. Лицензия Apache 2.0
- remotezip [5] в продолжение к предыдущему инструменту, то же самое но в виде библиотеки для Python. Да, идея давняя давно витающая и реализуемая.
- klib [6] набор функций в виде библиотеки для Python по очистке данных внутри датафреймов Pandas. Выполняет набор простых операций, в каком-то смысле заменяет OpenRefine. Для тех кто чистит данные в Jupyter Notebook'ах будет полезно.
- ydata-profiling [7] ещё один инструмент из области Exploratory Data Analysis, тоже интегрированный с датафреймами. У этой же команды есть коммерческий продукт каталога данных (только облачный увы) в котором явно profiling применяется.

Ссылки:
[1] https://github.com/Desbordante/desbordante-core
[2] https://medium.com/@chernishev/desbordante-2-0-0-released-8c174aa04e87
[3] https://habr.com/ru/companies/unidata/articles/667636/
[4] https://github.com/ozkatz/cloudzip
[5] https://github.com/gtsystem/python-remotezip
[6] https://github.com/akanz1/klib
[7] https://github.com/ydataai/ydata-profiling

#opensource #data #datatools


>>Click here to continue<<

Ivan Begtin






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)