TG Telegram Group & Channel
Ivan Begtin | United States America (US)
Create: Update:

К вопросу о том что порталы открытых данных довольно далеки от data инженерии. Есть и исключения, например, практически неизвестный широкой публике продукт Opendatasoft на котором работает, например, портал открытых данных Катара [1] и ещё чуть менее 400 порталов открытых данных в мире. И вот они добавили поддержку экспорта данных в формате Parquet к другим способам экспорта: CSV, Excel, JSON и REST API. Со многими датасетами которые приходится скачивать с порталов на их технологии стало проще работать.

Важная оговорка только в том что хотя инсталляций в Opendatasoft немало , но данных не так много. Реально их в районе 33-35 тысяч датасетов поскольку их софт требует только структурированных данных и превратить его в помойку из Excel файлов не получится. Что делает данные оттуда качеством повыше чем в среднем на порталах открытых данных, но значительно меньшими по числу записей.

Кстати по этой причине этот продукт хорошо годится для публикации официальной статистики и его в этой цели часто используют. Но для реализации принципа open by default он годится плохо потому что не все данные структурированы хорошо и ещё есть много legacy.

Пока же скажу что все каталоги Opendatasoft индексируются в Dateno и похоже что скоро надо будет обновлять индекс для возможности скачивать Parquet файлы.

Ссылки:
[1] https://www.data.gov.qa

#opendata #datacatalogs #datasets #qatar #dateno

К вопросу о том что порталы открытых данных довольно далеки от data инженерии. Есть и исключения, например, практически неизвестный широкой публике продукт Opendatasoft на котором работает, например, портал открытых данных Катара [1] и ещё чуть менее 400 порталов открытых данных в мире. И вот они добавили поддержку экспорта данных в формате Parquet к другим способам экспорта: CSV, Excel, JSON и REST API. Со многими датасетами которые приходится скачивать с порталов на их технологии стало проще работать.

Важная оговорка только в том что хотя инсталляций в Opendatasoft немало , но данных не так много. Реально их в районе 33-35 тысяч датасетов поскольку их софт требует только структурированных данных и превратить его в помойку из Excel файлов не получится. Что делает данные оттуда качеством повыше чем в среднем на порталах открытых данных, но значительно меньшими по числу записей.

Кстати по этой причине этот продукт хорошо годится для публикации официальной статистики и его в этой цели часто используют. Но для реализации принципа open by default он годится плохо потому что не все данные структурированы хорошо и ещё есть много legacy.

Пока же скажу что все каталоги Opendatasoft индексируются в Dateno и похоже что скоро надо будет обновлять индекс для возможности скачивать Parquet файлы.

Ссылки:
[1] https://www.data.gov.qa

#opendata #datacatalogs #datasets #qatar #dateno


>>Click here to continue<<

Ivan Begtin






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)