TG Telegram Group & Channel
Математика Дата саентиста | United States America (US)
Create: Update:

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
...


📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.


🟡Страница проекта
🟡Коллекция на HF
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell

Forwarded from Machinelearning
🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
...


📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.


🟡Страница проекта
🟡Коллекция на HF
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Математика Дата саентиста









Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)