TG Telegram Group & Channel
Анализ данных (Data analysis) | United States America (US)
Create: Update:

🧠 DataTune — простой способ оптимизировать датасеты для ИИ

Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.

Что делает DataTune:
Автоматически находит и удаляет дубликаты
Фильтрует нерелевантные, шумные и некачественные примеры
Сортирует данные по «ценности» — оставляя то, что реально важно
Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)

🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для:
• Fine-tuning LLM
• Подготовки eval-наборов
• Фильтрации перед RAG

📦 Установка:


pip install datatune


https://github.com/vitalops/datatune

@data_analysis_ml

🧠 DataTune — простой способ оптимизировать датасеты для ИИ

Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.

Что делает DataTune:
Автоматически находит и удаляет дубликаты
Фильтрует нерелевантные, шумные и некачественные примеры
Сортирует данные по «ценности» — оставляя то, что реально важно
Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)

🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для:
• Fine-tuning LLM
• Подготовки eval-наборов
• Фильтрации перед RAG

📦 Установка:

pip install datatune


https://github.com/vitalops/datatune

@data_analysis_ml


>>Click here to continue<<

Анализ данных (Data analysis)






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)