TG Telegram Group Link
Channel: Neural Networks | Нейронные сети
Back to Bottom
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.

Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.

Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.

Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.

Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?

Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).

🚀 Преимущества перед аналогами
Скорость и эффективность:

Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.

Поддержка квантования и динамического батчинга для снижения затрат на инференс.

Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).

Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.

Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.

https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
📡 Запущен первый спутник FireSat, который поможет раньше обнаруживать небольшие лесные пожары.

FireSat, новый прототип спутника обнаружения лесных пожаров, запущен на Falcon 9 компании SpaceX! Высококачественные изображения, обновляемые каждые 20 минут, скоро помогут обнаруживать лесные пожары размером 5x5 м по всему миру.

📌 Читать

#news #ai #ml
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Neuralink с открытым исходным кодом с использованием активности мозга обезьяны для управления роботизированными руками 🙉

Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.

Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.

В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.

Исследование открывает путь к созданию адаптивных интерфейсов «мозг-компьютер» за счет гибкого моделирования активности мозга.

Github

@neural
😶 Grok доступен в Телеграме — Илон Маск только что подтвердил запуск.

Бот уже ДОСТУПЕН премиум-юзерам бесплатно.

Бесплатно используем — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Нереально, DeepSeek V3 0324 на 685B парамтеров работает локально на M3 Ultra и полностью приватно 🔥

Работает на llama.cpp и UnslothAI

Шаг 1: brew install llama.cpp

Шаг 2: llama-cli -hf unsloth/DeepSeek-V3-0324-GGUF:Q2_K_XL

Вот и всё! 🤗

Честно говоря, выглядит сюрреалистично!
🎁 Дарим 10 подписок на самые лучшие LLM: СHATGPT Plus, Claude Pro, Gemini Advanced.

Победитель сам выбирает модель!

Условия очень просты:
– Подписка на hottg.com/Neural
– Подписка на hottg.com/data_analysis_ml
– Подписка на hottg.com/mmmorozov
– Нажать "Участвовать"

Все! Теперь вы участник! Итоги подведём в канале 15 апреля в 18:00 случайным образом при помощи бота. Удачи!

⚠️ Если бот подвисает — не волнуйтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать» еще раз чуть позже.
Forwarded from Machinelearning
🔥 Awesome MCP Servers

Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).

✔️ Что такое MCP серверы?
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.

Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!

Здесь можно найти платины на все случаи жизни:

Автоматизация Браузера
Облачные Платформы
Командная Строка
Коммуникации
Базы данных
Инструменты Разработчика
Файловые Системы
Финансы
Игры
Службы определения местоположения
Маркетинг
Мониторинг
Поиск
Спорт
Путешествия И Транспорт
Другие инструменты и интеграций

🟡Github

@ai_machinelearning_big_data


#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨Data Fusion 2025 совсем скоро. Вы успели зарегистрироваться?

О LLM сейчас рассказывают везде. ChatGPT, Midjourney, DeepSeek уже стали must-have любого современного специалиста. Но в новостях много маркетинга, платных курсов и мало реальной пользы. А ведь всех реально интересует всего 1 вопрос — как применять искусственный интеллект на практике, чтобы это конвертировалось в репутацию, деньги и развитие бизнеса?

Добро пожаловать на Data Fusion 2025 — здесь эксперты индустрии по фактам обсудят связь ИИ и больших данных и как ее направить в получение прикладного результата.

📌 Что будет на сессиях:
— Инновационные практики AI: от разработки автономных систем до создания этических стандартов для AI.
— Будущее AI в промышленности и медицине: как AI уже помогает решать проблемы здравоохранения, строить умные города и прогнозировать риски в бизнесе.
— Этика ИИ и ответственность: какие проблемы стоят перед разработчиками и как избежать предвзятости в алгоритмах.
— Искусственный интеллект в борьбе с глобальными вызовами: как AI помогает в решении экосистемных проблем, таких как изменение климата и управление ресурсами.

📌Москва, технологический кластер «Ломоносов», 16-17 апреля.

Не упустите шанс быть в центре технологической революции — регистрируйтесь прямо сейчас — https://data-fusion.ru/. Участие бесплатно!

И пока вы ждете начало конференции — загляните в чат-бот Telegram Data Quest! Там вас ждут интересные задания с призами, программа, прямые трансляции и бизнес-тиндер. ➡️ hottg.com/DFStage_bot


*LLM — нейронные сети
*ChatGPT, Midjourney, DeepSeek — сервисы генеративного искусственного интеллекта
*AI — искусственный интеллект
Forwarded from Machinelearning
✔️ "Speech and Language Processing": 3-е издания книги

Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.

🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.

Книга разделена на три части, включающие 24 основные главы и 8 приложений.

Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.

Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.

Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.

🟡Книга в PDF
🟡Все Главы
🟡Еще книги по NLP

@ai_machinelearning_big_data


#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Gemma 3 QAT

Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.

Ключевая технология: QAT (Quantization-Aware Training)

Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).

Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.

Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов​. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».

Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти​.

Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате​ – это экономия памяти примерно в ~3–4 раза.

ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf

✔️HF


@ai_machinelearning_big_data


#google #gemma #AI #ML #LLM #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Grok Илона Маске в идеале освоила русский.
Forwarded from Machinelearning
🌟 MegaScale-Infer: как разделение модулей внимания и FFN ускоряет работу больших языковых моделей.

Обслуживание LLMс архитектурой MoE всегда было сложной задачей: несмотря на снижение вычислительной нагрузки за счёт «разреженной» активации экспертов, GPU часто простаивают из-за неэффективного распределения ресурсов.

Новая методика MegaScale-Infer от ByteDance|Seed предлагает разделение модулей внимания и feed-forward networks (FFN) на независимые узлы с индивидуальной оптимизацией. Это не только делает загрузку GPU эффективной, но и сокращает стоимость обслуживания моделей в 1,9 раза по сравнению с аналогами.

Суть MegaScale-Infer — в «дизагрегации»: модули внимания, отвечающие за работу с ключевыми значениями (KV-кэш), и FFN-эксперты распределяются по разным GPU. Например, узлы внимания можно развернуть на GPU с высокой пропускной способностью памяти, а эксперты — на устройствах с мощными вычислительными ядрами. Такой подход позволяет масштабировать каждый компонент отдельно и избежать дисбаланса, когда один модуль ждет завершения работы другого.

Чтобы скрыть задержки связи между узлами, система использует конвейерный параллелизм. Запросы разбиваются на микропакеты, которые перекидываются между модулями внимания и FFN, как мячик в пинг-понге. Это минимизирует простои: пока один микропакет обрабатывается экспертами, механизмы внимания на GPU уже начинают работать со следующим.

Для стабильной коммуникации между сотнями устройств разработана библиотека M2N — она ускоряет передачу данных в 4,2 раза по сравнению с NCCL, устраняя лишние копии данных и синхронизацию.

Эксперименты на моделях Mixtral 8x22B (141 млрд. параметров) и DBRX (132 млрд.) показали, что MegaScale-Infer обрабатывает до 2,56Х больше токенов в секунду на один GPU, чем vLLM и TensorRT-LLM.

На гетерогенных кластерах с GPU H20 (для внимания) и L40S (для экспертов) система демонстрирует еще больший эффект: стоимость генерации токена снижается в 1,86 раза за счет оптимального распределения ресурсов: H20, обладая огромной памятью, идеально подходят для работы с KV-кэшем, а L40S эффективно считают матричные операции в FFN.

Для разработчиков, которые работают с LLM, MegaScale-Infer — не просто еще один фреймворк. Это инструмент, который превращает MoE-модели из ресурсоемких «монстров» в управляемые системы, где каждый GPU работает на пределе возможностей.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
HTML Embed Code:
2025/04/06 14:09:08
Back to Top