Channel: Neural Networks | Нейронные сети
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
📡 Запущен первый спутник FireSat, который поможет раньше обнаруживать небольшие лесные пожары.
FireSat, новый прототип спутника обнаружения лесных пожаров, запущен на Falcon 9 компании SpaceX! Высококачественные изображения, обновляемые каждые 20 минут, скоро помогут обнаруживать лесные пожары размером 5x5 м по всему миру.
📌 Читать
#news #ai #ml
FireSat, новый прототип спутника обнаружения лесных пожаров, запущен на Falcon 9 компании SpaceX! Высококачественные изображения, обновляемые каждые 20 минут, скоро помогут обнаруживать лесные пожары размером 5x5 м по всему миру.
📌 Читать
#news #ai #ml
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Neuralink с открытым исходным кодом с использованием активности мозга обезьяны для управления роботизированными руками 🙉
Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.
Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.
В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.
Исследование открывает путь к созданию адаптивных интерфейсов «мозг-компьютер» за счет гибкого моделирования активности мозга.
▪ Github
@neural
Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.
Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.
В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.
Исследование открывает путь к созданию адаптивных интерфейсов «мозг-компьютер» за счет гибкого моделирования активности мозга.
▪ Github
@neural
Бот уже ДОСТУПЕН премиум-юзерам бесплатно.
Бесплатно используем — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Нереально, DeepSeek V3 0324 на 685B парамтеров работает локально на M3 Ultra и полностью приватно 🔥
Работает на llama.cpp и UnslothAI
Шаг 1: brew install llama.cpp
Шаг 2: llama-cli -hf unsloth/DeepSeek-V3-0324-GGUF:Q2_K_XL
Вот и всё! 🤗
Честно говоря, выглядит сюрреалистично!
Работает на llama.cpp и UnslothAI
Шаг 1: brew install llama.cpp
Шаг 2: llama-cli -hf unsloth/DeepSeek-V3-0324-GGUF:Q2_K_XL
Вот и всё! 🤗
Честно говоря, выглядит сюрреалистично!
🎁 Дарим 10 подписок на самые лучшие LLM: СHATGPT Plus, Claude Pro, Gemini Advanced.
Победитель сам выбирает модель!
Условия очень просты:
– Подписка на hottg.com/Neural
– Подписка на hottg.com/data_analysis_ml
– Подписка на hottg.com/mmmorozov
– Нажать "Участвовать"
Все! Теперь вы участник! Итоги подведём в канале 15 апреля в 18:00 случайным образом при помощи бота. Удачи!
⚠️ Если бот подвисает — не волнуйтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать» еще раз чуть позже.
Победитель сам выбирает модель!
Условия очень просты:
– Подписка на hottg.com/Neural
– Подписка на hottg.com/data_analysis_ml
– Подписка на hottg.com/mmmorozov
– Нажать "Участвовать"
Все! Теперь вы участник! Итоги подведём в канале 15 апреля в 18:00 случайным образом при помощи бота. Удачи!
⚠️ Если бот подвисает — не волнуйтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать» еще раз чуть позже.
Forwarded from Machinelearning
Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.
Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!
Здесь можно найти платины на все случаи жизни:
•Автоматизация Браузера
• Облачные Платформы
• Командная Строка
• Коммуникации
• Базы данных
• Инструменты Разработчика
• Файловые Системы
• Финансы
• Игры
• Службы определения местоположения
• Маркетинг
• Мониторинг
• Поиск
• Спорт
• Путешествия И Транспорт
• Другие инструменты и интеграций
@ai_machinelearning_big_data
#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨Data Fusion 2025 совсем скоро. Вы успели зарегистрироваться?
О LLM сейчас рассказывают везде. ChatGPT, Midjourney, DeepSeek уже стали must-have любого современного специалиста. Но в новостях много маркетинга, платных курсов и мало реальной пользы. А ведь всех реально интересует всего 1 вопрос — как применять искусственный интеллект на практике, чтобы это конвертировалось в репутацию, деньги и развитие бизнеса?
Добро пожаловать на Data Fusion 2025 — здесь эксперты индустрии по фактам обсудят связь ИИ и больших данных и как ее направить в получение прикладного результата.
📌 Что будет на сессиях:
— Инновационные практики AI: от разработки автономных систем до создания этических стандартов для AI.
— Будущее AI в промышленности и медицине: как AI уже помогает решать проблемы здравоохранения, строить умные города и прогнозировать риски в бизнесе.
— Этика ИИ и ответственность: какие проблемы стоят перед разработчиками и как избежать предвзятости в алгоритмах.
— Искусственный интеллект в борьбе с глобальными вызовами: как AI помогает в решении экосистемных проблем, таких как изменение климата и управление ресурсами.
📌Москва, технологический кластер «Ломоносов», 16-17 апреля.
Не упустите шанс быть в центре технологической революции — регистрируйтесь прямо сейчас — https://data-fusion.ru/. Участие бесплатно!
И пока вы ждете начало конференции — загляните в чат-бот Telegram Data Quest! Там вас ждут интересные задания с призами, программа, прямые трансляции и бизнес-тиндер. ➡️ hottg.com/DFStage_bot
–
*LLM — нейронные сети
*ChatGPT, Midjourney, DeepSeek — сервисы генеративного искусственного интеллекта
*AI — искусственный интеллект
О LLM сейчас рассказывают везде. ChatGPT, Midjourney, DeepSeek уже стали must-have любого современного специалиста. Но в новостях много маркетинга, платных курсов и мало реальной пользы. А ведь всех реально интересует всего 1 вопрос — как применять искусственный интеллект на практике, чтобы это конвертировалось в репутацию, деньги и развитие бизнеса?
Добро пожаловать на Data Fusion 2025 — здесь эксперты индустрии по фактам обсудят связь ИИ и больших данных и как ее направить в получение прикладного результата.
📌 Что будет на сессиях:
— Инновационные практики AI: от разработки автономных систем до создания этических стандартов для AI.
— Будущее AI в промышленности и медицине: как AI уже помогает решать проблемы здравоохранения, строить умные города и прогнозировать риски в бизнесе.
— Этика ИИ и ответственность: какие проблемы стоят перед разработчиками и как избежать предвзятости в алгоритмах.
— Искусственный интеллект в борьбе с глобальными вызовами: как AI помогает в решении экосистемных проблем, таких как изменение климата и управление ресурсами.
📌Москва, технологический кластер «Ломоносов», 16-17 апреля.
Не упустите шанс быть в центре технологической революции — регистрируйтесь прямо сейчас — https://data-fusion.ru/. Участие бесплатно!
И пока вы ждете начало конференции — загляните в чат-бот Telegram Data Quest! Там вас ждут интересные задания с призами, программа, прямые трансляции и бизнес-тиндер. ➡️ hottg.com/DFStage_bot
–
*LLM — нейронные сети
*ChatGPT, Midjourney, DeepSeek — сервисы генеративного искусственного интеллекта
*AI — искусственный интеллект
Forwarded from Machinelearning
Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.
Книга разделена на три части, включающие 24 основные главы и 8 приложений.
Темы охватывают широкий спектр, включая:
Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.
Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.
@ai_machinelearning_big_data
#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
✔️ HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Grok Илона Маске в идеале освоила русский.
Forwarded from Machinelearning
Обслуживание LLMс архитектурой MoE всегда было сложной задачей: несмотря на снижение вычислительной нагрузки за счёт «разреженной» активации экспертов, GPU часто простаивают из-за неэффективного распределения ресурсов.
Новая методика MegaScale-Infer от ByteDance|Seed предлагает разделение модулей внимания и feed-forward networks (FFN) на независимые узлы с индивидуальной оптимизацией. Это не только делает загрузку GPU эффективной, но и сокращает стоимость обслуживания моделей в 1,9 раза по сравнению с аналогами.
Суть MegaScale-Infer — в «дизагрегации»: модули внимания, отвечающие за работу с ключевыми значениями (KV-кэш), и FFN-эксперты распределяются по разным GPU. Например, узлы внимания можно развернуть на GPU с высокой пропускной способностью памяти, а эксперты — на устройствах с мощными вычислительными ядрами. Такой подход позволяет масштабировать каждый компонент отдельно и избежать дисбаланса, когда один модуль ждет завершения работы другого.
Чтобы скрыть задержки связи между узлами, система использует конвейерный параллелизм. Запросы разбиваются на микропакеты, которые перекидываются между модулями внимания и FFN, как мячик в пинг-понге. Это минимизирует простои: пока один микропакет обрабатывается экспертами, механизмы внимания на GPU уже начинают работать со следующим.
Для стабильной коммуникации между сотнями устройств разработана библиотека M2N — она ускоряет передачу данных в 4,2 раза по сравнению с NCCL, устраняя лишние копии данных и синхронизацию.
Эксперименты на моделях Mixtral 8x22B (141 млрд. параметров) и DBRX (132 млрд.) показали, что MegaScale-Infer обрабатывает до 2,56Х больше токенов в секунду на один GPU, чем vLLM и TensorRT-LLM.
На гетерогенных кластерах с GPU H20 (для внимания) и L40S (для экспертов) система демонстрирует еще больший эффект: стоимость генерации токена снижается в 1,86 раза за счет оптимального распределения ресурсов: H20, обладая огромной памятью, идеально подходят для работы с KV-кэшем, а L40S эффективно считают матричные операции в FFN.
Для разработчиков, которые работают с LLM, MegaScale-Infer — не просто еще один фреймворк. Это инструмент, который превращает MoE-модели из ресурсоемких «монстров» в управляемые системы, где каждый GPU работает на пределе возможностей.
@ai_machinelearning_big_data
#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
HTML Embed Code: