TG Telegram Group & Channel
CL & NLP Enthusiasts | United States America (US)
Create: Update:

این هم از مدل چینی هوش مصنوعی😅


🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
@computationallinguisticsNLP

GIT
Source: barrons - theverge - wikipedia

این هم از مدل چینی هوش مصنوعی😅


🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
@computationallinguisticsNLP

GIT
Source: barrons - theverge - wikipedia
4🔥2🥰1


>>Click here to continue<<

CL & NLP Enthusiasts






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)