TG Telegram Group & Channel
Embedded Academy | United States America (US)
Create: Update:

توسعه مبتنی بر CUDA با CUTLASS 4.0 آسان می‌شود.

توسعه مبتنی بر CUDA با چالش و دشواری همراه بود که خصوصا استفاده از آن برای نمونه‌سازی اولیه منطقی نبود که با معرفی فریمورک جدید CUTLASS مشکل برطرف شد.

کوتلاس، یک فریمورک توسعه کرنل‌های CUDA با ترکیب پایتون و C++ ارائه می‌دهد. با استفاده از DSLهای پایتون مانند CuTe، مفاهیم پیشرفته مانند چینش داده‌ها (Layouts)، تانسورها و عملیات اتمی سخت‌افزاری (Atoms) به سادگی قابل پیاده‌سازی هستند. این روش با کامپایل JIT از طریق MLIR و ptxas، امکان توسعه سریع‌تر، اشکال‌زدایی آسان‌تر و کارایی نزدیک به کد C++ را فراهم می‌کند. CUTLASS DSLها جایگزین نسخه C++ نیستند، بلکه ابزاری برای پروتوتایپ سریع و یادگیری آسان‌تر مفاهیم GPU هستند. نسخه فعلی (بتا) محدودیت‌هایی دارد، اما نسخه نهایی تا تابستان ۲۰۲۵ منتشر می‌شود.

NVIDIA’s CUTLASS 4.0 merges Python’s ease with CUDA’s power via DSLs like CuTe, simplifying GPU kernel dev. Key features:
- Layouts, Tensors & Atoms for hardware-aware programming
- Pythonic syntax + JIT compilation (MLIR/ptxas) for fast iteration
- Near-C++ performance with optimized CUTLASS primitives
- Not a C++ replacement—supports rapid prototyping & education
Currently in public beta (sometomorrow m limitations), with full release planned for Summer 2025. Ideal for researchers, students, and perf engineers.



Read more from Nvidia

مطلب مرتبط:
استارتاپ‌های تراشه‌ای؟

#GPU
#Nvidia
#DeepLearning
#EmbeddedAI

@embedded

توسعه مبتنی بر CUDA با CUTLASS 4.0 آسان می‌شود.

توسعه مبتنی بر CUDA با چالش و دشواری همراه بود که خصوصا استفاده از آن برای نمونه‌سازی اولیه منطقی نبود که با معرفی فریمورک جدید CUTLASS مشکل برطرف شد.

کوتلاس، یک فریمورک توسعه کرنل‌های CUDA با ترکیب پایتون و C++ ارائه می‌دهد. با استفاده از DSLهای پایتون مانند CuTe، مفاهیم پیشرفته مانند چینش داده‌ها (Layouts)، تانسورها و عملیات اتمی سخت‌افزاری (Atoms) به سادگی قابل پیاده‌سازی هستند. این روش با کامپایل JIT از طریق MLIR و ptxas، امکان توسعه سریع‌تر، اشکال‌زدایی آسان‌تر و کارایی نزدیک به کد C++ را فراهم می‌کند. CUTLASS DSLها جایگزین نسخه C++ نیستند، بلکه ابزاری برای پروتوتایپ سریع و یادگیری آسان‌تر مفاهیم GPU هستند. نسخه فعلی (بتا) محدودیت‌هایی دارد، اما نسخه نهایی تا تابستان ۲۰۲۵ منتشر می‌شود.

NVIDIA’s CUTLASS 4.0 merges Python’s ease with CUDA’s power via DSLs like CuTe, simplifying GPU kernel dev. Key features:
- Layouts, Tensors & Atoms for hardware-aware programming
- Pythonic syntax + JIT compilation (MLIR/ptxas) for fast iteration
- Near-C++ performance with optimized CUTLASS primitives
- Not a C++ replacement—supports rapid prototyping & education
Currently in public beta (sometomorrow m limitations), with full release planned for Summer 2025. Ideal for researchers, students, and perf engineers.



Read more from Nvidia

مطلب مرتبط:
استارتاپ‌های تراشه‌ای؟

#GPU
#Nvidia
#DeepLearning
#EmbeddedAI

@embedded
👍2


>>Click here to continue<<

Embedded Academy




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)