TG Telegram Group & Channel
arXiv | United States America (US)
Create: Update:

شرکت NVIDIA مدلي به نام NVEagle را عرضه کرده که یک مدل پیشرفته برای ترکیب بینایی و زبان است. این مدل در سه نسخه 7B، 13B و 13B بهینه‌سازی‌شده برای چت ارائه شده است. این مدل از روش‌های مختلفی برای ادغام خروجی‌های انکودرهای تصویر و استفاده از متخصصین مختلف (MoE) بهره می‌برد.

در این مدل، برای ادغام تخصص‌ها، خروجی‌های انکودرهای تصویر از طریق concatenation به هم متصل می‌شوند و سپس مرحله‌ای به نام "pre-alignment" اجرا می‌شود که در آن متخصصین با انکودر متن ثابت بهینه‌سازی می‌شوند. سپس متخصصین و دیکودر فریز شده و تنها لایه پروجکشن آموزش داده می‌شود، و در نهایت همه اجزا برای بهینه‌سازی نظارتی باز می‌شوند.

معماری اصلی مدل شباهت زیادی به مدل LLaVA دارد.

Model repository: link
Try it here: link

Forwarded from Recommender system (MehriMah Amiri)
شرکت NVIDIA مدلي به نام NVEagle را عرضه کرده که یک مدل پیشرفته برای ترکیب بینایی و زبان است. این مدل در سه نسخه 7B، 13B و 13B بهینه‌سازی‌شده برای چت ارائه شده است. این مدل از روش‌های مختلفی برای ادغام خروجی‌های انکودرهای تصویر و استفاده از متخصصین مختلف (MoE) بهره می‌برد.

در این مدل، برای ادغام تخصص‌ها، خروجی‌های انکودرهای تصویر از طریق concatenation به هم متصل می‌شوند و سپس مرحله‌ای به نام "pre-alignment" اجرا می‌شود که در آن متخصصین با انکودر متن ثابت بهینه‌سازی می‌شوند. سپس متخصصین و دیکودر فریز شده و تنها لایه پروجکشن آموزش داده می‌شود، و در نهایت همه اجزا برای بهینه‌سازی نظارتی باز می‌شوند.

معماری اصلی مدل شباهت زیادی به مدل LLaVA دارد.

Model repository: link
Try it here: link


>>Click here to continue<<

arXiv






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)