شرکت NVIDIA مدلي به نام NVEagle را عرضه کرده که یک مدل پیشرفته برای ترکیب بینایی و زبان است. این مدل در سه نسخه 7B، 13B و 13B بهینهسازیشده برای چت ارائه شده است. این مدل از روشهای مختلفی برای ادغام خروجیهای انکودرهای تصویر و استفاده از متخصصین مختلف (MoE) بهره میبرد.
در این مدل، برای ادغام تخصصها، خروجیهای انکودرهای تصویر از طریق concatenation به هم متصل میشوند و سپس مرحلهای به نام "pre-alignment" اجرا میشود که در آن متخصصین با انکودر متن ثابت بهینهسازی میشوند. سپس متخصصین و دیکودر فریز شده و تنها لایه پروجکشن آموزش داده میشود، و در نهایت همه اجزا برای بهینهسازی نظارتی باز میشوند.
معماری اصلی مدل شباهت زیادی به مدل LLaVA دارد.
Model repository: link
Try it here: link
>>Click here to continue<<
