مقایسه خفنی هستش از کلی ابزار قبلتر راجب هرکدوم از ابزارها صحبت کرده بودم میتونید رو هر عنوانی بزنین و مقاله اونو مطالعه کنید که در مقاله جدید به مقایسه این موارد پرداخته است.
image, video, audio, and text data, built upon the foundations of CLIP, Whisper and LLaMA
بیشتر شبیه یک سِروی هستش
🔸 Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration
🔸 Model weights
🔸 GitHub
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
>>Click here to continue<<