یه کار جذاب و کاربردی در مورد فراموش کردن ترنسفورمرهاForgetting Transformer: Softmax Attention with a Forget Gate
الان همه میدونیم که ترانسفورمرها در مدلسازی توالیهای طولانی بسیار موفقن، اما ایرادی که دارن، فاقد مکانیسمی برای فراموشی اطلاعات قدیمی بهصورت وابسته به داده ها هستن.
این مقاله یک مکانیزم جدید برای ترکیب در ترنسفورمرها معرفی کرده که منجر به مدل "Forgetting Transformer" (FoX) میشه.
اگه دقت کرده باشین این مشکل تو چت بات های حال حاضر هم دیده میشه.مثلا وقتی چت میکنی، چت بات میاد بر اساس چت های قبلی باهات به گفتگو میپردازه.
مقاله
@silicon_brain I از هوش مصنوعی عقب نمانید
>>Click here to continue<<