این مقاله خیلی خیلی توی مباحث مربوط به Quantization
مهم هست (حتما بخونید)
قبلتر BitNet
توی مقالات دیگه نشون داده بود که نسخه Quantize
شده حتی 1bit
مدلی با 400B
پارامتر میتونه حتی بهتر از مدل 70B
پارامتری FP16
باشه درحالی که هر دو میزان مشابهای سختافزار مصرف میکنند.
اما توی مقالات بعدی BitNet1.58
که قبلتر معرفی کردم؛ نشون دادند با اضافه کردن 0
به Quantization
چطور کمک کردند که هم مدل نتایج بهتری رو نشون بده هم سرعت inference
بالا بره (به زبان ساده جایی که صفر میشه عملکردی مثل Dropout
اتفاق میوفته برای Inference
)
اما یک مشکل دیگه هم بود K,V cache
رو کسی سراغش نرفته بود؛ توی این مقاله اینکار رو کردند و حالا همون مدل قبلی با Activation
که کوانتایز شده با مصرف مموری کمتر میتونه context
بیشتری رو نگهداره.
خلاصه که بخونید.
BitNet a4.8: 4-bit Activations for 1-bit LLMs
آپدیت:
این رو هم همکارم فرستاد (شخصا هنوز نخوندم) ولی مثل اینکه هدف کم کردن هزینه برای آموزش هست.
BitNet b1.58 2B4T Technical Report
microsoft/bitnet-b1.58-2B-4T on 🤗
>>Click here to continue<<