TG Telegram Group & Channel
PyTorch Howsam | United States America (US)
Create: Update:

کامل نیست، ولی اثر سایز مدل رو ببینید؛

دو تا فاکتور تعداد لایه (nL) و هیدن سایز (nE) رو تغییر دادم و سه تا مدل بدست اومد.

مدل آبی حدودا 3 میلیون پارامتر داره. خیلی کوچیکه. با اینکه خیلی بیشتر از دو مدل دیگه آموزش دیده (حدود 1.4 بیلیون توکن)، اما اختلاف زیادی باهاشون داره.

دو مدل دیگه به‌هم نزدیک هستن. فرقشون در تعداد لایه‌هاست. یکی 4 لایه و دیگری 8 لایه. مشخص هست که مدل 8 لایه عملکرد بهتری داره. مدل 4 لایه به 400 میلیون توکن نیاز داشته تا به لاس زیر 1.5 برسه. اما به نظر میرسه که مدل 8 لایه با تعداد توکن‌های کمتری میتونه این رکورد رو بزنه.

خوبه که یک نمونه جنریشن با پرامپت مشابه از دو مدل آبی و قهوه‌ای ببینیم. اون مدل فیروزه‌ای که هیچ، به اندازه کافی ترین نشده...

کامل نیست، ولی اثر سایز مدل رو ببینید؛

دو تا فاکتور تعداد لایه (nL) و هیدن سایز (nE) رو تغییر دادم و سه تا مدل بدست اومد.

مدل آبی حدودا 3 میلیون پارامتر داره. خیلی کوچیکه. با اینکه خیلی بیشتر از دو مدل دیگه آموزش دیده (حدود 1.4 بیلیون توکن)، اما اختلاف زیادی باهاشون داره.

دو مدل دیگه به‌هم نزدیک هستن. فرقشون در تعداد لایه‌هاست. یکی 4 لایه و دیگری 8 لایه. مشخص هست که مدل 8 لایه عملکرد بهتری داره. مدل 4 لایه به 400 میلیون توکن نیاز داشته تا به لاس زیر 1.5 برسه. اما به نظر میرسه که مدل 8 لایه با تعداد توکن‌های کمتری میتونه این رکورد رو بزنه.

خوبه که یک نمونه جنریشن با پرامپت مشابه از دو مدل آبی و قهوه‌ای ببینیم. اون مدل فیروزه‌ای که هیچ، به اندازه کافی ترین نشده...


>>Click here to continue<<

PyTorch Howsam






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)