با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقتهایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمرهی خوبی هم گرفت.
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن Grokking
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
>>Click here to continue<<