قلب چت جیپیتی: هوش مصنوعی با فیدبکهای واقعی
قبلا در این پست (https://hottg.com/nlp_stuff/313) به توضیح مختصری از داستان ChatGPT پرداخته بودیم.
حالا در یک بلاگ پست قصد داریم قلب آموزش این مدل یعنی Reinforcement Learning from Human Preferences رو توضیح بدیم.
لطفا با بقیه هم به اشتراک بذارید.
لینک پست ویرگول:
https://virgool.io/overfit/rlhf-vkpgfist80nt
لینک مقاله:
https://arxiv.org/abs/1706.03741
#read
#blog
@nlp_stuff
>>Click here to continue<<
