#unrealneural
Обучение с подкреплением и проверяемым вознаграждением показало хорошие результаты в улучшении рассуждений LLM, но есть проблема отсутствия достоверных ответов.
Есть подход обучения с самовознаграждением (SRT): где языковые модели сами вознаграждают обучение с подкреплением.
https://self-rewarding-llm-training.github.io/
>>Click here to continue<<
