Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.
Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.
Обучается с помощью RL — формируя привычку "не сдаваться".
@ai_machinelearning_big_data
#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
>>Click here to continue<<