Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы.
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.
Как понял из последних апдейтов туда и лламу 3 вкрутили.
https://www.llm-reasoners.net/
https://github.com/maitrix-org/llm-reasoners
И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard
>>Click here to continue<<