Мокрые и сухие нейросетки показывают впечатляющие результаты в генерации чего бы то ни было, но испытывают трудности с нахождением ошибок. Они с трудом переключаются в режим осознанного логического мышления (S2 по Канеману), необходимого для анализа и отладки. Текущие бенчмарки показывают низкую способность LLM находить ошибки даже в собственных выводах, какие уж там инженерные обоснования. Хотя каждая новая модель LLM улучшает ситуацию, люди остаются на прежнем уровне — победить тут людей довольно просто, даже будучи относительно плохим неживым критиком. В тексте (11Кзнаков) много ссылок и небольшой план моих собственных действий.
https://ailev.livejournal.com/1755878.html
>>Click here to continue<<
