TG Telegram Group & Channel
Лабораторный журнал | United States America (US)
Create: Update:

Мокрые и сухие нейросетки показывают впечатляющие результаты в генерации чего бы то ни было, но испытывают трудности с нахождением ошибок. Они с трудом переключаются в режим осознанного логического мышления (S2 по Канеману), необходимого для анализа и отладки. Текущие бенчмарки показывают низкую способность LLM находить ошибки даже в собственных выводах, какие уж там инженерные обоснования. Хотя каждая новая модель LLM улучшает ситуацию, люди остаются на прежнем уровне — победить тут людей довольно просто, даже будучи относительно плохим неживым критиком. В тексте (11Кзнаков) много ссылок и небольшой план моих собственных действий.

https://ailev.livejournal.com/1755878.html

Мокрые и сухие нейросетки показывают впечатляющие результаты в генерации чего бы то ни было, но испытывают трудности с нахождением ошибок. Они с трудом переключаются в режим осознанного логического мышления (S2 по Канеману), необходимого для анализа и отладки. Текущие бенчмарки показывают низкую способность LLM находить ошибки даже в собственных выводах, какие уж там инженерные обоснования. Хотя каждая новая модель LLM улучшает ситуацию, люди остаются на прежнем уровне — победить тут людей довольно просто, даже будучи относительно плохим неживым критиком. В тексте (11Кзнаков) много ссылок и небольшой план моих собственных действий.

https://ailev.livejournal.com/1755878.html


>>Click here to continue<<

Лабораторный журнал






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)