Рейтинг AI+Coding агентов
Кто-то догадался, как оценить использование людьми AI+Coding агентов. Они мониторят сгенерированные агентами Pull Requests в открытые Github repositories. На основе этого можно посчитать как объем созданных PRs, так и число тех, которые были приняты. Эти две цифры уже дают примерную оценку успешности работы (Merge success rate).
А если построить график по дням, то получится еще и динамика. Кого используют больше, кто становится точнее, кто самый популярный.
Вот ссылка на интерактивный отчет. Github Repo - тут расписана методика измерения.
Интересны тренды:
(1) OpenAI Codex появился месяц назад, но уже уделывает Devin в 10x раз по объемам использования. Успешность продолжает расти, как и объемы
(2) Сursor - второй по уровню успешности, но он в последнее становится хуже 🥹
(3) Успешность Copilot продолжает расти. Такими темпами они скоро обгонят Devin и догонят Cursor
А какие ресурсы для AI+Coding используете вы?
Ваш, @llm_under_hood 🤗
PS: Спасибо @kuchin, который поделился ссылкой в нашем чате курса.
PPS: как заметил @uberkinder - оценка успешности очень примерная, она зависит от UX продуктов. Надежнее просто смотреть на объем merged PRs.
>>Click here to continue<<
