TG Telegram Group & Channel
Агенты ИИ | AGI_and_RL | United States America (US)
Create: Update:

Тут недавно статья выходила

Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1

В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/

В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).

Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.

Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/

Тут недавно статья выходила

Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1

В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/

В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).

Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.

Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/


>>Click here to continue<<

Агенты ИИ | AGI_and_RL






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)