OpenAI заподозрили в манипуляциях с тестами мощной ИИ-модели o3
В декабре прошлого года OpenAI представила большую языковую модель o3, заявив, что она способна справиться более чем с 25 % набора сложных математических задач FrontierMath, тогда как другие ИИ-модели справлялись только с 2 % заданий из этого набора. Однако расхождения между результатами внутренних и независимых тестов вызывали вопросы о прозрачности компании и практике тестирования нейросетей.
На момент анонса ИИ-модели o3 представитель компании особо отметил результаты алгоритма при решении задач FrontierMath. Однако выпущенная на прошлой неделе потребительская версия алгоритма далеко не так хорошо справляется с вычислениями. Это может указывать на то, что OpenAI либо завысила результаты тестирования, либо в нём была задействована другая, более способная к решению математических задач версия o3.
>>Click here to continue<<
