🧙♂️ Ультимативная тулза The Evaluation Wizard оценивает, тестирует и оптимизирует любые LLM — сокровище для каждого, кто строит свои ИИ-приложения. Прога запускает 30+ оценок, моделируя разные действия.
Работает даже без датасета: даём задачу для оценки, генерируем набор данных, кидаем промпт, выбираем настройки и получаем результат. Прогнать тесты и поиск ошибок можно через все LLM, чтобы сравнить и выбрать подходящую.
Мастхев для разрабов — тут.
@notboring_tech
>>Click here to continue<<