TG Telegram Group & Channel
ИИволюция 👾 | United States America (US)
Create: Update:

Как сэкономить до 4 раз на длинных промптах в OpenAI API

Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму).

Что это такое
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе.

Результат:
– задержка может снизиться до -80%,
– стоимость токенов для префикса — до -50%.

Когда работает кеш
– Срабатывает, если промпт длиннее 1024 токенов
– Проверяется, не был ли этот префикс использован недавно
– Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается).

Подходит для случаев, когда много запросов отправляются с одинаковым началом.

Что считается совпадением
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется
– System-промпт
– Инструкции, примеры, структура вывода
– Список инструментов
– Изображения (когда они передаются как base64 и если одинаковые каждый раз)
Важно: Все эти элементы должны быть в начале промпта.

Как понять, что кеш сработал
Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша.

Нужно ли что-то включать
Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o.

Рекомендации
– Фиксируйте начало промпта (префикс должен оставаться статичным)
– Избегайте мелких правок и случайных изменений
– Динамический контент — в конец

Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут.

ИИволюция

Как сэкономить до 4 раз на длинных промптах в OpenAI API

Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму).

Что это такое
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе.

Результат:
– задержка может снизиться до -80%,
– стоимость токенов для префикса — до -50%.

Когда работает кеш
– Срабатывает, если промпт длиннее 1024 токенов
– Проверяется, не был ли этот префикс использован недавно
– Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается).

Подходит для случаев, когда много запросов отправляются с одинаковым началом.

Что считается совпадением
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется
– System-промпт
– Инструкции, примеры, структура вывода
– Список инструментов
– Изображения (когда они передаются как base64 и если одинаковые каждый раз)
Важно: Все эти элементы должны быть в начале промпта.

Как понять, что кеш сработал
Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша.

Нужно ли что-то включать
Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o.

Рекомендации
– Фиксируйте начало промпта (префикс должен оставаться статичным)
– Избегайте мелких правок и случайных изменений
– Динамический контент — в конец

Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут.

ИИволюция
24🔥17👍8


>>Click here to continue<<

ИИволюция 👾




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)