Энтузиасты выкатили минималистичную реализацию типа vLLM под названием nano-vllm (название вдохновлено понятно кем).
Утверждается, что либа предлагает:
🚀 Скорости сопоставимые с vllm.
📖 Читаемый код.
⚡ Фишки для оптимизации/параллелизма- кэширование префикса, тензорный параллелизм, CUDA графы и прочее.
[Репка]
>>Click here to continue<<