Talpyklos sąmoningas išankstinio užpildymo ir dekodavimo atskyrimas, suteikiantis 40 % greitesnį LLM aptarnavimą

roody_wurlitzer·1·25.02.2026 08:56

Santrauka lietuviškai

Naujas metodas, vadinamas talpyklos sąmoningu išankstinio užpildymo ir dekodavimo atskyrimu, žymiai pagreitina didelių kalbos modelių (LLM) aptarnavimą. Šis metodas atskiria pradinį užklausos apdorojimą (išankstinį užpildymą) nuo atsakymo generavimo (dekodavimo), efektyviau naudodamas talpyklos atmintį. Toks optimizavimas leidžia pasiekti iki 40 % greičio padidėjimą, nepakenkiant modelio tikslumui ar kokybei. Tai ypač naudinga realaus laiko kalbos modelių taikymuose, kur greitis yra kritiškai svarbus.

Originalus pavadinimas

Cache-aware prefill–decode disaggregation for 40% faster LLM serving