Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust
Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit.
Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.
原文链接: Heise
Weiter stöbern
Diese Story weiter erkunden
