Гонка за сжатие памяти ИИ на длинном контексте

На 1 млн токенов KV-кэш модели может превысить 300 ГБ — больше её весов. TurboQuant, OSCAR и EpiCache сжимают его, удешевляя длинный контекст.

↻ Опубликовано 2026-06-18◷ 6 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Сразу три исследовательские команды выпустили новые способы сжимать KV-кэш — быстро растущий «черновик» модели, который незаметно определяет стоимость работы с длинным контекстом. Разбор на MarkTechPost от 18 июня 2026 года ставит рядом TurboQuant от Google и NYU, OSCAR от Together AI и EpiCache от Apple, и цифры объясняют, почему этот угол ИИ-инфраструктуры вдруг стал важным: для Llama-3.1-70B в полной точности кэш стоит около 0,31 МБ на токен — это примерно 40 ГБ на 128 000 токенов и более 300 ГБ на одном миллионе, то есть больше, чем 140 ГБ собственных весов модели.

KV-кэш (ключ-значение) — это место, где модель хранит векторы внимания для каждого уже увиденного токена, на каждом слое, чтобы не пересчитывать их при каждом новом слове. Он растёт линейно с длиной вашего диалога или документа и с числом запросов, обрабатываемых одновременно. После определённой длины генерация каждого токена упирается не в вычисления, а в перекачку этого огромного кэша туда-сюда в памяти. Сожми кэш — и длинный контекст станет быстрее, дешевле и сможет уместиться на более скромном железе.

Три разных удара по одному узкому месту

TurboQuant (выйдет на ICLR 2026) — вариант, не зависящий от модели: ему не нужны калибровочные данные, и он работает на любой модели как есть. Он случайно поворачивает кэш так, чтобы числа вели себя как чистый гауссов шум, а затем агрессивно квантует. В итоге — качество, близкое к полной точности, при сжатии в 4 раза, практически без потерь около 3,5 бита на канал и лишь незначительная деградация на 2,5 бита, с теоретическими гарантиями, что результат укладывается примерно в 2,7 раза от наилучшего теоретически возможного.

OSCAR — вариант «можно внедрять сегодня». Он учитывает внимание, поворачивая ключи и значения вдоль направлений, которые реально важны модели, и идёт с настоящей обвязкой: интеграцией в движок инференса SGLang, кэшем смешанной точности (свежие токены — в полной точности, старая история — сжата) и готовыми настройками для моделей вроде Qwen3 и GLM-4.7. При примерно 2,28 эффективного бита он держится в пределах 1,42 пункта от полной точности на Qwen3-8B и практически сравнивается с ней на моделях покрупнее, давая до 8× экономии памяти и до ~3× более быстрое декодирование на контексте в 100 000 токенов.

EpiCache от Apple решает другую задачу — длинные многоходовые диалоги. Вместо того чтобы сжимать каждое число, он группирует историю переписки в смысловые «эпизоды», хранит по сжатому кэшу на эпизод и подтягивает только те, что относятся к текущему вопросу. Заявлено до 40% выше точность, чем у простого подхода «просто забывать старые токены», точность около полного кэша при сжатии в 4–6 раз, до 3,5× ниже пиковая память и примерно в 2,4 раза меньше задержка.

Чем это важно для вас

Вы никогда не притронетесь ни к одной из этих настроек — и в этом весь смысл: это невидимая сантехника за функциями, которыми вы уже пользуетесь. Именно благодаря ей провайдеры могут предлагать окна контекста в миллион токенов, давать вставлять целые книги или кодовые базы и удерживать падение цен. Для тех, кто запускает открытую модель локально, сжатие кэша — это разница между тем, влезет длинный документ на одну потребительскую видеокарту или нет. Команды прямо говорят: это не конкуренты — TurboQuant выигрывает в переносимости, OSCAR в готовности к внедрению, EpiCache в долгих диалогах, — и их можно складывать ради накопительной экономии, а значит, длинный контекст будет дешеветь и дальше по всему фронту.

Что бы я сделал

Если вы запускаете локальные модели, вот самый практичный вывод: когда ваш инструмент предлагает квантизацию KV-кэша (часто помечена как 2-бит, 4-бит или «INT2/INT4 cache»), её обычно безопасно включать на 4 битах — вы уместите куда более длинный контекст на той же видеокарте почти без потери качества. Всем остальным это стоит читать как сигнал: длинный контекст и работа с большими документами дешевеют, поэтому привычки имеет смысл строить вокруг них, а не экономить токены.

#research#long-context#inference#efficiency

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: marktechpost.com