Как Coinbase вдвое урезал расходы на ИИ

Coinbase вдвое сократил расходы на ИИ при растущем объёме запросов — перейдя на китайские модели и подняв долю кэшированных ответов с 5% до 60%.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Гендиректор Coinbase Брайан Армстронг переключил значительную часть ИИ-запросов компании на более дешёвые китайские модели — GLM 5.2 от Zhipu AI и Kimi 2.7 от Moonshot AI — и вдвое сократил расходы на ИИ. Общий объём запросов при этом продолжал расти. Меньше денег, больше работы — именно эта математика сейчас привлекает внимание всей индустрии.

Экономию обеспечили два изменения. Первое — умная маршрутизация: автоматическая система выбирает модель под каждый запрос, исходя из задачи, цены и возможности переиспользовать ответ. Второе — кэширование, и именно здесь сосредоточена основная экономия: доля кэшированных ответов выросла с 5% до 60%. Кэш работает так: если приложение задаёт ИИ похожий вопрос второй раз, оно получает сохранённый ответ вместо новой генерации. С 5% до 60% — это шесть из десяти обращений к ИИ, которые теперь обходятся почти бесплатно.

Что происходит вокруг

GLM 5.2 — это модель китайской лаборатории Zhipu AI, которая на этой же неделе привлекла внимание за результаты на уровне Anthropic Mythos на отдельных тестах по кибербезопасности. Kimi 2.7 — от Moonshot AI. Обе заметно дешевле топовых предложений OpenAI и Anthropic для стандартных корпоративных задач.

Армстронг добавил к этому внутреннее давление: его позиция прямая — «чем больше тратишь на ИИ, тем большего эффекта мы ожидаем». 91% разработчиков Coinbase укладывается в прежние лимиты использования — оптимизация повысила эффективность на задачу, а не просто открыла возможность тратить больше. Похожий путь идут и другие: стартап Lindy перешёл на DeepSeek V4, Snowflake тестирует китайские модели как замену своим контрактам с OpenAI и Anthropic.

Контекст важен: OpenAI запустила GPT-5.6 Sol по тем же ценам, что и предыдущая модель, но с лучшей отдачей на токен — прямой сигнал о том, что компания чувствует конкурентное давление. Для западных лабораторий вопрос звучит так: удастся ли перекрыть ценовой разрыв за счёт эффективности, или переход крупных клиентов на более дешёвые альтернативы — это надолго.

Что бы я сделал

Процент кэшированных ответов — вероятно, самый мощный рычаг снижения расходов на ИИ, который большинство команд ещё не задействовали. Логика простая: если один и тот же тип вопроса встречается в продукте больше одного раза — сохрани первый ответ и отдавай его повторно. Большинство фреймворков и API-обёрток поддерживают это с минимальной настройкой, и чаще всего проблема просто в том, что это не включено. Начни с этого, прежде чем менять провайдеров или пересматривать контракты. Разница между 5% и 60% — это разница между управляемыми расходами и счётом, который растёт сам по себе.

#AI pricing#GLM#Kimi#cost optimization#builders

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: the-decoder.com