Как я срезал счёт за GigaChat Pro на 47% лёгким роутером

Как я срезал счёт за GigaChat Pro на 47% лёгким роутером

Как я срезал счёт за GigaChat Pro на 47% лёгким роутером

В понедельник финдиректор клиента прислал счёт и спросил просто: «Это что?». За квартал расходы на LLM выросли в три раза. Агент нормально работал — отвечал на письма, готовил КП, дёргал 1С. Но даже на «спасибо, получил» уходил GigaChat Pro. Как ездить за хлебом на фуре.

Я выгрузил логи за неделю. Из 18 400 вызовов 71% были простыми: классификация, извлечение даты или ИНН, короткие переформулировки. На них уходило 64% бюджета. Остальные 29% — действительно тяжёлые задачи: рассуждения по карточке клиента, многошаговое планирование, сложные коммерческие предложения. Там Pro был оправдан.

Так родилась идея: поставить перед основной моделью лёгкий маршрутизатор, который решает, куда слать запрос.

Первая попытка — регулярки — провалилась

Сначала написал 80 строк правил: «составь», «проанализируй» — на Pro, «когда», «какой» — на лёгкую модель. Через сутки агент начал выдавать канцелярит на простые реплики менеджеров. Плюс регулярки не видели контекста: «сколько стоит профлист» формально просто, но требует RAG и 1С.

Через неделю я сдался: правила не работают. Нужна модель.

Классификатор на T-Lite

Поставил T-Lite от Т-Банка. Она быстрая, русский тянет, стоит копейки. Промпт уместился в 600 токенов — три класса (simple/medium/complex) и пять примеров на каждый. Обучил на 2000 реальных запросов, размеченных тяжёлой моделью. На валидации попадал в 89% случаев.

Как распределились запросы

Класс Доля Модель Стоимость vs Pro
simple 58% T-Lite ×12 дешевле
medium 27% GigaChat Lite ×4 дешевле
complex 15% GigaChat Pro базовая

Семантический кэш на pgvector остался перед роутером и продолжал отсекать повторы.

Через месяц счёт упал на 47% при том же трафике. Простые запросы стали отвечать на 800 мс быстрее. На сложных добавилось 250 мс из-за классификатора — не критично.

Что пошло не так

Классификатор сам стоит денег. Окупается только если простых и средних запросов больше 40%.

На границе medium/complex T-Lite иногда ошибался. Добавил эскалацию: если ответ содержит «возможно» или «не уверен» — перекидываю на Pro. Съедает 4–5% экономии, но качество не проседает.

Ещё слежу за версиями промптов и раз в неделю проверяю роутер на свежих 200 запросах. Один раз пропустил — неделю разбирал деградацию.

И дашборд в Grafana обязателен. Весной доля complex запросов выросла с 15% до 23% — менеджеры начали кидать целые письма. График сразу показал сдвиг.

Когда схема не нужна

На 200–300 запросов в день экономия не окупит даже инфраструктуру. Если агент только пишет договоры — почти все запросы complex, роутер бесполезен. В медицинских и юридических сценариях тоже лучше не экономить.

В итоге маршрутизатор — это просто инженерный приём: не тратить тяжёлую модель на то, что потянет лёгкая. Главное — не переборщить с экономией и не потерять качество. А ещё приятно, когда ответы становятся быстрее и счёт перестаёт пугать.