Как я срезал счёт за GigaChat Pro на 47% лёгким роутером
В понедельник финдиректор клиента прислал счёт и спросил просто: «Это что?». За квартал расходы на LLM выросли в три раза. Агент нормально работал — отвечал на письма, готовил КП, дёргал 1С. Но даже на «спасибо, получил» уходил GigaChat Pro. Как ездить за хлебом на фуре.
Я выгрузил логи за неделю. Из 18 400 вызовов 71% были простыми: классификация, извлечение даты или ИНН, короткие переформулировки. На них уходило 64% бюджета. Остальные 29% — действительно тяжёлые задачи: рассуждения по карточке клиента, многошаговое планирование, сложные коммерческие предложения. Там Pro был оправдан.
Так родилась идея: поставить перед основной моделью лёгкий маршрутизатор, который решает, куда слать запрос.
Первая попытка — регулярки — провалилась
Сначала написал 80 строк правил: «составь», «проанализируй» — на Pro, «когда», «какой» — на лёгкую модель. Через сутки агент начал выдавать канцелярит на простые реплики менеджеров. Плюс регулярки не видели контекста: «сколько стоит профлист» формально просто, но требует RAG и 1С.
Через неделю я сдался: правила не работают. Нужна модель.
Классификатор на T-Lite
Поставил T-Lite от Т-Банка. Она быстрая, русский тянет, стоит копейки. Промпт уместился в 600 токенов — три класса (simple/medium/complex) и пять примеров на каждый. Обучил на 2000 реальных запросов, размеченных тяжёлой моделью. На валидации попадал в 89% случаев.
Как распределились запросы
| Класс | Доля | Модель | Стоимость vs Pro |
|---|---|---|---|
| simple | 58% | T-Lite | ×12 дешевле |
| medium | 27% | GigaChat Lite | ×4 дешевле |
| complex | 15% | GigaChat Pro | базовая |
Семантический кэш на pgvector остался перед роутером и продолжал отсекать повторы.
Через месяц счёт упал на 47% при том же трафике. Простые запросы стали отвечать на 800 мс быстрее. На сложных добавилось 250 мс из-за классификатора — не критично.
Что пошло не так
Классификатор сам стоит денег. Окупается только если простых и средних запросов больше 40%.
На границе medium/complex T-Lite иногда ошибался. Добавил эскалацию: если ответ содержит «возможно» или «не уверен» — перекидываю на Pro. Съедает 4–5% экономии, но качество не проседает.
Ещё слежу за версиями промптов и раз в неделю проверяю роутер на свежих 200 запросах. Один раз пропустил — неделю разбирал деградацию.
И дашборд в Grafana обязателен. Весной доля complex запросов выросла с 15% до 23% — менеджеры начали кидать целые письма. График сразу показал сдвиг.
Когда схема не нужна
На 200–300 запросов в день экономия не окупит даже инфраструктуру. Если агент только пишет договоры — почти все запросы complex, роутер бесполезен. В медицинских и юридических сценариях тоже лучше не экономить.
В итоге маршрутизатор — это просто инженерный приём: не тратить тяжёлую модель на то, что потянет лёгкая. Главное — не переборщить с экономией и не потерять качество. А ещё приятно, когда ответы становятся быстрее и счёт перестаёт пугать.
