У меня была похожая ситуация, когда запускал локальную модель GPT для внутреннего чата поддержки на небольшой IT-компании. Поставил на обычном сервере с хорошей видеокартой — скорость отклика реально заметно лучше, чем в облаке, и ценник вышел в итоге меньше, чем месячные подписки для нескольких пользователей. Но без оптимизаций точно бы не обошлось — использовал квантизацию и обрезку весов, чтобы модель не жрала всю видеопамять. Ещё при обновлениях нужно быть аккуратным — иногда свежие версии требуют совсем другой конфиг или проприетарные тулзы, это туда же может больно тормозить процесс. Гибридный подход видится мне более универсальным вариантом: для критичных задач локально, у всего остального — чуть выше уровень в облаке. Кто как балансирует между затратами и производительностью в продакшене?