На VII Форуме «Франкенштейн на кибербанке: ИИ и технологии будущего в финансовом секторе» Богдан Гарбар, CPO и руководитель Центра платформенных ИИ-решений ОТП Банка, представил инженерную методику расчета вычислительных ресурсов для сервисов на основе генеративного искусственного интеллекта, сообщается на сайте банка.
По словам эксперта, планирование вычислительных мощностей остается одной из ключевых задач при внедрении генеративного ИИ. До настоящего времени большинство компаний принимали решения на основе экспертных оценок, приблизительных ориентиров и данных из непрозрачных источников, что затрудняло точное бюджетирование и повышало инвестиционные риски. Избыточные закупки могли заморозить капитал в оборудовании, которое простаивало и быстро устаревало, а недостаточные мощности приводили к тому, что сервисы не справлялись с нагрузкой, что негативно сказывалось на скорости работы и удовлетворенности клиентов. «Когда мы начинали внедрять генеративный ИИ, столкнулись с классической дилеммой: заложить слишком много ресурсов — заморозить капитальные затраты, заложить слишком мало — потерять клиентов из-за неработающего сервиса. Существующие калькуляторы и бенчмарки оказались непрозрачными, и мы решили разобраться, как все работает на атомарном уровне», — отметил Богдан Гарбар.
Он пояснил, что разработка ОТП Банка позволяет перейти от интуитивных оценок к обоснованным расчетам при планировании капитальных затрат на GPU-серверы — наиболее дорогостоящий компонент LLM-инфраструктуры.
«Мы создали не просто калькулятор, а инструмент для принятия решений: на какой инфраструктуре строить решение, в каком объеме закупать оборудование и как эффективно распределять вычислительные ресурсы между задачами. Модель связывает ожидаемую нагрузку и требования к качеству сервиса с ключевыми финансовыми показателями проекта — капитальными затратами (CapEx), совокупной стоимостью владения (TCO) и возвратом инвестиций (ROI). В отличие от типовых подходов, она рассчитывает необходимый объем графических процессоров (GPU) на основе реальных бизнес-параметров и ряда технических факторов, которые напрямую влияют на потребность в вычислительных мощностях: объема памяти для одной пользовательской сессии, применения оптимизаций, включая квантование моделей, а также использования специализированных техник обработки запросов, позволяющих снизить нагрузку без потери качества сервиса. Это дает возможность определить минимально необходимый объем оборудования, достаточный для выполнения целевых SLA при оптимальных затратах», – подчеркнул Богдан Гарбар.