Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research создали алгоритм, который улучшил мировой стандарт в рекомендательных системах. Он увеличивает точность онлайн-рекомендаций на основе искусственного интеллекта на 50%, сообщается на сайте банка.
Компании по всему миру смогут улучшить свои метрики, в том числе конверсию в покупку, средний чек и выручку. Покупатели, в свою очередь, будут быстрее находить нужные им товары в интернет-магазинах и на маркетплейсах, а зрители онлайн-кинотеатров получат более персонализированные рекомендации фильмов и сериалов.
За основу был взят и улучшен популярный алгоритм для предсказания предпочтений пользователей BPR (Bayesian Personalized Ranking), который считается одним из мировых стандартов в рекомендательных системах на данный момент. Также новая разработка обходит алгоритм Mult-VAE, опубликованный разработчиками из Netflix: рекомендации, сделанные новым алгоритмом, оказались на 10% точнее, чем предложения Mult-VAE.
Чтобы найти наиболее эффективный вариант алгоритма, понадобилось более 200 000 GPU-часов и 15 000 экспериментов на внутренних данных Т-Банка с различными комбинациями параметров модели.
Открытие российских ученых было признано мировым научным сообществом и представлено на главной международной конференции по рекомендательным системам ACM RecSys, которая в этом году состоялась в Бари, Италия. В мероприятии приняли участие лучшие эксперты и исследователи в этой сфере, а к презентации работ допустили только 17% заявителей со всего мира.
Суть открытия
В рекомендательных системах существует проблема, с которой часто сталкиваются разработчики: одна модель может иметь множество различных вариантов. Эти версии разрабатываются независимо друг от друга и могут существенно различаться по своей эффективности.
Например, алгоритм BPR (Bayesian Personalized Ranking) — один из самых популярных среди исследователей более чем с 7 000 упоминаний в научных статьях по рекомендательным системам. Оригинальная версия алгоритма была выпущена в 2012 году, и в ней не используются современные инструменты разработки (фреймворки). Поэтому разные авторы создают новые версии под себя и выкладывают их в открытый доступ. Так как единый стандарт для создания таких моделей отсутствует, их сложно внедрить и использовать.
В ходе экспериментов ученые из научно-исследовательской лаборатории T-Bank AI Research пересмотрели и доработали все компоненты алгоритма BPR. Учитывая влияние каждого из параметров, ученым удалось создать более эффективное решение и разработать наилучшую версию для этого алгоритма. Получившаяся модель значительно превзошла находящиеся в открытом доступе варианты по качеству рекомендаций. В некоторых случаях улучшенная версия превосходила другие модели почти на 50% по точности, в частности, модель из популярной опенсорс-библиотеки для обучения рекомендательных систем RecBole, которая активно используется в электронной коммерции, стриминговых сервисах и на образовательных платформах.
Александр Милоградский, исследователь рекомендательных систем в Центре искусственного интеллекта Т-Банка:
«По сути, мы взяли инструкцию по сборке алгоритма от оригинальных разработчиков и постарались собрать ее максимально точно. Представьте, что у вас есть руководство, как собрать модель самолета на радиоуправлении, все чертежи и детали. И перед вами уже есть пять готовых моделей, собранных по этому чертежу. Мы создали модель по аналогичному чертежу, а затем, проанализировав влияние различных компонентов на конечный результат, смогли выбрать оптимальные значения для каждого из них. За счет этого наша модель получилась лучше других, уже собранных по тому же чертежу. Летает быстрее, сделана с меньшими недостатками в сборке.
Это подчеркивает распространенную проблему в области рекомендательных систем: зачастую старые модели могут показывать лучшие результаты, чем новые, если уделить достаточно внимания их правильной реализации».
Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline
Исходный код и дополнительные материалы можно найти на GitHub.