Общение с Алисой стало ещё более живым и похожим на разговор с человеком. Благодаря технологии эмоционального синтеза она научилась выражать голосом целый спектр эмоций. Например, она может подбодрить, посочувствовать или порадоваться за пользователя. Новая возможность уже доступна в Станциях Лайт 2 и позже появится в других умных устройствах Яндекса.
Алиса научилась передавать голосом такие эмоции, как дружелюбие, любопытство, удивление, сочувствие, обиду и грусть. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для неё нейросеть YandexGPT. При этом Алиса способна менять оттенки эмоций в рамках одной реплики, как это делают люди. Например, если рассказать Алисе о чём-нибудь необычном, она выразит удивление, а потом сменит интонацию на более спокойную.
Для обучения Алисы записали около четырёх часов речи с разными эмоциями. На основе этих данных разработчики создали нейросетевую модель, которая синтезирует эмоционально окрашенную речь. Затем собрали примеры диалогов Алисы с пользователями и разметили, какая эмоция уместна в том или ином случае. Эти данные помогли разработать модель, которая выбирает эмоцию для каждой реплики Алисы. Послушать примеры интонаций Алисы можно здесь, а почитать о технологии — на Хабре.
Алиса с самого начала создавалась как персонаж со своим характером и чувством юмора, что делало её похожей на человека. В 2021 году виртуальный ассистент научился общаться шёпотом, а также синтезировать радостный, бодрый и спокойный голос. Например, утреннее шоу Алиса ведёт бодрым голосом, а переводит зарубежное видео — спокойным. Теперь в арсенале Алисы много самых разных эмоций.