Вместо камня долбим данные и строим храм

1115
Алексей Благирев директор по развитию систем аналитики и отчетности, Банк «Открытие»

В любое время люди занимались тем, что производили полезные вещи из сопутствующих материалов. Из пшеницы пекли хлеб, из камня строили храмы, из железа, металла и дерева строили суда и самолеты, которые отвозили людей в самые разные места.

Сегодня ко всему этому добавляется новый материал – данные.

Мы живем в мире, где общение с пользователем ограничено через цифровую призму, в которой никогда не увидишь своего клиента вживую. Время транзакции мало и с каждым годом стремится к значениям в тысячные доли секунды. За них организация успевает собрать минимальный набор информации о покупке, пользователе, который ее совершил, и т.д.

И это все, что есть у организации про своего потребителя. Здесь начинаешь понимать, что успех бизнеса уже больше не зависит только от того, насколько хорошо улыбаются менеджеры на фронт-деске или как они внимательно слушают своего комитента.

Более 211 ТБ в секунду вещал мир в 2014 году, согласно оценкам McKinsey. Сегодня 2016 год, и скорость будет только увеличиваться.

Анализ потребностей клиента уже опирается на аналитические модели, от точности которых зависит уровень предлагаемого сервиса, размер получаемого организацией дохода и вернется ли снова клиент, и все это происходит «вслепую», ни разу его, не встретив в реальности.

Данные становятся основой, рычагом взаимодействия организации с окружающей реальностью. Подавляющее большинство предоставляемых услуг строится на данных, и их развитие напрямую зависит от экосистемы и отношения к сбору и хранению данных.

Отгородиться вряд ли получится, работа с данными отныне включает не только конкурентное преимущество, но и надзорные требования, независимо от отрасли (например, обработку и хранение персональных данных).

С другой стороны, одной киркой теперь не обойдешься.

Данные в моменте – это всегда гремучая смесь из ошибок, опечаток, непоследовательных решений, недостатка визионерства и экономии.

Ошибки порождаются неточностью постановки к реализации, неаккуратностью и неряшливостью разработчиков, банальностью, нежеланием разбираться в процессах и наследием реальности, когда мир был другим, и это все было приемлемо и не нужно.

Даже самое простое – определение значений по умолчанию (так называемым дефолтовые) – дается на откуп разработчику. Но это то, что может увидеть пользователь, если просто не найдется подходящих данных на его запрос. При этом вопрос, что именно показывать – «-1» или «Нет данных», – определяет решимость владельца конечного сервиса для клиентов. Так, один владелец процесса покажет одно значение, другой – другое, а при этом аналитик, выполняющий исследования для обоих, столкнется с ситуацией, когда значение по умолчанию отличается для одних и те же понятий.

Из таких мелочей начинает складываться общая картинка, которая будет либо помойкой, либо полезным инструментом для развития бизнеса. Все связано со всем, и никак иначе.

Если пользователь допускает возможность неточности при вводе данных на фронте (например, указать некорректный номер и серию паспорта при заведении заявки на кредит), то создается определенный риск. Некорректный номер и серия паспорта по случайному стечению обстоятельств могут быть реальными и принадлежать другому клиенту. Так, существует возможность, что финансовая организация может одобрить кредит, используя данные, которые не принадлежат конкретному заемщику. И если впоследствии получатель денежных средств начнет нарушать график обратных выплат и допускать просрочку платежей, он таким образом будет ухудшать кредитную историю и положение чужого человека, потому что финансовая организация сообщает о просрочках БКИ, используя паспортные данные.

Регистрируя нового клиента, можно упустить совершенно незначительные вещи, такие как год рождения, СНИЛС или ИНН. 

С другой стороны, полное сочетание ФИО не гарантирует, что организация не наткнется при анализе клиентов на однофамильца, и единственная возможность их различить будет проверка по ИНН, СНИЛС и дате рождения.

Некоторые отрасли вообще не интересуются уникальностью своих фолловеров, многие из которых вообще могут быть ботами, но взаимодействие с этими ботами не даст бизнесу никакой прибыли.

Допуская такую толерантность, организация постепенно игнорирует доказанную временем концепцию «Разбитые окна», сформулированную американскими социологами Джеймсом Уилсоном и Джорджем Келлингом. которая утверждает, что мелкие правонарушения ведут к деградации общества и повышению его криминогенности. Выстраивание параллелей между незначительными преступлениями и небрежностью по отношению к экологии данных помогает определить, что в последнем случае наступает деградация в информационном ландшафте организации, которая позднее потребует серьезных вливаний средств.

Данные – скоропортящийся продукт, и если их испортили, то восстановить аналитическим путем довольно сложно, т.к.велика погрешность, что воспроизводимые данные вместо ошибок исказят их первоначальное состояние. Таким образом, есть только одна возможность – всегда делать свою работу хорошо.

Другой стороной проблемы является отсутствие визионерства при работе с таким сложным и сильно изменяющимся материалом. 

Возможность увидеть перспективу от самого начала и до точки интерактивности с клиентом обычно влечет за собой сверхзатраты, которые в моменте не обязательно могут относиться к решаемой задаче. Поэтому их всегда оставляют напоследок, а порой вовсе игнорируют.

Они никому непонятны и избыточны для решения конкретной задачи. А визионерство требует погружения сразу в несколько функций, преодолевая внутренние трения и коммуникации.

Но именно эта перспектива позволяет увидеть скрытые возможности использования или риски, которые, наступив, могут принести организации существенные убытки.

Опускаясь на уровень ниже – физической реализации, можно отметить, что за последнее время организации для управления данными «покупали» различные «серебряные пули», такие как единая модель предприятия (EDM), единое хранилище данных (EDW) и теперь концепция DataLake.

Основное заблуждение кроется в том, что, создав единое пространство, можно научить сотрудников разных подразделений (риски, финансы, бизнес, маркетинг) разговаривать на одном языке. Этого не произошло со времен падения Вавилонской башни, но почему-то непременно должно произойти при использовании той или иной «серебряной пули».

Существующий рынок решений по аналитике так или иначе разделяет модели данных для тех или иных функций. Это разделение появилось не случайно. Простое наблюдение за тем, как обстоят бизнес-процессы, позволяет понять, что финансы оперируют исключительно теми понятиями, которые входят в специфику бизнес-процесса выпуска финансовой отчетности МСФО или иных стандартов. Риски используют исключительные термины и модели, которые не встречаются в других бизнес-функциях, т.к. помогают решить конкретные проблемы с корректным измерением уровня риск-профиля и риск-аппетита организации.

Маркетинг в использовании нестандартных шаблонов и паттернов всегда первый, оперирует понятиями, которые могут опережать не только организацию, но и рынок.

Успех каждой функции в отдельности кроется в том, что для корректного расчета аналитических значений, имеющих значение для владельца процесса, таких как вероятность дефолта (PD) для рисков, ценность клиента (LTV) для бизнеса или справедливая стоимость финансовых инструментов для финансов, требуется наличие определенного исторического диапазона данных. И этот исторический диапазон будет храниться в той терминологии, которая понятна и используется в конкретном бизнес-процессе.

Бизнес-процесс – как отдельное государство. В условиях сильно изменяющихся внешних конъектурных факторов внутренняя гибкость выступает единственным эффективным средством, чтобы быстро отвечать изменениям во внешней бизнес-среде, новым рискам или новым трендам и тенденциям.

Означает ли это, что единого стандарта по управлению данными не существует?

Ключ к ответу на этот непростой вопрос находится в плоскости интеграции данных. Очевидно, что для обеспечения гибкости и прозрачности передачи данных от одних источников к другим достаточно определиться с соответствием одних понятий другим. Соответствие достаточно построить разово и осмысленно, однако также можно прибегнуть к машинными методам, применяя семантический анализ к внутренним словарям систем и сопоставляя синонимами словари приемников. Так организация получает репозиторий соответствий одних понятий и терминов другим. Но эффективность достигается на уровне, когда соответствие строится на более глубоком уровне, чем описание структуры данных – с использованием метаданных.

Метаданные – это данные о данных, которые раскрывают содержание используемого понятия. Именно они помогают отобрать необходимый контент по ключевым словам в общем массиве информации. Но этот инструмент и логика может быть использована для построения внутреннего информационного обмена в организации, достаточно, чтобы метаданные были осмысленны и понятны пользователям. Так пространство понятий и терминов будет неразрывно связано на уровне систем с самими данными – материалом, который будут долбить каждое из подразделений.

Согласно исследованию Experian, компании, инвестирующие в централизацию функции управления данными, получают более высокий уровень доходов по сравнению со своими конкурентами на среднесрочном горизонте. Мир постепенно входит в цикл смены приоритетов в пользу устойчивого долгосрочного развития.

Данные – это не только про технологии. Данные – это про людей, это отражение окружающей действительности и ДНК внутренней культуры организации.

Именно люди разрабатывают правила и проектируют те системы, где данные, словно вода, текут и собираются в колодцы, из которых либо можно пить, либо нет.

ПОДЕЛИСЬ С ДРУЗЬЯМИ: