Дмитрий Мишкин: Мусор на входе – мусор на выходе

Известный IT-эксперт Дмитрий Мишкин попытался построить модель надежности украинских банков с помощью методов машинного обучения на базе открытых данных НБУ. Данные оказались не вполне открыты.
Дмитрий Мишкин

Началось с того, что в Вокс Юкрейн вышла статья о том, как они обучали такую модель (модель надежности на основе методов машинного обучения – Ред.). Их методика вызвала у меня вопросы размером с пару «Мрий» (который самолет). Забегая вперед, скажу, что у меня с моей моделью ничего пока не вышло – и отнюдь не потому, что я был недостаточно прилежен или модель была плоха. Причина – в за/открытости данных. Судите сами.

Читай также: Рейтинг самых надежных банков во II квартале 2017 года

Пошел я на ... сайт НБУ (https://bank.gov.ua/control/uk/publish/article?art_id=34661442) и скачал больше двадцати отчетов, каждый из пяти частей – всего сотня таблиц. Первое, что меня насторожило – все в эксельках, нет удобного машинно-читаемого формата csv. Ладно, это поправимо, можно сконвертировать, благо есть автоконвертеры.

Тут меня поджидал второй сюрприз – несколько разных по содержанию колонок с одинаковым названием: «у тому числі в іноземній валюті». То есть, чтобы правильно интерпретировать данные, нужно знать не только название колонки, но и название предыдущей колонки или нескольких. Но и это еще не всё – часть колонок объединены каким-то подзаголовком, который тоже нужно принять во внимание.

Хорошо, я написал скрипт, который учитывает и это.

Все это я проделал только для того, чтобы обнаружить, что формат и содержание отчетов (упс!) в разные периоды – разные. Соответственно, для каждого периода нужно писать свой вариант обработчика. Затем как-то объединить данные в одну структуру, если мы хотим анализировать отчеты за несколько кварталов или лет.

И это мы еще не приступали к собственно обработке данных. О том, что показатели и методики  расчета содержимого таблиц менялись, я вообще молчу.

Читай также: Рейтинг надежности банков-2017

В результате все окончилось на том, что я как-то слепил все отчеты вместе, не факт, что корректно, и выложил код в интернет. На поиск ошибок и, собственно анализ, запала уже не хватило. Возможно, на то и был расчет уважаемых создателей отчетов?

Допустим, вы хотите запустить бумажный самолетик. Вы берете пачку листов бумаги и начинаете складывать самолетики. Каждый может легко это сделать, поэтому в мире очень много бумажных самолетиков.

Теперь представьте, что сначала вам нужно собрать тростник, разрезать его, вымочить, спрессовать и высушить. Вы все еще хотите запускать самолётик?

Примерно так же работает прогресс, в частности, в машинном обучении. Активнее всего развиваются те области, в которых меньше всего преград. Например, машины распознают английский язык значительно лучше украинского не только из-за того, что английский востребованней. Но и потому, что кто угодно в два клика может скачать десятки разных корпусов английских слов и начать экспериментировать с алгоритмами. Вся подготовительная работа уже проведена за вас. А в случае украинского – выбор беднее, подготовительной работы больше. Так что исследователь, будь он из Рима, Киева или Пекина, скорее будет работать с английскими данными, тем самым усугубляя разрыв.

Есть два простых принципа. Первый: чем больше компонентов в системе, тем выше вероятность ошибки или проблем.

Второй: «мусор на входе – мусор на выходе». Даже если у нас есть идеальный алгоритм (а его нет) обработки данных, но мы вводим в него ошибочные данные (например, перепутали валюту) или прибыль с убытками, то на результат можно даже не смотреть.

Читай также: Рейтинг надежности банков-2017

Собственно, до результата я так и не дошел – надоело писать конверторы и обработчики, а потом искать ошибки в исходных материалах. Как для хобби слишком много нудной и дурной работы.

Если это и есть цель, с которой эти отчеты выкладываются – чтобы люди попробовали и бросили, то поздравляю. Если же отчеты загружают для того, чтобы можно было проанализировать состояние банковской системы, желательно, автоматически с помощью искусственного интеллекта, то у меня для клиентов банков плохие новости.

Украинский эксперт в области искусственного интеллекта и машинного обучения, аспирант Чешского технического университета в области машинного обучения и компьютерного зрения. Сооснователь компании Clear Research, преподаватель курса компьютерного зрения в Украинском католическом университете (Львов).

Текст является личной точкой зрения автора.

Читайте полную версию статьи в журнале “Деньги“ № 17 от 14 сентября 2017 года. Номер можно купить онлайн.

Придбати журнал “Гроші“ № 17 від 14 вересня 2017 року українською мовою.

Поделись:
Статьи по теме
Наверх