Конференция BigDataConf 2018

С опознадием рассказываю о конференции BigDataConf 2018, которая проходила в этом году в Москве 13 сентября. Я выступал с докладом о том, чем сейчас занимаюсь в Банке Точка: поиск компаний, которые занимаются отмыванием денег и другими сомнительными операциями.
В конференции было три трека: бизнес, технический и научный. Я рассказывал на техническом треке. Людей было достаточно много, больше ста человек. Всего в конференции было более 600 участников. Жаль, что на научном треке почти никого не было :-(

Приятно, что был еще один доклад из Екатеринбурга. Михаил Богданов из компании DataData рассказывал о том, как они применяли машинное обучение в цеху 70-х годов.

Самым сложным оказалось правильно собрать данные, т.к. многое было в рукописных журналах. После того, как сбор данных автоматизировали, появилось очередное препятствие: лаборанты записывали данные в неправильное время, нерегулярно и с ошибками, а иногда придумывали показания сами :-) Менеджерам DataData удалось добиться регулярного правильного сбора данных, что позволило получать продукцию нужного качества с помощью старого метода управления технологическим процессом, даже без машинного обучения. С машинным обучением качество оказалось лучше, но специалисты завода не всегда применяют рекомендации машинного обучения, а действуют “по старинке”. Интересный опыт.
Также приятно было видеть доклад от бывшего студента магистратуры матмеха УрФУ Геннадия Штеха. Сейчас он живет в Москве, работает в компании IRELA. Геннадий занимается текстовыми embedding’ами.

Еще среди участников из Екатеринбурга были сотрудники УБРиРа, но доклада они не делали.
Мне понравился доклад Яндекса про антифрод. Оказалось, что большая часть транзакций в Антифроде Яндекса ловится правилами, которые составляют аналитики, и относительно немного передается модели машинного обучения для анализа. Доклад назывался “Антифрод как сервис”, но, к сожалению, на уровень сервиса Яндекс свой антифрод пока не вывел. И вообще непонятно, будут ли делать внешний продукт. Ещё понравился доклад от Национального клирингового центра о том, как они готовят отчетность ЦБ с помощью распределенного кластера Hadoop.
Коллега из Точки, который ходил на бизнес трек, отметил доклад Игоря Балка о проектировании продуктов с помощью анализа трендов по публикациям в соцсетях и других источниках, а также доклад от Интерфакса, в котором, помимо всего прочего, утверждалась что на основе анализа открытых источников данных можно определить, что компания обанкротится в течение года.
В конце конференции был фуршет. Фотка нашей компании из Екатеринбурга:

На мой взгляд, конференция удалась. К сожалению, не могу распространять презентацию, но на RusBase опубликовали статью с тезисами моего доклада. В следующем году планирую поехать снова.

