Первый взгляд аналитика на работу с Peraspera Data Hunter

На кого охотится Peraspera Data Hunter?

Много лет занимаюсь построением статистических моделей и анализом всевозможных данных. Для этого очень важно получать как можно больше различной информации: тогда модели точнее. Не менее важно получать данные из самых разных источников: это обогащает взгляд исследователя. Data Hunter (ну, будем называть его по-русски — Дата Хантер) — это та система, которая позволяет мне управлять сбором данных из открытых источников, и которую я могу настраивать под свои задачи. Почему в названии написала «Peraspera Data Hunter», спросите вы? Все очень просто: Data Hunter – часть нашей платформы Peraspera, в которую входит много удивительных помощников, делая жизнь аналитиков легче и интереснее. Так что я теперь – настоящий охотник за данными, и в моих руках уникальный инструмент, позволяющий легко добывать больше данных с меньшими затратами. Мы с Дата Хантером – большая сила. Мы понимаем, каким образом собираются данные из каких источников и насколько успешно проходит этот сбор. То есть, мы понимаем, можно ли собранные данные обрабатывать дальше или надо поискать и собрать эти данные по-другому.

Именно возможность реализовать свои аналитические хотелки быстро, без всякого программирования создавая разные краулеры и отправляя их на охоту как свору натасканных на определенного зверя охотничьих собак, и отличает эту систему от обычного программирования на том или ином модном языке, используемом в работе аналитика данных. Уж слишком много времени при использовании, например, Python проходит от момента определения нужных источников данных до получения нужного результата, да и язык программирования изучать надо, и знания для настройки параметров поиска и сбора нужны совсем другие.

Дата Хантером я впервые воспользовалась для поиска информации о некоторых персонах из предоставленного мне списка. Инструмент новый, поэтому поначалу чувствовала себя не очень уверенно, впервые выступая в роли тестировщика, хоть и не по своей воле. Но попробовать свежеразработанный Дата Хантер в бою очень хотелось. Администратор помог подключить краулеры, а я уже их настраивала, указывала, что надо искать. Так, сначала выполнила поиск по жестким критериям совпадения (телефон и фамилия), благо язык SQL-запросов достаточно прост, а потом провела поиск только по одному параметру, изменив запрос. Надо сказать, что ничего сложного в этом не было.

Искать надо было сразу в нескольких источниках: поисковиках и базах, к которым у нашей компании есть официальный доступ. Большинство поисковых платформ, которые я тестировала, либо работают с определёнными внешними источниками, либо только с внутренними данными. А тут мало того, что есть возможность совместить поиск по нескольким внешним источникам, так ещё можно сразу же подключать внутренние источники, которые мне нужны. Для этого разработано большое количество различных параметров и настроек, позволяющих легко задавать поисковые запросы и объединять их в логические группы.

Скоро приступаю к новому проекту, где мне впервые понадобится новый источник данных. Теперь знаю, что для его подключения мне понадобится помощь программиста и администратора, которые под мои нужды создадут соответствующий краулер или спайдер, и запустят их. Хотя работа не быстрая, но она дает возможность расширять набор подключенных к моему охотнику источников и обновлять их, т.е. охотничьи угодья безграничны. Сейчас вот жду возможности поисследовать портал открытых данных торгов по банкротству, может скоро и там можно будет поохотиться.

Чуть подробнее о настройках и интерфейсе, ведь всегда интересно заглянуть поглубже. Поделюсь своими впечатлениями.

Сейчас, на первом этапе появления Дата Хантера, мне пришлось пройти некоторое обучение и получить информацию от Администратора о том, какие краулеры уже подключены, какие из них мне нужны и что они умеют делать. Заодно пришлось понять структуру внутренних баз данных. Пока для общения с администратором пришлось идти проверенным путем: использовать нашу корпоративную систему взаимодействия. Но очень скоро появится внутренняя охотничья диалоговая система. Без нее никак, ведь администратор — важный человек в этой работе, хранитель ценных знаний.

Отдельная история – термины, используемые в процессе охоты. Да, у нас у охотников есть свой язык. Есть термины общего характера, а есть чисто наши, охотничьи, специальные. Поэтому потребовалось изучать инструкцию, руководство пользователя и сборник терминов и определений, который сами же коллективно и создавали. Парадокс? Вовсе нет. Когда создаешь новый продукт всегда происходит или появляется что-то впервые: новые названия, новые практики, новые роли. Кому как повезет. Было много споров, в которых пришлось поучаствовать и мне. Просто в моем проекте появились никем неопознанные звери в виде отдельно стоящих терминов, с которыми пришлось побороться. Теперь все хорошо, но я понимаю, что такая работа имеет все шансы не заканчиваться никогда. Развивается охотник, растут и его запросы. Кто знает, что мы еще придумаем?

Чем я уже пользовалась? На текущий момент во время выполнения задачи поиска по персонам я воспользовалась настройками для создания краулеров, постановки задач, запуска задания по расписанию и получения конечного результата сбора данных, которые выгрузила в эксель.

Что потом? Чего не хватило, что было не очень удобно. Поделюсь.

Мне хотелось бы видеть справочник, где были бы перечислены все доступные краулеры, все источники данных, структура всех доступных баз данных. Тогда смогу лучше понимать, что у меня в руках для успешной охоты.

А пока без помощи администратора никуда. Ещё хотелось бы воспользоваться Дата Хантером для решения принципиально другой задачи: поиск не по персонам, а по предприятиям, или по государственным учреждениям. Мне кажется, что перспектива использования открытых данных в аналитических моделях — как раз в разработке независимых систем мониторинга в тех случаях, когда есть много поднадзорных объектов, и необходимо проверить достоверность предоставляемых ими сведений. Хочется поохотиться на более крупную дичь, тем более что это – тема моей диссертации, которую я недавно успешно защитила.

Только тогда Дата Хантера еще не было…

Автор статьи: Людмила Жукова, бизнес-аналитик, кандидат экономических наук.

Все посты

Поделиться