Роман с Data Science - Роман Зыков

- Автор: Роман Зыков
- Жанр: базы данных, бизнес-стратегии, стартапы и создание бизнеса
- Размещение: фрагмент
- Теги: big data, анализ данных, аналитика, бизнес в Интернете, информационные технологии (IT), искусственный интеллект
- Год: 2021
Роман с Data Science
Гипотезы и инсайты
Инсайт (insight) в переводе с английского – понимание причин. Именно за этим обращаются к аналитикам. В поиске инсайтов помогают аналитика и статистика:
• Цель аналитики заключается [10] в помощи формулирования гипотезы.
• Цель статистики [10] в том, чтобы эту гипотезу проверить и подтвердить.
Это требует пояснений. В бизнесе, да и в жизни тоже, мы ищем причину проблемы, задавая вопрос «почему? ». Не зная причины, мы не можем принять решение. В игру вступает аналитика – мы формулируем список возможных причин: это и есть гипотезы. Чтобы это сделать, нужно задать несколько вопросов:
• Не происходило ли что-нибудь подобное раньше? Если да, то какие тому были причины? Тогда у нас будет самая первая и самая вероятная гипотеза.
• Обращаемся к бизнес-контексту: не происходило ли каких-либо неординарных событий? Часто как раз параллельные события влияют на возникновение проблемы. Еще плюс пара гипотез.
• Описательный анализ данных (exploratory data analysis): смотрим данные в аналитической системе (например, кубах OLAP), не видно ли каких-либо аномалий на глаз? Например, какие-либо распределения изменились во времени (типы клиентов, структура продаж и т. д. ). Если что-то показалось подозрительным – дополняем список гипотез.
• Использование более сложных методов поиска аномалий или изменений, например, как описано здесь [11].
Наша цель – накидать как можно больше гипотез, не ограничивая фантазию, затем отсортировать их по списку в порядке убывания вероятности, чтобы найти верную гипотезу как можно быстрее. Или даже воспользоваться бритвой Оккама, выстроив гипотезы по возрастанию сложности проверки. Иначе можно столкнуться с аналитическим параличом: превратить задачу в научную работу, когда проверяются все гипотезы без исключения. Такого в реальной жизни не бывает, у нас всегда есть ограничения в ресурсах – как минимум во времени. Как только гипотезы готовы, приходит очередь статистики, с помощью методов которой они проверяются. Как это сделать – расскажу в главе про эксперименты в ML.
Когда я был директором по аналитике Retail Rocket (сервис рекомендаций для интернет-магазинов), мне и аналитикам часто приходилось заниматься расследованиями, ведь бизнес довольно большой – больше 1000 клиентов, и странности, с которыми приходится разбираться, случаются часто. Много приходится работать с так называемыми А/Б-тестами: это тесты, где аудитория сайта делится на две части случайным образом – первой части пользователей показывается одна версия сайта, второй – другая. Такие тесты обычно используют, чтобы оценить влияние изменений на бизнес-метрики сайта, когда первая версия – это старая версия или контрольная группа, а вторая – новая версия. Если это интернет-магазин – это, скорее всего, будут продажи. Далее к результатам теста применяются статистические критерии, которые подскажут достоверность изменений.
Такие тесты хорошо выявляют проблемы: например, версия сайта с обновленными рекомендациями Retail Rocket проиграла старой версии рекомендаций. Как только это становится известным, начинается расследование. Проверка начинается с интеграции, и это первая гипотеза: правильно ли передаются нам данные от интернет-магазина. Обычно на этом этапе решается 60–70 % проблем. Далее мы пытаемся найти отличие этого магазина от остальных в такой же тематике, например магазины одежды. Это вторая гипотеза. Третья гипотеза – возможно, мы изменили дизайн сайта таким образом, что полезная информация опустилась ниже на странице сайта. Четвертая гипотеза – тест мог отрицательно повлиять на определенные категории товаров. Собрав набор таких гипотез, мы начинаем их проверять примерно в такой последовательности, как я описал. Довольно часто мы находим причину проблем, но иногда это не удается, его величество случай играет с нами в кошки-мышки, и эту мышку очень сложно найти.
Однажды клиент – магазин «Дочки-Cыночки» – тестировал наш сервис и сервис одного из наших российских конкурентов, чтобы выбрать лучший, и это превратилось в настоящий детектив [12]. Чтобы точно не проиграть в тесте, конкурент перемещал некоторое число пользователей, которые были близки к покупке, (например, добавили товар в корзину) из конкурентных (наших) сегментов в свой – причем делалось это не на постоянной основе, а в отдельные дни и часы. Основной метрикой сравнения была конверсия: процент пользователей, совершивших покупку. Ясно, что в той «мошеннической схеме» такой процент будет выше там, куда перетянули пользователей. Здесь компания Retail Rocket пошла на принцип! Мы стали копать. Через два месяца были обнаружены и опубликованы [12] факты подтасовки результатов. В итоге прошел ряд судебных процессов, и справедливость восторжествовала.
Отчеты, дашборды и метрики
Понятие самого отчета очень широкое, здесь я подразумеваю под ним табличное или иное графическое представление данных. Отчеты могут быть разными:
• Просто таблица с «сырыми» данными или так называемые «выгрузки», например, таблица с заказами клиентов.
• Отчет с «агрегированными» данными. Под агрегацией я подразумеваю суммы, количество и иные статистики. Например, таблица с именами клиентов и количеством заказов, который каждый из них совершил.
• Дашборды (dashboards) содержат ключевые показатели и метрики.
Первые два относительно просты и делаются через специальные системы, которые могут генерировать отчеты по запросу. Я стараюсь максимально оставить эту задачу на откуп пользователям. Почему? Потому, что тратить на это время высококвалифицированных сотрудников – значит стрелять из пушки по воробьям. Кстати, этим могут заняться стажеры-аналитики – отличный способ наработать опыт и понять бизнес-контекст. Как мотивировать пользователей стараться самостоятельно? Во-первых, они сэкономят время, которое обычно тратят на постановку задачи и ожидание результата. Во-вторых, получат возможность самим вносить правки и изменения – а значит творить. По моему опыту, обычно этим занимаются очень перспективные сотрудники, которые не бояться освоить новый инструмент, чтобы делать свою работу лучше. Остальным придется пройти через стандартный цикл планирования задач: а это время (дни, а иногда недели) и очень четкая формулировка технического задания. И кстати, все генеральные директора (Ozon. ru, Wikimart. ru, Ostrovok), с которыми я работал, пользовались OLAP-кубами со своих компьютеров. С их помощью они всегда могли ответить на простые вопросы, а если не получалось – обращались к аналитикам.
Теперь взглянем на дашборды и начнем с определения из Википедии:
«Дашборд – это тип графического интерфейса, который делает возможным быструю оценку ключевых показателей для конкретной цели или бизнес-процесса. Часто подразумевается, что это просто другое название отчета о прогрессе или просто отчета».
Как правило, дашборд состоит из ключевых показателей и метрик, выраженных с помощью графических инструментов (графики, диаграммы и т. д. ):
• Ключевой показатель (key performance indicator, KPI) – это индикатор, который показывает, насколько далеко мы находимся от цели, например отставание/опережение плана.
Читать похожие на «Роман с Data Science» книги

Если вы хотите узнать, что думают люди на самом деле, то анализ поисковых запросов и грамотная интерпретация Big Data помогут больше, чем любой соцопрос. Специалист Google рассказывает, что могут, а чего не могут большие данные, почему их стоит опасаться, и приводит множество удивительных выводов о настоящем устройстве общества. Читайте главные умозаключения автора в саммари. Саммари книги «Все лгут» подготовлено совместно с проектом MakeRight. Выбирайте лучшее в мире книг!

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.

Годами и десятилетиями копилось напряжение на Торне. Множились взаимные обиды, заходили в тупик интриги, росли и крепли мстители. Иногда напряжение сбрасывалось в войнах и локальных конфликтах, но всегда были те, кто оставался над схваткой, кто был не фигурой, а Игроком… Всегда, но не сейчас. Ведь когда наступает конец времен, никому не удержаться на краю кровавого безумия. И даже Тьма выступит против Тьмы.

Всепоглощающий пожар неудержимой войны катится по Торну. С мировой карты исчезают города и страны, возвышаются и низвергаются в небытие народы, предают самые надежные из друзей, нанимают убийц вернейшие из союзников. Таков конец времен, такова эпоха пробудившихся Спящих… Эпоха, когда даже Свет восстал против Света!

Мир разрывают склоки, а где-то там, вдали, уже поднимают стяги орды Бездны и готовятся к победному маршу ее легионы. Наступает жуткое время… время катастроф, предательств, злой магии и кровопролитных битв. Время власти силы. И да помогут боги судьбы тем, кто встретит его без страха в глазах и с надеждой в сердце! И да не оставит их Владыка в тяжелую минуту…

Великая смута захлестнула Торн. Расторгаются многовековые союзы, соседи идут друг на друга войной, недавние друзья бьют в спину. Даже величайшие из великих и те оказываются под ударом давно и прочно забытых врагов. Мир вступил в эпоху страшных потрясений… Но когда на ветру полощется знамя пророчества и сидит на драконьем троне носитель трех цветов магии, не стоит бояться грядущего.

Суров и жесток Торн. Когда разрываются старые договоры, нарушаются древние законы, а недавние союзники становятся врагами, нет места для жалости. Пламя новой войны поднимается над миром… Страшное время, но, если хочешь не просто выжить, а стать кем-то большим, чем гонимый всеми беглец, бей первым. Тогда эльфы, гномы, Истинные маги, драконы, демоны и некроманты в какой-то миг станут пешками в игре по заданным тобой правилам. Победа достанется сильнейшему, а Сардуор обретет своего Владыку.

Власть над Торном манит многих. Выходят из лесов Светлые и Темные эльфы, бороздят воздушные океаны флотилии Нолда, а некроманты Тлантоса взывают к Тьме… Наступает смутное время, и вот уже звенят клинки в подземных городах гномов, а демоны Бездны штурмуют города беззащитных смертных. В мире, где на ветру развевается знамя пророчества, никто не сможет остаться над схваткой!

Ветры перемен продолжают набирать силу над многострадальным Торном. Легендарные артефакты всплывают из небытия, правители становятся игрушками в руках тайных обществ, а сильные мира сего в очередной раз оказываются на пороге новой Великой войны… Последней войны в этом мире! И вновь звенят клинки, сотрясают земли Торна битвы чародеев, а в ночи беззвучно скользят тени наемных убийц. Борьба за жизнь, свободу и счастье продолжается!

Стар мир Торна, очень стар! Под безжалостным ветром времени исчезали цивилизации, низвергались в бездну великие расы… Новые народы магией и мечом утвердили свой порядок. Установилось Равновесие. В этот период на Торн не по своей воле попадают несколько землян. И заколебалась чаша весов, зашевелились последователи забытых культов, встрепенулись недовольные властью, зазвучали слова древних пророчеств, а спецслужбы затеяли новую игру… Над всем этим стоят кукловоды, безразличные к судьбе горстки