Роман с Data Science - Роман Зыков

- Автор: Роман Зыков
- Жанр: базы данных, бизнес-стратегии, стартапы и создание бизнеса
- Размещение: фрагмент
- Теги: big data, анализ данных, аналитика, бизнес в Интернете, информационные технологии (IT), искусственный интеллект
- Год: 2021
Роман с Data Science
Второй пример – покупка машины. Когда я в последний раз делал это, то составил целую таблицу в Excel с техническими параметрами машин, вплоть до размера багажника в сантиметрах. Потом я целый год думал, ходил, смотрел, а в результате купил ту, которой и близко не было в моем списке, по велению сердца. Но на самом деле это было не веление сердца – просто за целый год поисков и анализа я понял, что в этом списке было по-настоящему важно для меня, а что нет.
Третий пример из моей профессиональной практики связан с гипотезами, точнее с тестами. Представьте себе, что вы вместо старого алгоритма рекомендаций разработали новый и хотите его протестировать. У вас есть 10 сайтов, где можно выполнить сравнение. В итоге вы получили: 4 выигрыша, 4 ничьи и 2 проигрыша. Стоит ли заменить старый алгоритм на новый? Все зависит от критериев решения, которые сформулировали перед тестом. Новый алгоритм должен победить на всех сайтах? Или вероятность выигрыша должна быть больше вероятности проигрыша? В первом случае очень высока вероятность того, что вы закопаетесь в бесконечных итерациях, «полируя» свой алгоритм до совершенства, особенно учитывая то, что тесты займут не одну неделю. Это типичная ситуация «аналитического паралича». Во втором – условие кажется легким. Хотя из практики скажу, что даже его выполнить бывает очень непросто.
Я считаю, что в решениях нужно идти на осознанный риск, даже если нет всей информации. В наше время, конечно, мир меняется слишком быстро, чтобы иметь роскошь долго делать выбор. Если решение не примете вы, это сделает кто-то за вас, например ваш конкурент.
Погрешности – правило штангенциркуля
Следующая вещь, с которой я столкнулся, – это точность цифр. Я много занимался анализом маркетинговой деятельности, в том числе маркетинговых акций. Моя задача заключалась в том, чтобы как можно более точно оценить их влияние на бизнес. Вообще реакция менеджеров на цифры разная – все радуются положительным результатам, не проверяя их; но когда видят отрицательные – сразу ищут ошибку. И скорее всего, «найдут». Видите ли, все метрики содержат ошибку. Вспомните лабораторные работы по физике в школе или институте, сколько мы мучились и считали погрешности. Системные, случайные… Сколько времени мы тогда тратили на то, чтобы подогнать результат под нужную закономерность?
В бизнесе и науке так делать нельзя, особенно если вы хотите быть хорошим аналитиком и не пользоваться вышеупомянутыми «сравнительно честными способами» повернуть цифры туда, куда нужно. Сейчас погрешность измерений веб-аналитики (системы измеряют посещаемость веб-сайтов) составляет около 5 %. Когда я еще работал в Ozon. ru, погрешность всей аналитической системы тоже была около 5 % (расхождение с данными бухгалтерии). У меня был серьезный случай – я обнаружил ошибку в коммерческой системе веб-аналитики Omniture Sitecatalyst (ныне Adobe Analytics): она не считала пользователей с браузером Opera. В результате погрешность измерений была очень большой – около 10 % всех совершенных заказов система, за которую мы платили более 100 тысяч долларов в год, безнадежно потеряла. С такой погрешностью ей тяжело было доверять – но, к счастью, когда я обнаружил ошибку системы и сообщил о ней в Omniture, их разработчики ее устранили.
При работе с погрешностями я вывел правило, которое называю Правилом штангенциркуля. Есть такой инструмент для измерения размеров деталей с точностью до десятых долей миллиметра. Но такая точность не нужна при измерении, например, размеров кирпича – это уже за пределами здравого смысла, достаточно линейки. Правило штангенциркуля я бы сформулировал так:
Погрешность есть в любых измерениях, этот факт нужно принять, а саму погрешность – зафиксировать и не считать ее ошибкой (в одной из следующих глав я расскажу, как ее мониторить).
Задача аналитика – в разумной мере уменьшить погрешность цифр, объяснить ее и принять как данность. Как правило, в погоне за сверхточностью система усложняется, становится тяжелой с точки зрения вычислений, а значит, и более дорогой – ведь цена изменений становится выше.
Принцип Парето
Итальянский экономист и социолог Вильфредо Парето в 1897 году, исследуя структуру доходов итальянских домохозяйств, выяснил, что 80 % процентов всех их доходов приходится на 20 % из них.
Универсальный принцип, названный в его честь, был предложен в 1951 году, и сейчас принцип Парето звучит так: «20 % усилий дают 80 % результата».
Опираясь на свой опыт, я бы так сформулировал его на языке данных:
• 20 % данных дают 80 % информации (data science);
• 20 % фич или переменных дают 80 % точности модели (machine learning);
• 20 % из числа успешных гипотез дают 80 % совокупного положительного эффекта (тестирование гипотез).
Я почти 20 лет работаю с данными и каждый день убеждаюсь в том, что эта закономерность работает. Это правило лентяя? Только на первый взгляд. Ведь чтобы понять, какие именно 20 % позволят добиться результата, нужно потратить 100 % усилий. Стив Джобс в интервью Business Week в 98-м году сказал: «Простое сделать труднее, чем сложное: вам придется усердно поработать, чтобы внести ясность в ваши мысли, и тогда станет понятно, как сделать проще. Но это стоит того: как только вы достигнете этого, вы сможете свернуть горы».
Приведу пример того, как применяется правило Парето в машинном обучении. Для проекта обычно готовится ряд фич (входных параметров модели), на которых будет тренироваться модель. Фич может получиться очень много. Если выводить такую модель в бой, она будет тяжелой, требовать для своего поддержания много строк программного кода. Для такой ситуации есть лайфхак – посчитать вклад каждой фичи (feature importance) в результирующую модель и выбросить из модели фичи с минимальным вкладом. Это прямое использование правила Парето – 20 % фич дают 80 % результата модели. В большинстве случаев лучше модель упростить, пожертвовав небольшой долей ее точности, при этом проект будет в разы меньше исходного. На практике можно экономить время, подсмотрев фичи в решениях какой-нибудь схожей задачи на kaggle. com. Взять оттуда самые сильные из них и реализовать в первой версии собственного проекта.
Можно ли принимать решения только на основе данных?
Можно, но не всегда и везде. Области, где можно принимать решение только на основе данных, уже захвачены компьютерными алгоритмами. Они не устают и очень хорошо масштабируются. Тот же самый автопилот – уже относительно недалекое будущее: алгоритмы принимают решение на основе данных, поступающих к ним от датчиков, и управляют автомобилем.
Человек – универсальное существо, способное решать множество задач. Если задачу достаточно сузить, то можно сделать алгоритм, который будет работать быстрее тысячи человек. Но в отличие от человека, алгоритм не способен сделать ни шага в сторону от заданной схемы: его придется дорабатывать, внося каждое изменение. В этом и заключается вся суть автоматизации: сделать дешевле, быстрее и без участия человека. Поэтому все так одержимы идеей искусственного интеллекта.
Читать похожие на «Роман с Data Science» книги

Если вы хотите узнать, что думают люди на самом деле, то анализ поисковых запросов и грамотная интерпретация Big Data помогут больше, чем любой соцопрос. Специалист Google рассказывает, что могут, а чего не могут большие данные, почему их стоит опасаться, и приводит множество удивительных выводов о настоящем устройстве общества. Читайте главные умозаключения автора в саммари. Саммари книги «Все лгут» подготовлено совместно с проектом MakeRight. Выбирайте лучшее в мире книг!

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.

Годами и десятилетиями копилось напряжение на Торне. Множились взаимные обиды, заходили в тупик интриги, росли и крепли мстители. Иногда напряжение сбрасывалось в войнах и локальных конфликтах, но всегда были те, кто оставался над схваткой, кто был не фигурой, а Игроком… Всегда, но не сейчас. Ведь когда наступает конец времен, никому не удержаться на краю кровавого безумия. И даже Тьма выступит против Тьмы.

Всепоглощающий пожар неудержимой войны катится по Торну. С мировой карты исчезают города и страны, возвышаются и низвергаются в небытие народы, предают самые надежные из друзей, нанимают убийц вернейшие из союзников. Таков конец времен, такова эпоха пробудившихся Спящих… Эпоха, когда даже Свет восстал против Света!

Мир разрывают склоки, а где-то там, вдали, уже поднимают стяги орды Бездны и готовятся к победному маршу ее легионы. Наступает жуткое время… время катастроф, предательств, злой магии и кровопролитных битв. Время власти силы. И да помогут боги судьбы тем, кто встретит его без страха в глазах и с надеждой в сердце! И да не оставит их Владыка в тяжелую минуту…

Великая смута захлестнула Торн. Расторгаются многовековые союзы, соседи идут друг на друга войной, недавние друзья бьют в спину. Даже величайшие из великих и те оказываются под ударом давно и прочно забытых врагов. Мир вступил в эпоху страшных потрясений… Но когда на ветру полощется знамя пророчества и сидит на драконьем троне носитель трех цветов магии, не стоит бояться грядущего.

Суров и жесток Торн. Когда разрываются старые договоры, нарушаются древние законы, а недавние союзники становятся врагами, нет места для жалости. Пламя новой войны поднимается над миром… Страшное время, но, если хочешь не просто выжить, а стать кем-то большим, чем гонимый всеми беглец, бей первым. Тогда эльфы, гномы, Истинные маги, драконы, демоны и некроманты в какой-то миг станут пешками в игре по заданным тобой правилам. Победа достанется сильнейшему, а Сардуор обретет своего Владыку.

Власть над Торном манит многих. Выходят из лесов Светлые и Темные эльфы, бороздят воздушные океаны флотилии Нолда, а некроманты Тлантоса взывают к Тьме… Наступает смутное время, и вот уже звенят клинки в подземных городах гномов, а демоны Бездны штурмуют города беззащитных смертных. В мире, где на ветру развевается знамя пророчества, никто не сможет остаться над схваткой!

Ветры перемен продолжают набирать силу над многострадальным Торном. Легендарные артефакты всплывают из небытия, правители становятся игрушками в руках тайных обществ, а сильные мира сего в очередной раз оказываются на пороге новой Великой войны… Последней войны в этом мире! И вновь звенят клинки, сотрясают земли Торна битвы чародеев, а в ночи беззвучно скользят тени наемных убийц. Борьба за жизнь, свободу и счастье продолжается!

Стар мир Торна, очень стар! Под безжалостным ветром времени исчезали цивилизации, низвергались в бездну великие расы… Новые народы магией и мечом утвердили свой порядок. Установилось Равновесие. В этот период на Торн не по своей воле попадают несколько землян. И заколебалась чаша весов, зашевелились последователи забытых культов, встрепенулись недовольные властью, зазвучали слова древних пророчеств, а спецслужбы затеяли новую игру… Над всем этим стоят кукловоды, безразличные к судьбе горстки