Темные данные

Страница 4

Вроде бы собираются все данные. Иначе говоря, в базу попадают данные не по некоторым транзакциям или некоторым купленным товарам, а по всем транзакциям, совершенным всеми покупателями, и по всем товарам в конкретном супермаркете. Такие данные еще называют исчерпывающими.

Однако так ли это? Ведь собранные данные описывают то, что произошло на прошлой неделе или в прошлом месяце. Конечно, польза от них несомненна, но если мы управляем супермаркетом, то, вероятно, нам будет интересно, что произойдет завтра, на следующей неделе или через месяц. Мы бы хотели знать, кто, что, когда и сколько купит в будущем. Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные DD-тип 7: данные, меняющиеся со временем.

Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы работы супермаркета. Такие данные называются контрфактуальными, поскольку они противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто, чего на самом деле не происходило. Контрфактуальные данные классифицируются как DD-тип 6: данные, которые могли бы существовать.

Излишне говорить, что контрфактуальные данные интересуют не только менеджеров супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем врачу, который их прописал, предполагая, что лекарства прошли тестирование и были признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они вообще? Вдруг они делают только хуже? А если они даже и были протестированы и рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и применение порошка. (А это, в свою очередь, может привести к следующему, не менее полезному выводу, что никаких слонов, которых надо отпугивать, просто нет. )

Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например, свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее всего, будет немного другим, особенно если попытаться измерить его с точностью до грамма. Никакие физические измерения нельзя считать абсолютно точными в результате погрешностей или случайных колебаний, возникающих вследствие очень незначительных изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все» измерения. В этом контексте просто не существует понятия «все», а значит, не существует и исчерпывающих данных.

Следующий тип темных данных хорошо иллюстрируется примером знаменитых лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся противоречие? Кто-то манипулирует цифрами?

Немного поразмыслив, вы поймете, что ответ довольно прост – в основном мы попадаем в автобусы в часы пик, именно поэтому они и набиты битком. Вот почему большинство людей видит автобусы переполненными. В то же время о пустом автобусе будет просто некому сообщить, что он пуст (разумеется, не считая водителя). Этот пример иллюстрирует темные данные DD-тип 3: выборочные факты. Иногда, впрочем, это может быть необходимым следствием сбора данных, и в таком случае мы получаем DD-тип 4: самоотбор. Я приведу два моих любимых примера, похожих и в то же время несопоставимых по своему масштабу.

Первый – известная карикатура, на которой изображен человек, стоящий перед большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с надписью «Вы здесь». «Как? ! – думает потрясенный человек. – Как они узнали это? » Они узнали, потому что отталкивались от простого факта, что каждый, кто смотрит на эту красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень узкой выборкой, отсекающей всех, кто находится в другом месте.

Данные могут быть собраны, только если имеется кто-то или что-то для их сбора, например измерительный прибор. Второй пример самоотбора связан с антропным принципом, который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из разных вселенных по одной простой причине – мы там не были. Это означает, что любые выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее, вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить масса всего, о чем мы не знаем.

Из этого примера наука может извлечь для себя важный урок. Теория может идеально согласовываться с данными, но сами данные имеют ограничения. И это относится не только к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть вероятность того, что она окажется недействительной. Экономические теории, основанные на данных, собранных в период процветания, часто оказываются несостоятельными во время рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных данных DD-тип 15: экстраполяция за пределы ваших данных.

У меня есть классная футболка от сайта веб-комиксов xkcd. com (http: //xkcd. com/), на которой общаются два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый отвечает: «Возможно, но не факт» [7 - http: //archive. defense. gov/Transcripts/Transcript. aspx? TranscriptID=2636 (http: //archive. defense. gov/Transcripts/Transcript. aspx? TranscriptID=2636), accessed 31 July 2018. ].

Корреляция просто показывает, что две вещи меняются синхронно, например положительная корреляция означает, что когда одно становится большим, то и другое увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне отличается от причинно-следственной связи. Говорят, что одно становится причиной другого, если изменения первого приводят к изменениям второго. Но проблема в том, что две вещи могут изменяться вместе, но при этом изменения одной не являются причиной изменений другой. Например, наблюдения в начальной школе показывают, что дети с более значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что причиной этого являются родители, которые, желая иметь более рослое потомство, нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее, что существуют какие-то темные данные, третий фактор, который объясняет корреляцию, например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не факт», он признает, что пройденный курс статистики мог изменить его понимание, но при этом допускает наличие и других причин. Далее в книге мы еще столкнемся с поразительными примерами темных данных этого типа, а именно с DD-типом 5: неизвестный определяющий фактор.

Читать похожие на «Темные данные» книги

Электронный учебник – сборник материалов, после изучения которого вы сможете получить краткое и емкое представление о работе с Большими Данными. – Что такое Большие Данные? – Откуда берутся Большие Данные и в чем их польза? – Из каких этапов состоит работа над Большими Данными? – Как собирать, хранить и анализировать Большие Данные? – Как понять, о чем говорят специалисты? На изучение вам потребуется 40 минут. В конце вас ждут вопросы для проверки усвоения материала.

Собрать разрозненные данные для отчета и представить их наглядно не самая простая задача для заказчика. Об этом хорошо знает Алексей Колоколов, который обучает анализу и визуализации данных с 2015 года. Он написал подробное руководство по созданию дашбордов и посвятил большую его часть практике. Колоколов последовательно разбирает процесс составления отчета, начиная с подготовки данных и заканчивая оформлением в фирменном стиле. На реальных примерах он описывает, что нужно сделать на каждом

С погоней разобрался, молодец, Кериэль! Теперь и с остальными делами можно. Что на очереди? Сестра, которая жаждет тебя убить? Задумавший недоброе сородич? Взрыв в архиве? Покушения на наместника? Подозрительный инквизитор? Темные души, поселившиеся внутри? Подумаешь! Выпьем горячего кахве, закусим свежей булочкой и со всеми напастями справимся. Или нет…

Власть, которая казалась вечной, рухнула. Жертвы неизбежны – новое всегда приходит с кровью. Новое всегда не такое, каким кажется. Особенно для тех, кто его ждал. Они хотели перемен – а им стали указывать во что одеваться… Они отказывались молчать – и стали пропадать из собственных домов… Они затаились, но взрыв неизбежен. Быть свободным – все равно, что дышать. Смогут ли молодые герои противостоять новой власти? Или проще смириться и покорно принять, что решения уже приняты? Признать их силу и

Сумеречный двойной мир разделен между двумя населяющими его расами: темными альвами, живущими на поверхности Свартальвхейма, и двергами, заселяющих его подземье. Армаэля – наследника трона темных альвов ждала тяжелая доля. Пойти войной на светлых альвов и вернуть темную материю, являвшуюся источником питания их звездных кораблей, но для начала ему предстояло разобраться с заговором против него и собрать войско чудовищ. Армаэль преодолел границу между мирами и проник в Альвхейм, там по воле

Орланда с детства ненавидела драконов: по вине одного из Крылатых лордов девушка осиротела. Воспитанная теткой, она с малолетства видела изнанку академии магии и не желала в ней учиться. Но пробудившийся дар не оставил выбора. Только идти по накатанной дорожке Орланда не собиралась и со скандалом покинула академию сразу после получения диплома. Спустя четыре года новый ректор просит ее занять вакантную должность на Темном факультете. Только вот он дракон, а в академии творятся непонятные вещи.

Это лето Валерий Швецов, молодой архивист из Москвы, запомнит надолго. Благодаря поручению Великого Полоза ему пришлось пережить массу приключений, как забавных, так и страшных, у него появились новые друзья и новые враги, причем не всегда можно понять, кто из них кем на самом деле является. И самое главное – еще ничего не закончилось. Впереди у Валеры новые испытания. Ему предстоит попасть в закрытый для всего мира дом, пройти через Туманные Пути, куда смертным путь заказан, повидать путь Вия,

1889 год, Эдинбург. Большое семейство устраивает спиритический сеанс – популярную забаву викторианской эпохи. Провести его приглашают гадалку по имени мадам Катерина. Но наутро после сеанса все приглашённые оказываются мертвы – за исключением Катерины. Гадалке грозит казнь за убийство шестерых, но она клянётся, что невиновна. Распутать это загадочное дело предстоит двум инспекторам шотландской полиции – Девятипалому Макгрею, известному своей кипучей натурой и любовью к оккультным наукам, и Иэну

Продолжение Катарсиса… Попаданец в Мире магии и меча, пережившем апокалипсис. Голод, страх, запустение, средневековье с мечниками и магами. Но кроме них в мире разлита Скверна и бродят её порождения – чудовища, мутанты и ожившие мертвецы. Все против всех. И хорошо было бы, если бы я был бы спецназовцем, мастером фехтования или магом с постоянным доступом к Википедии, но… Возможно, так и есть, но я – случайно помещён в первое попавшееся тело и совсем ничего не помню о себе. Совсем ничего. А

Даша Васильева – мастер странных покупок, но на сей раз она превзошла себя. Дашутка купила приправу под названием «Бня Борзая», которую из магазина доставили домой на… самосвале. И теперь вся семья ломает голову, как от этой «вкусноты» избавиться. В это же время в детективное агентство полковника Дегтярева обратилась студентка исторического факультета Анна Волкова. Она подрабатывает составлением родословных. Однажды мама подарила Ане сумку, которую украшали ее фотография в молодости и надпись