Темные данные

Страница 8

? Изменение условий.

Первые две стратегии помогают собрать так называемые данные наблюдения. Вы просто измеряете значения, которые присущи объектам или людям, никак не меняя условия, в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются экспериментальными. Экспериментальные данные особенно важны, потому что они могут дать информацию о контрфактуальности (DD-тип 6: данные, которые могли бы существовать), упомянутой в главе 1.

Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с рассмотрения первой стратегии сбора данных, претендующей на полный охват.

Извлечение, отбор и самоотбор данных

Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это влияние проявляется очевидным образом, например в программном обеспечении, которое я использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.

Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины поступают данные – измерения, сигналы, команды – и обрабатываются ими, чтобы принять решение или выполнить какую-либо операцию. Казалось бы, по завершении операции можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать системы или восстановить картину событий, если что-то пошло не так. Черный ящик в самолете является классическим примером такого рода систем.

Выхлопные данные, описывающие людей, называются административными [13 - D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion), ” Journal of the Royal Statistical Society, Series A181 (2018): 555-605. ]. Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле. Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т. д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику – конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa [14 - https: //www. quora. com/How-many-credit-and-debit-card-transactions-are-there-every-year (https: //www. quora. com/How-many-credit-and-debit-card-transactions-are-there-every-year), accessed 24 August 2018. ]. Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета – это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.

По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».

Читать похожие на «Темные данные» книги

Электронный учебник – сборник материалов, после изучения которого вы сможете получить краткое и емкое представление о работе с Большими Данными. – Что такое Большие Данные? – Откуда берутся Большие Данные и в чем их польза? – Из каких этапов состоит работа над Большими Данными? – Как собирать, хранить и анализировать Большие Данные? – Как понять, о чем говорят специалисты? На изучение вам потребуется 40 минут. В конце вас ждут вопросы для проверки усвоения материала.

Собрать разрозненные данные для отчета и представить их наглядно не самая простая задача для заказчика. Об этом хорошо знает Алексей Колоколов, который обучает анализу и визуализации данных с 2015 года. Он написал подробное руководство по созданию дашбордов и посвятил большую его часть практике. Колоколов последовательно разбирает процесс составления отчета, начиная с подготовки данных и заканчивая оформлением в фирменном стиле. На реальных примерах он описывает, что нужно сделать на каждом

С погоней разобрался, молодец, Кериэль! Теперь и с остальными делами можно. Что на очереди? Сестра, которая жаждет тебя убить? Задумавший недоброе сородич? Взрыв в архиве? Покушения на наместника? Подозрительный инквизитор? Темные души, поселившиеся внутри? Подумаешь! Выпьем горячего кахве, закусим свежей булочкой и со всеми напастями справимся. Или нет…

Власть, которая казалась вечной, рухнула. Жертвы неизбежны – новое всегда приходит с кровью. Новое всегда не такое, каким кажется. Особенно для тех, кто его ждал. Они хотели перемен – а им стали указывать во что одеваться… Они отказывались молчать – и стали пропадать из собственных домов… Они затаились, но взрыв неизбежен. Быть свободным – все равно, что дышать. Смогут ли молодые герои противостоять новой власти? Или проще смириться и покорно принять, что решения уже приняты? Признать их силу и

Сумеречный двойной мир разделен между двумя населяющими его расами: темными альвами, живущими на поверхности Свартальвхейма, и двергами, заселяющих его подземье. Армаэля – наследника трона темных альвов ждала тяжелая доля. Пойти войной на светлых альвов и вернуть темную материю, являвшуюся источником питания их звездных кораблей, но для начала ему предстояло разобраться с заговором против него и собрать войско чудовищ. Армаэль преодолел границу между мирами и проник в Альвхейм, там по воле

Орланда с детства ненавидела драконов: по вине одного из Крылатых лордов девушка осиротела. Воспитанная теткой, она с малолетства видела изнанку академии магии и не желала в ней учиться. Но пробудившийся дар не оставил выбора. Только идти по накатанной дорожке Орланда не собиралась и со скандалом покинула академию сразу после получения диплома. Спустя четыре года новый ректор просит ее занять вакантную должность на Темном факультете. Только вот он дракон, а в академии творятся непонятные вещи.

Это лето Валерий Швецов, молодой архивист из Москвы, запомнит надолго. Благодаря поручению Великого Полоза ему пришлось пережить массу приключений, как забавных, так и страшных, у него появились новые друзья и новые враги, причем не всегда можно понять, кто из них кем на самом деле является. И самое главное – еще ничего не закончилось. Впереди у Валеры новые испытания. Ему предстоит попасть в закрытый для всего мира дом, пройти через Туманные Пути, куда смертным путь заказан, повидать путь Вия,

1889 год, Эдинбург. Большое семейство устраивает спиритический сеанс – популярную забаву викторианской эпохи. Провести его приглашают гадалку по имени мадам Катерина. Но наутро после сеанса все приглашённые оказываются мертвы – за исключением Катерины. Гадалке грозит казнь за убийство шестерых, но она клянётся, что невиновна. Распутать это загадочное дело предстоит двум инспекторам шотландской полиции – Девятипалому Макгрею, известному своей кипучей натурой и любовью к оккультным наукам, и Иэну

Продолжение Катарсиса… Попаданец в Мире магии и меча, пережившем апокалипсис. Голод, страх, запустение, средневековье с мечниками и магами. Но кроме них в мире разлита Скверна и бродят её порождения – чудовища, мутанты и ожившие мертвецы. Все против всех. И хорошо было бы, если бы я был бы спецназовцем, мастером фехтования или магом с постоянным доступом к Википедии, но… Возможно, так и есть, но я – случайно помещён в первое попавшееся тело и совсем ничего не помню о себе. Совсем ничего. А

Даша Васильева – мастер странных покупок, но на сей раз она превзошла себя. Дашутка купила приправу под названием «Бня Борзая», которую из магазина доставили домой на… самосвале. И теперь вся семья ломает голову, как от этой «вкусноты» избавиться. В это же время в детективное агентство полковника Дегтярева обратилась студентка исторического факультета Анна Волкова. Она подрабатывает составлением родословных. Однажды мама подарила Ане сумку, которую украшали ее фотография в молодости и надпись