Темные данные - Дэвид Хэнд

- Автор: Дэвид Хэнд
- Жанр: базы данных, экономическая статистика
- Размещение: фрагмент
- Теги: big data, анализ данных, анализ данных и исследования, аналитика, обработка данных, статистика, статистические данные
- Год: 2020
Темные данные
В этом же разделе доклада сделан следующий вывод: «Анализ полной истории температур при запуске указывает на то, что критическое состояние уплотнительного кольца становится почти неизбежным, если температура стыка меньше 65? F [18? C]» (курсив мой).
Ситуация проиллюстрирована ниже на двух диаграммах. На рис. 1, а показана диаграмма, которая обсуждалась на телеконференции. Это график зависимости количества поврежденных уплотнительных колец при каждом запуске от температуры в градусах Фаренгейта. Так, при 53? F – самой низкой температуре воздуха при запусках в прошлом – три уплотнительных кольца достигали критического состояния, а при 75? F, что было самой высокой температурой, при которой осуществлялся запуск, критического состояния достигли два уплотнительных кольца. Мы видим, что нет устойчивой связи между температурой при запуске и числом поврежденных уплотнительных колец.
Однако если мы добавим отсутствующие данные по запускам, при которых не наблюдалось критических состояний уплотнительных колец, то получим совсем иную картину, изображенную на рис. 1, b. И закономерность становится очевидной. Фактически все запуски, которые произошли при температуре ниже 65? F, приводили к критическому состоянию уплотнительных колец, и лишь 4 из 21 запуска, осуществленных при более высоких температурах, дали подобный результат. На диаграмме четко видна закономерность – чем ниже температура, тем выше риск. И что еще хуже, прогнозируемая температура была намного ниже минимальной, при которой ранее проводились запуски (DD-тип 15: экстраполяция за пределы ваших данных).
Отсутствующие данные имеют решающее значение для понимания происходящего.
В истории Challenger, однако, остался один загадочный момент. Хотя официальному расследованию потребовался не один месяц, чтобы сделать выводы о причинах аварии, цена акций Morton Thiokol упала на 11, 86 % прямо в день катастрофы. При этом изменения цены акций компании даже на 4 % были редкостью. Котировки акций других компаний, принимавших участие в создании ракеты-носителя, также упали, но существенно меньше. Такое ощущение, что рынок знал о настоящей причине аварии. Неужели снова темные данные?
Сила темных данных
Этот последний пример показывает, насколько катастрофическими могут стать ситуации, когда не обращают внимания на темные данные. А они, по всей видимости, представляют реальную опасность. Однако картина все же не настолько мрачная. Оказывается, само осознание факта существования темных данных уже может дать нам преимущество. Что-то вроде принципа дзюдо для науки о данных; и в этом дзюдо есть конкретные приемы, которые я опишу в части II книги, а пока просто назову несколько из них.
В главе 2 пойдет речь о так называемых рандомизированных контролируемых исследованиях. В главе 9 мы вновь вернемся к ним, но рассмотрим с иного ракурса. Для примера возьмем медицинские исследования, когда сравнивают два метода лечения и при этом назначают их двум группам пациентов. Однако просто разделить людей на группы недостаточно. Если известно, кому какое лечение назначено, это может повлиять на результаты – исследователи могут относиться к одной из групп более внимательно, чем к другой. Например, когда сравнивают новый непроверенный метод лечения со стандартным, исследователи, порой даже не осознавая этого, склонны тщательнее отслеживать побочные эффекты и проводить измерения в первой группе. Чтобы преодолеть эту потенциальную необъективность, в подобных исследованиях распределение методов лечения скрывают от исследователей (DD-тип 13: намеренно затемненные данные). В таких случаях говорят о слепом исследовании, чтобы указать на темные данные.
Другой хорошо известный метод, использующий темные данные, – выборочные опросы. Возможно, мы захотим узнать мнение горожан или покупателей конкретной продукции, но выяснять мнение всех без исключения слишком затратно. К тому же это занимает много времени, и мнения могут измениться. Альтернативой тотальному опросу является опрос отдельных представителей группы. Мнения тех, кто не попадает в наш опрос, и будут темными данными. Вроде бы такая стратегия выглядит рискованно – она явно напоминает историю с базой данных TARN. Но оказывается, что, используя продуманные методы отбора людей для опроса, мы можем получить точные и достоверные ответы, при этом быстрее и дешевле, чем если бы обращались к каждому.
Третий способ заставить темные данные работать на нас заключается в так называемом сглаживании данных. В главе 9 мы увидим, что этот метод сродни выявлению незамеченных и не поддающихся наблюдению видов темных данных (DD-тип 14: фальшивые и синтетические данные) и позволяет получить более точные оценки и прогнозы.
Другие способы использования темных данных, которые носят весьма экзотические названия, мы также рассмотрим в главе 9. Некоторые из них широко применяются в таких областях, как машинное обучение и искусственный интеллект.
Всюду вокруг нас
Как мы видим, темные данные вездесущи. Они могут появляться повсеместно и где угодно, а их наиболее опасное свойство заключается в том, что мы по определению не можем быть уверенными в их отсутствии. Это означает, что необходимо постоянно быть начеку и задавать себе вопрос: «Что мы упускаем? »
Не потому ли многие мошенничества остаются незамеченными, что полиция ловит лишь неумелых преступников, а настоящие «мастера» продолжают «творить»? Берни Мэдофф основал свою фирму Bernard L. Madoff Investment Securities LLC в 1960 г. , а арестован был лишь в 2008 г. Когда его приговорили к 150 годам тюремного заключения, ему исполнился уже 71 год – можно сказать, что ему практически все сошло с рук.
А множество потенциально излечимых больных, которых мы вовремя не диагностируем? Разве это не происходит лишь потому, что болезни на ранней стадии имеют гораздо меньше симптомов, чем в своей тяжелой форме?
Опасны ли социальные сети? Ведь они отражают только то, что мы уже знаем и чему верим, не посягая на нашу точку зрения, поскольку отбирают факты и события в пределах нашей зоны комфорта. Или, что еще хуже, те рассказы, которые люди выбирают для публикаций в социальных сетях, могут создавать у нас ложное представление о том, что жизнь всех остальных людей удивительно легка и прекрасна, а это прямой путь к депрессии – ведь в своей жизни мы встречаем так много препятствий.
Мы привыкли думать о данных как о числах. Но данные необязательно должны быть числами, включая и темные данные. Вот вам пример, в котором отсутствующей критической информацией является одна буква.
Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale – пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г. , описав его как напиток «приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося неферментированного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт» [10 - R. Pattinson, Arctic Ale: History by the Glass, issue 66 (July 2102), https: //www. beeradvocate. com/articles/6920/arctic-ale/ (https: //www. beeradvocate. com/articles/6920/arctic-ale/), accessed 31 July 2018. ]. Как раз то, что нужно в арктических экспедициях.
Читать похожие на «Темные данные» книги

Электронный учебник – сборник материалов, после изучения которого вы сможете получить краткое и емкое представление о работе с Большими Данными. – Что такое Большие Данные? – Откуда берутся Большие Данные и в чем их польза? – Из каких этапов состоит работа над Большими Данными? – Как собирать, хранить и анализировать Большие Данные? – Как понять, о чем говорят специалисты? На изучение вам потребуется 40 минут. В конце вас ждут вопросы для проверки усвоения материала.

Собрать разрозненные данные для отчета и представить их наглядно не самая простая задача для заказчика. Об этом хорошо знает Алексей Колоколов, который обучает анализу и визуализации данных с 2015 года. Он написал подробное руководство по созданию дашбордов и посвятил большую его часть практике. Колоколов последовательно разбирает процесс составления отчета, начиная с подготовки данных и заканчивая оформлением в фирменном стиле. На реальных примерах он описывает, что нужно сделать на каждом

С погоней разобрался, молодец, Кериэль! Теперь и с остальными делами можно. Что на очереди? Сестра, которая жаждет тебя убить? Задумавший недоброе сородич? Взрыв в архиве? Покушения на наместника? Подозрительный инквизитор? Темные души, поселившиеся внутри? Подумаешь! Выпьем горячего кахве, закусим свежей булочкой и со всеми напастями справимся. Или нет…

Власть, которая казалась вечной, рухнула. Жертвы неизбежны – новое всегда приходит с кровью. Новое всегда не такое, каким кажется. Особенно для тех, кто его ждал. Они хотели перемен – а им стали указывать во что одеваться… Они отказывались молчать – и стали пропадать из собственных домов… Они затаились, но взрыв неизбежен. Быть свободным – все равно, что дышать. Смогут ли молодые герои противостоять новой власти? Или проще смириться и покорно принять, что решения уже приняты? Признать их силу и

Сумеречный двойной мир разделен между двумя населяющими его расами: темными альвами, живущими на поверхности Свартальвхейма, и двергами, заселяющих его подземье. Армаэля – наследника трона темных альвов ждала тяжелая доля. Пойти войной на светлых альвов и вернуть темную материю, являвшуюся источником питания их звездных кораблей, но для начала ему предстояло разобраться с заговором против него и собрать войско чудовищ. Армаэль преодолел границу между мирами и проник в Альвхейм, там по воле

Орланда с детства ненавидела драконов: по вине одного из Крылатых лордов девушка осиротела. Воспитанная теткой, она с малолетства видела изнанку академии магии и не желала в ней учиться. Но пробудившийся дар не оставил выбора. Только идти по накатанной дорожке Орланда не собиралась и со скандалом покинула академию сразу после получения диплома. Спустя четыре года новый ректор просит ее занять вакантную должность на Темном факультете. Только вот он дракон, а в академии творятся непонятные вещи.

Это лето Валерий Швецов, молодой архивист из Москвы, запомнит надолго. Благодаря поручению Великого Полоза ему пришлось пережить массу приключений, как забавных, так и страшных, у него появились новые друзья и новые враги, причем не всегда можно понять, кто из них кем на самом деле является. И самое главное – еще ничего не закончилось. Впереди у Валеры новые испытания. Ему предстоит попасть в закрытый для всего мира дом, пройти через Туманные Пути, куда смертным путь заказан, повидать путь Вия,

1889 год, Эдинбург. Большое семейство устраивает спиритический сеанс – популярную забаву викторианской эпохи. Провести его приглашают гадалку по имени мадам Катерина. Но наутро после сеанса все приглашённые оказываются мертвы – за исключением Катерины. Гадалке грозит казнь за убийство шестерых, но она клянётся, что невиновна. Распутать это загадочное дело предстоит двум инспекторам шотландской полиции – Девятипалому Макгрею, известному своей кипучей натурой и любовью к оккультным наукам, и Иэну

Продолжение Катарсиса… Попаданец в Мире магии и меча, пережившем апокалипсис. Голод, страх, запустение, средневековье с мечниками и магами. Но кроме них в мире разлита Скверна и бродят её порождения – чудовища, мутанты и ожившие мертвецы. Все против всех. И хорошо было бы, если бы я был бы спецназовцем, мастером фехтования или магом с постоянным доступом к Википедии, но… Возможно, так и есть, но я – случайно помещён в первое попавшееся тело и совсем ничего не помню о себе. Совсем ничего. А

Даша Васильева – мастер странных покупок, но на сей раз она превзошла себя. Дашутка купила приправу под названием «Бня Борзая», которую из магазина доставили домой на… самосвале. И теперь вся семья ломает голову, как от этой «вкусноты» избавиться. В это же время в детективное агентство полковника Дегтярева обратилась студентка исторического факультета Анна Волкова. Она подрабатывает составлением родословных. Однажды мама подарила Ане сумку, которую украшали ее фотография в молодости и надпись