Обещания и подводные камни «Больших данных» 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Обещания и подводные камни «Больших данных»



 

В наши времена модным стал термин «Большие данные»[2]. По расчетам компании IBM, мы ежедневно создаем 2,5 квинтильона байтов данных, а 90 % информации, имеющейся в нашем распоряжении, было получено за последние два года {36}.

Этот экспоненциальный рост информации, как и компьютеры в 1970‑е гг., порой представляется нам лекарством от всех болезней. Крис Андерсон, редактор журнала Wired, писал в 2008 г., что сам по себе огромный объем данных способен заменить собой теорию и даже научный метод {37}.

Книга, которую я написал, стои́т на стороне науки и технологии, и я считаю подобную позицию вполне оптимистичной. Однако следует помнить, что мы склонны допускать массу ошибок. Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом. Как и Цезарь, мы можем трактовать их в свою пользу, что порой уводит нас слишком далеко от объективной реальности.

Управляемые данными предсказания способны обеспечить нам успех – или привести к неудаче. Шансы на неудачу возрастают, когда мы отрицаем собственную роль в процессе. Перед тем как потребовать большего от данных, мы должны потребовать больше от себя.

Если вы знаете мою предысторию, то такая точка зрения может показаться вам довольно странной. Многие слышали о том, что я умею работать с данными и статистически их обрабатывать. Я использую имеющуюся информацию для создания довольно успешных прогнозов. В 2003 г., когда мне уже порядком надоело консультировать клиентов, я занялся созданием системы, получившей название PECOTA, цель которой состояла в предсказании результатов игроков Главной бейсбольной Лиги. Она имела целый ряд инноваций (например, ее прогнозы носили вероятностный характер, и в них указывался диапазон возможных исходов для каждого игрока). Сравнив наши результаты с соответствующими результатами конкурирующих систем, мы обнаружили, что смогли их переиграть. В 2008 г. я создал веб‑сайт FiveThirtyEight, призванный предсказать результаты надвигавшихся выборов. Прогнозы FiveThirtyEight правильно назвали победителя президентского голосования в 49 из 50 штатов, а также победителей голосования в 35 штатах по итогам выборов в Сенат.

После выборов со мной связалось несколько издателей, желавших заработать на издании пользовавшихся успехом книг типа «Moneyball» и «Фрикономика»[3] (в которых были приведены истории «ботаников», завоевавших мир). Они хотели, чтобы и в моей книге рассказывалось бы о чем‑то подобном, то есть о предсказаниях, основанных на данных в различных областях, начиная от бейсбола и заканчивая финансами и национальной безопасностью.

Однако, пообщавшись в течение четырех лет более чем с сотней экспертов в десятке областей, прочитав сотни журнальных статей и книг и пропутешествовав в ходе своего расследования от Лас‑Вегаса до Копенгагена, я постепенно понял, что предсказания в условиях эры Больших данных оказываются не особенно успешными. Мне же повезло сразу на нескольких уровнях: во‑первых, из‑за того, что я достиг успеха, несмотря на огромное количество сделанных ошибок (о которых я поговорю позднее), и, во‑вторых, из‑за того, что я правильно выбирал свои битвы.

Бейсбол, например, – уникальный, исключительный случай. Можно сказать, что это особенно яркое и открывающее нам глаза исключение, и в книге объясняется, почему это так и почему через десяток лет после выхода «Moneyball» фанаты статистики и скауты сотрудничают между собой в условиях, близких к полной гармонии.

В книге приведены и некоторые другие примеры, вселяющие в нас надежду. Один из них – прогнозирование погоды, требующее и человеческих суждений, и компьютерных мощностей. Метеорологи имеют довольно плохую репутацию, однако им удалось достичь заметного прогресса в работе: они способны предсказать место появления центра урагана в три раза точнее, чем четверть века назад. Кроме этого, мне довелось встречаться с игроками в покер и людьми, делавшими ставки на спортивные события и переигрывавшими Лас‑Вегас. Встречался я и с программистами, создавшими для компании IBM компьютер Deep Blue, который смог обыграть чемпиона мира по шахматам.

Однако все эти примеры прогресса в области прогнозирования с лихвой уравновешиваются массой примеров неудач.

Если бы мне нужно было назвать единственную определяющую черту американцев – то, что делает нас исключительными, – я бы назвал веру в идею Кассия, в то, что мы сами контролируем собственную судьбу. Наша страна была создана на заре промышленной революции религиозными бунтарями, считавшими, что свободный поток идей помогает распространять не только религиозные, но и научные и коммерческие убеждения. Значительная доля наших сильных и слабых черт – нашей изобретательности и нашего трудолюбия, нашего высокомерия и нашего нетерпения – проистекает из непоколебимой веры в идею о том, что мы сами выбираем собственный путь.

Однако новое тысячелетие началось для американцев отвратительно. Мы не ожидали атак 11 сентября. Основная проблема заключалась в нежелании увидеть информацию. Как и в случае с нападением на Перл‑Харбор шестью десятилетиями ранее, у нас имелись все сигналы. Однако мы не сопоставили одни сигналы с другими. При отсутствии достойной теории о поведении террористов мы оказались слепы к данным, а атаки оказались для нас «неизвестным неизвестным».

Немало неудачных предсказаний было связано и с недавним глобальным финансовым кризисом. Наша наивная вера в модели и неспособность понять, насколько сильно они полагаются на довольно хрупкие предположения, уже привела к разрушительным результатам. Кроме этого, я обнаружил, что даже в более рутинных условиях мы неспособны спрогнозировать рецессии более чем за несколько месяцев – и совсем не потому, что не стараемся этого сделать.

Несмотря на значительный прогресс в контроле уровня инфляции, можно сказать, что во всех остальных важных вопросах творцы нашей экономической политики действуют вслепую.

Модели прогнозирования, опубликованные политологами в преддверии президентских выборов 2000 г., предсказали убедительную победу Ала Гора, причем с большим перевесом {38}.

Однако выборы выиграл Джордж У. Буш. Неверные прогнозы такого рода вряд ли можно считать аномальными – они довольно типичны для политических предсказаний. Многолетнее исследование, проведенное Филипом Э. Тэтлоком из Пенсильванского университета, показало, что даже после того, как политологи заявляли о полной невозможности определенного политического события, оно тем не менее происходило примерно в 15 % случаев (при этом результаты политологов зачастую оказываются лучше, чем выводы аналитиков, мелькающих в телевизионных шоу).

В последнее время, как и в 1970‑х гг., предпринимался ряд попыток предсказать землетрясения, в основном с помощью математических методов, предполагающих управление данными.

Однако в результате некоторые предсказанные землетрясения так и не произошли, но были другие, к которым мы не смогли подготовиться. Конструкция ядерного реактора в Фукусиме предусматривала возможность выдерживать землетрясение магнитудой 8,6 балла, отчасти потому, что некоторые сейсмологи посчитали, что более сильные землетрясения просто невозможны. Однако в марте 2011 г. произошло самое ужасное в истории Японии землетрясение магнитудой 9,1 балла.

Существует целый ряд научных дисциплин, в которых предсказания часто оказываются неверными, и порой это обходится обществу очень дорого. Достаточно рассмотреть отрасль биомедицинских исследований. В 2005 г. уроженец Афин, медицинский исследователь по имени Джон П. Иоаннидис опубликовал довольно противоречивую работу под названием «Почему самые широко публикуемые выводы исследований неверны» {39}.

В работе изучались выводы, полученные другими исследователями, точнее, были приведены описания различных медицинских гипотез, выдвинутых в рамках лабораторных экспериментов. По мнению автора, большинство этих выводов показало бы свою несостоятельность в условиях реального мира. Не так давно компания Bayer Laboratories подтвердила гипотезу Иоаннидиса. При проведении собственных экспериментов компании не удалось повторить около двух третей результатов, о которых сообщалось в медицинских журналах {40}.

Большие данные действительно приведут к прогрессу, но лишь со временем. Насколько быстро это произойдет, и возможен ли дальнейший регресс, будет зависеть от нас самих.

 

Почему нас шокирует будущее

 

С биологической точки зрения мы не очень сильно отличаемся от своих предков. Однако некоторые из сильных сторон каменного века превратились в условиях информационной эпохи в слабости.

У людей довольно мало естественных защитных механизмов. Мы относительно медлительны и не особенно сильны. У нас нет когтей, клыков или брони. Мы не можем плевать ядом или маскироваться. Мы не умеем летать. Вместо всего этого мы выживаем благодаря своим мозгам. Мы способны быстро мыслить. Мы умеем находить закономерности и легко реагировать на появляющиеся возможности и возникающие угрозы.

«Эта потребность в поиске закономерностей проявляется у людей значительно сильнее, чем у других животных», – рассказал мне Томассо Поджио, специалист по неврологии из Массачусетского технологического института, изучающий, как наш головной мозг обрабатывает информацию. «Узнавание объектов в сложных ситуациях предполагает определенную степень обобщения. Новорожденный ребенок способен узнавать очертания лиц. И это не индивидуальный навык, а способность, приобретенная нами в ходе эволюции».

По словам Поджио, проблема состоит в том, что эти эволюционные инстинкты иногда заставляют нас видеть закономерности там, где их нет. «Люди постоянно находят закономерности в случайном шуме», – считает Поджио.

Человеческий мозг – невероятно интересная вещь; по некоторым данным, он способен хранить до трех терабайтов информации {41}. Однако этот огромный объем представляет собой около одной миллионной от той информации, которая, по данным IBM, производится в мире каждый день. Поэтому мы должны быть в высшей степени избирательны по отношению к информации, которую нам нужно помнить.

Элвин Тоффлер, автор вышедшей в 1970 г. книги «Шок будущего» (Alvin Toffler «Future Shock»)[4], предсказал некоторые последствия того, что он называл «информационной перегрузкой». По его мнению, лучший защитный механизм состоит в том, чтобы упрощать мир в соответствии со своими предубеждениями, хотя сам по себе мир становится все более разнообразным и комплексным {42}.

Наши биологические инстинкты не всегда хорошо адаптируются к современному обществу, переполненному информацией. И пока мы не начнем активно изучать собственные предубеждения, польза от дополнительной информации будет ничтожной или даже превратится во вред.

Информационная перегрузка, возникшая после рождения печатного пресса, привела к росту сектантства. Теперь все различные религиозные идеи можно было тестировать с помощью большего объема информации, с большей убежденностью, с бо́льшим количеством «доказательств» – и со значительно меньшей терпимостью к иным мнениям. То же самое явление разворачивается в наши дни. Разделение по политическим партиям в США начало активно развиваться примерно тогда же, когда Тоффлер написал «Шок будущего», и его темпы ускорились с появлением интернета {43}.

Подобные партийные убеждения могут легко нарушить справедливость утверждения о том, что чем больше информации, тем ближе мы становимся к истине. Недавнее исследование, проведенное журналом Nature, показало, что чем больше информации о глобальном потеплении получали рьяные приверженцы той или иной партии, тем меньше они соглашались со своими оппонентами {44}.

Кроме этого, даже при том, что объем информации ежедневно увеличивается на 2,5 квинтильона байт, с объемом полезной информации ситуация совершенно иная. Основная масса ежедневного прироста представляет собой обычный шум, растущий быстрее сигнала. У нас есть масса гипотез, требующих тестирования, и куча информационных массивов для тестирования – однако объем той информации, которую можно считать объективной истиной, остается практически неизменным.

Печатный пресс изменил наш способ совершать ошибки. Более редкими стали обычные ошибки переписчиков. Однако, если ошибка возникала, она могла воспроизводиться множество раз, как произошло с «Греховной Библией».

Этим свойством отличаются сложные системы типа Всемирной паутины. Возможно, они дают сбой не так часто, как более простые системы, но если этот сбой происходит, он оказывается в высшей степени значительным. Капитализм и интернет – две системы, невероятно эффективные с точки зрения пропаганды, позволяют плохим идеям распространяться точно в такой же степени, что и хорошим. Плохие идеи могут вызвать непропорционально сильный эффект. В преддверии финансового кризиса система была настолько искаженной, что любое недостаточно точное предположение в моделях, созданных кредитными рейтинговыми агентствами, сыграло огромную роль в кризисе всей глобальной финансовой системы.

Один из путей решения этой проблемы состоит в регулировании. Однако я подозреваю, что это – всего лишь попытка отказаться от того, чтобы обратиться за ответами внутрь самих себя. Нам нужно остановиться и признать, что у нас, у людей, есть проблема с предсказаниями. Мы любим заниматься ими, но не очень хорошо умеем это делать.

 



Поделиться:


Последнее изменение этой страницы: 2021-01-14; просмотров: 44; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.64.132 (0.016 с.)