Раскапывание данных, статистика и шарлатанство 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Раскапывание данных, статистика и шарлатанство



Какова вероятность для вас выиграть в Нью-джерсийской лотерее дважды? Один шанс из 17 триллионов. И все же это случилось с Эвелин Адаме, которую читатель может счесть избранной. Используя метод, который мы развивали ранее, Перси Диаконис и Фредерик Мостеллер из Гарварда оценили шансы в 30 к 1, что кто-либо где-нибудь полностью неоднозначным способом, станет настолько удачливым!

Некоторые люди переносят свою деятельность по выкапыванию данных в богословие – в конце концов, древнее Средиземноморье тоже имело обыкновение читать потенциальные сообщения богов по внутренностям птиц.

Интересное распространение механизма раскапывания данных на библейские толкования представлено в Коде Библии неким Майклом Дроснином. Дроснин, бывший журналист (не был замечен в обучении статистике), при содействии некоего "математика", помог "предсказать" убийство премьер-министра Израиля Рабина, расшифровывая код Библии. Он информировал Рабина, который, очевидно, не воспринял это всерьез. Код Библии расшифровывает некие статистические нерегулярности в Библии, по которым можно предсказывать подобного рода события. Само собой разумеется, что книга хорошо продавалась.

 

Лучшая книга, какую я когда-либо читал!

Мое любимое времяпрепровождение – бесцельное фланирование в книжных магазинах, разглядывание книг в раздумьях, стоит ли тратить время на их чтение. Мои покупки часто основаны на импульсах, на поверхностных, но наводящих на размышления ключах. Часто только лишь суперобложки помогают мне принять решение. Они обычно содержат похвалу кого-то известного или не очень известного, или выдержки из книжного обзора. Хорошая похвала известного и уважаемого человека или известного журнала, могла бы подвигнуть меня на покупку книги.

В чем проблема? Я имею тенденцию путать книжный обзор, который, как предполагается, является оценкой качества книги, с обзорами лучших книг, испорченными теми же самыми пристрастиями выживания. Я путаю распределение максимума переменной с распределением самой переменной.

Издатель никогда не будет печатать на суперобложке что-либо, кроме лучших похвал. Некоторые авторы идут даже на шаг дальше, публикуя прохладный или даже неблагоприятный книжный обзор, но выбирая слова в нем, которые кажутся хвалебными для книги. Один такой пример – некий Пауль Вилмотт (английский финансовый математик редкого блеска и непочтительности), который сумел объявить, что я дал ему его "первый плохой обзор", и все же использовал выдержки из этого обзора, в качестве похвалы на суперобложке (позже мы стали друзьями, что позволило мне получить подтверждение от него).

Первый раз меня одурачило такое пристрастие при покупках в 16 лет. Это была книга Манхэттэнское движение Джона Дос Пассеса, американского автора. И я основывался на похвале на суперобложке философа Жан-Поля Сартра, которая гласила что-то вроде того, что Дос Пассес – самый большой писатель своего времени. Эта простая ремарка, которую выпаливают возможно в состоянии опьянения или чрезвычайного энтузиазма, вызвала волну чтения Дос Пассеса в европейских интеллектуальных кругах, поскольку ремарка Сартра была ошибочно принята за оценку качества Дос Пассеса, вместо того, чем она являлась на самом деле – просто лучшей возможной ремаркой. (Несмотря на получение Нобелевской премии по литературе, Дос Пассес канул в Лету.)

 

Тестер исторических данных

Программист помог мне построить тестировщик исторических данных или бэктестер. Эта программа, связанная с базой данных исторических цен, которая позволяет мне проверять гипотетическую прошлую результативность любого правила для торговли средней сложности. Я могу просто применять механическое правило торговли, подобное покупке акции, если она закрывается более, чем на 1.83% выше её средней цены предыдущей недели и немедленно получаю идею относительно прошлой результативности такого правила. Экран высветит мой гипотетический отчет о сделках, связанных с этим правилом торговли. Если мне не нравятся результаты, я могу изменять процент, скажем, 1.2%. Я могу также сделать правило более сложным. Я буду продолжать, пока не найду хорошо работающий набор правил.

Что я делаю? Точно та же самая задача поиска оставшихся в живых в пределах набора правил, которые, возможно, могут работать. Я приспосабливаю правило к данным. Такая деятельность называется выискиванием данных. Чем больше я пробую, тем больше вероятность простой удачной находки правила, которое работало на прошлых данных. Случайный ряд будет всегда представлять некоторую обнаружимую модель. Я убежден, что существует торгуемая ценная бумага в Западном мире, которая на 100% коррелирует с изменениями температуры в Улан-Баторе, столице Монголии. Строго говоря, есть даже худшие расширения «взаимосвязей». Недавняя выдающаяся статья Салливана, Тиммермана и Уайта идет дальше и полагает, что правила, которые могут успешно использоваться сегодня, могут быть результатом пристрастия выживания.

Предположим, что какое-то время инвесторы экспериментировали с техническими правилами торговли, взятыми из очень широкого набора данных - тысячи параметров и разнообразных типов правил их объединения. С течением времени, правила, которые, оказались результативными, получают большее внимание и рассматриваются, как "серьезные соперники" инвестиционным сообществом, в то время как неудачные правила торговли, скорее всего, будут забыты.

Если рассматривается достаточное число правил торговли в течение времени, то некоторые правила, благодаря чистой удаче, даже в очень большой выборке, производят превосходный результат, даже если они совсем не обладают прогнозирующей властью над доходностью актива. Безусловно, вывод, основанный исключительно на подмножестве выживших правил торговли может вводить в заблуждение, так как он не учитывает полный набор начальных правил торговли, большинство из которых вряд ли имеет меньшую результативность

 

Я вынужден предостеречь от чрезмерности в тестировании исторических данных, которую я наблюдал в течение своей личной карьеры. Есть превосходный продукт, предназначенный только для этого, называемый Omega Trade Station, который предлагается в настоящее время на рынке и используется десятками тысяч трейдеров. Он даже предлагает свой собственный компьютерный язык. Борясь с бессоницей, компьютеризированные трейдеры стали тестировщиками, пропахивающими данные в поисках сочетаний некоторых свойств. Они бросают своих обезьянок на пишущие машинки, не определив для себя, что за книгу они хотят, и жаждут натолкнуться где-нибудь на гипотетическое золото. Многие из них слепо верят в это.

Один из моих коллег, человек с престижными степенями дошел в своей вере в такой виртуальный мир до точки – до полной потери всякой связи с реальностью. Могла ли капелька здравого смысла остаться в нем, исчезая под насыпями моделирования, или у него не оставалось ничего – я не могу сказать. Наблюдая за ним, я понял, что его естественный скептицизм, возможно, просто был раздавлен грузом данных – поскольку он был чрезвычайно скептичен, но в других областях. Ах, Юм!

 

Более тревожные выводы

Исторически медицина работала методом проб и ошибок – другими словами, статистически. Мы знаем к настоящему времени, что могут быть полностью случайные связи между симптомами и лечением и что некоторые лекарства успешно проходят медицинские испытания чисто случайно. Я не могу претендовать на роль эксперта в лекарствах, но в последние пять лет много читал медицинскую литературу.

Медицинские исследователи редко бывают статистиками, а статистики – медицинскими исследователями. Многие медики даже отдаленно не знают про пристрастие выживания. По правде, оно может играть несущественную роль, но оно, безусловно, существует. Одно недавнее медицинское исследование связывает курение сигарет с сокращением рака легких, таким образом, конфликтуя со всеми предыдущими исследованиями. Логика подсказывает, что результат может быть подозрителен и является простым совпадением.

 



Поделиться:


Последнее изменение этой страницы: 2016-07-15; просмотров: 243; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.221.204 (0.006 с.)