Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Самый масштабный набор данных в миреСодержание книги
Поиск на нашем сайте
Решить вторую задачу – то есть разделить навыки и удачу – намного сложнее. Бейсбол выстроен таким образом, что в краткосрочной перспективе удача играет большую роль – даже лучшие команды проигрывают до трети матчей, и даже лучшие подающие не могут добраться до базы каждые три раза из пяти. Иногда удача не позволяет распознать подлинный уровень навыков игрока даже за целый год. Во время любого сезона бьющий, объективный результат которого 0,275, с вероятностью 10 % может добиться результата 0,300 и, соответственно, с той же вероятностью иметь результат 0,250. И это зависит только от одной лишь удачи {197}. Хорошо продуманная система прогнозирования может оценить, какие статистические показатели сильнее зависят от удачи. Например, среднее количество попаданий битой по мячу более подвержено влиянию ошибок, чем количество хоумранов. Это особенно важно для питчеров[39], статистика которых невероятно непоследовательна. Если вы хотите предсказать, насколько успешной будет игра питчера, то вам стоит смотреть на количество страйкаутов[40] и уолков[41], а не на данные о его выигрышах и проигрышах в предыдущем сезоне, поскольку первый набор статистических данных выглядит более последовательным от года к году. Как и при разработке любого прогноза, цель в данном случае состоит в выявлении основополагающей причины – выбивание в аут не позволяет отбивающим игрокам команды соперника добраться до базы, что, в свою очередь, не дает им получить дополнительные очки, а значит – и выиграть матч. Однако чем глубже вы копаете, тем больше шума окажется в системе: результаты питчера определяются не только качеством его ударов, но и факторами, которые он не в состоянии контролировать. Так, отличный питчер команды Seattle Mariners Феликс Эрнандес имел по итогам 2009 г. показатель выигрышей и поражений на уровне 19:5, а в 2010 г. этот показатель был 13:12 – и не потому, что Эрнандес плохо делал свою работу, а потому, что у Mariners’ в 2010 г. был на редкость неудачный состав подающих. Подобные случаи происходят довольно часто, и если вы уделите изучению данных достаточно времени, то сможете найти их и сами. Пожалуй, именно бейсбол предлагает самый объемный массив данных в мире – практически все, происходившее на игровых полях основной лиги в течение последних 140 лет, скрупулезно и точно записывалось, а в крупных лигах играют сотни спортсменов. При этом, хотя бейсбол и считается командной игрой, матч строится в соответствии с четкой процедурой: питчеры по очереди сменяют друг друга, подающие «выходят к бите» один за другим. Поэтому игроки в значительной степени сами несут ответственность за свою личную статистику[42]. В игре возникает сравнительно немного проблем, связанных с чем‑то комплексным и нелинейным. В ней просто выявить причинно‑следственные связи.
Это значительно упрощает жизнь человеку, занимающемуся прогнозами в мире бейсбола. Гипотезы обычно можно проверить эмпирическим путем, что позволяет подтвердить или опровергнуть их с высокой степенью статистической достоверности. Что же касается прогнозирования в таких областях, как экономика или политика, где данные появляются значительно реже, – президентские выборы происходят один раз в четыре года, и нет возможности получать сотни новых данных ежегодно – вы не можете похвастаться столь же высокой степенью точности, и ваши прогнозы могут оказаться неверными значительно чаще.
Берегитесь – кривая старения!
Однако все, о чем шла речь выше, основывалось на предположении, что способности игрока не меняются год от года – и если бы мы только могли отделить сигнал от шума, то узнали бы все, что нам нужно. Но в реальной жизни навыки бейсболиста постоянно изменяются, и в этом кроется немалая проблема. Изучив статистику по нескольким тысячам игроков, Джеймс обнаружил, что игра типичного из них {198} год от года совершенствуется до тех пор, пока его возраст не приблизится к отметке примерно в 30 лет, а начиная примерно с этого возраста навыки обычно начинают атрофироваться, что особенно заметно проявляется примерно к 35 годам {199}. И этот факт позволил Джеймсу сделать одно из самых значительных своих открытий – выявить кривую старения. Гимнастки‑олимпийки достигают пика своей карьеры в подростковом возрасте, поэты – после 30 лет; шахматисты – после 30 {200}; экономисты – после 40 {201}, а средний возраст CEO компаний из списка Fortune 500 равен 55 годам {202}. Игрок в бейсбол, как обнаружил Джеймс, достигает своего спортивного пика в возрасте 27 лет. У 60 % игроков из списка, включающего 50 самых известных бейсболистов, отмеченных наградами в период между 1985 и 2009 гг., возраст колебался в интервале между 25 и 29 годами, а возраст 20 % из них составлял ровно 27 лет. Именно в этом возрасте, судя по всему, возникает идеальное соотношение между физической и умственной формой, необходимой для игры (рис. 3.1).
Рис. 3.1. Кривая старения для подающего
Осознание этого факта – существование кривой старения – могло бы стать невероятно ценным для любой команды, ознакомившейся с работой Джеймса. В соответствии с принятыми правилами бейсболист не может стать профессиональным игроком, не связанным контрактом, до достаточно поздних этапов своей карьеры. Он получает право на этот статус, отыграв не менее шести полных сезонов в основной лиге (до этого момента он находится под полным контролем своего первого клуба и не может требовать у него полной оплаты по рыночным ставкам). Поскольку типичный новичок оказывается в крупных лигах в возрасте 23 или 24 лет, он не может стать свободным игроком до 30‑летнего возраста – то есть до того периода, когда пик его результативности уже минует. Команды платили многим профессиональным игрокам большие суммы в расчете на то, что они смогут оставаться столь же производительными, что и в возрасте до 30 лет; в реальности же их результаты обычно ухудшались, а поскольку контракты в главной бейсбольной лиге имеют определенные гарантии, у команды были связаны руки. Однако кривая старения Джеймса рисовала слишком гладкую картину. Разумеется, средний игрок достигает пика в возрасте 27 лет. Но, как скажет вам любой человек, внимательно изучавший в детстве обратные стороны бейсбольных карточек, игроки стареют с разной скоростью. Боб Хорнер, третий бейсмен команды Atlanta Braves в 1980‑е гг., получил награду «Новичок года» в возрасте 20 лет и вошел в команду «Всех звезд», когда ему было 24 года; в то время многие считали, что он точно попадет в Зал бейсбольной славы. Однако к 30 годам, вследствие череды травм и неудачного перехода в команду Yakult Swallows японской лиги, он полностью покинул мир профессионального бейсбола. С другой стороны, великий Эдгар Мартинез из Seattle Mariners не имел постоянного контракта в крупных лигах до 27 лет. Однако ему все равно удалось пережить период расцвета своей спортивной карьеры, хотя и достаточно поздно – после 30 лет: и даже в 40 лет он возглавлял список лиги по количеству RBI[43]. Хотя случаи с Хорнером и Мартинезом и могут считаться исключением из правила, крайне редко уровень игры других бейсболистов изменяется в точном соответствии с гладкой траекторией кривой старения; скорее, нормой для них оказывается периодически нарушаемое равновесие взлетов и падений. Реальные кривые старения наполнены шумом – причем значительным (рис. 3.2). В среднем они могут выглядеть довольно гладкими. Однако среднее подобно семье, имеющей 1,7 ребенка, – это всего лишь статистическая абстракция. Возможно, полагал Гэри Хакебей, в шуме есть сигнал, который не учитывала кривая Джеймса. Возможно, у игроков на сложных с точки зрения физических сил позициях навыки пропадают быстрее, чем у других. А возможно, карьера игроков, обладающих более атлетическим сложением, продолжительнее, чем у игроков, имеющих лишь один‑два сильно развитых навыка.
Рис. 3.2. Вид кривых старения, на которых отражаются шумы, для различных подающих
На основе системы Хакебея была выдвинута гипотеза, согласно которой имеется 26 различных видов кривых старения, причем каждый из них применим к разным типам игроков {203}. Если Хакебей был прав, то появлялась возможность оценить, какая кривая в большей степени подходит для каждого игрока, и тем самым предсказать, как будет развиваться его карьера. Если кривая старения игрока была похожа на соответствующую кривую Боба Хорнера, то можно было бы ожидать, что пик его карьеры придется на более ранний возраст, а затем наступит раннее угасание. Если же его кривая больше напоминала кривую Мартинеза, то лучшие сезоны этого бейсболиста наступят в более зрелом возрасте. Хотя системе Vladimir Хакебея и удалось сделать ряд правильных прогнозов, в целом она все же была ненамного более точной, чем медленные и устойчивые прогнозы Джеймса {204}, согласно которым одна и та же кривая старения применялась к каждому игроку. Отчасти проблема заключалась в том, что число 26 для количества категорий Хакебея было выбрано случайным образом, а для того, чтобы определить, к какой группе относится игрок, требовалось скорее искусство, а не наука. Но, чтобы войти в число элитных игроков в бейсбол, человек должен обладать широким диапазоном физических и ментальных навыков: мышечной памятью, физической силой, координацией между глазами и руками, скоростью удара битой, распознаванием направления полета мяча и силой воли, позволяющей сохранять концентрацию даже в сложные для команды периоды. Понятие о существовании различных видов кривых старения, вытекающее из созданных системой Vladimir, казалось, более точно отражало всю сложность, присущую человеческой природе. При разработке PECOTA я попытался заимствовать некоторые элементы у Хакебея, а некоторые – у Билла Джеймса. В выпуске Baseball Abstract за 1986 г. Джеймс представил так называемые оценки подобия, которые (как и предполагает их название) были призваны выявить статистическое подобие между статистикой карьеры любых двух игроков основной лиги. Концепция была сравнительно простой. Для начала каждому из двух игроков присваивалось по 1000 баллов, а затем при наличии между игроками различий по тому или иному параметру соответствующие баллы вычитались {205}. У игроков с высокой степенью подобия итоговый балл мог составлять 950 или даже 975, однако в других случаях расхождения накапливались достаточно быстро. Оценки подобия могут оказаться невероятно полезными любому человеку с хорошим знанием истории бейсбола. Вместо того чтобы изучать статистику игрока в вакууме, специалисты могут оценить исторический контекст происходящего. Например, статистические результаты Педройи до достижения им возраста 25 лет были идентичны результатам Рода Кэрью, великого игрока из Панамы, возглавлявшего Minnesota Twins в 1970‑х, или результатам Чарли Герингера, звезде команды Tigers времен Великой депрессии. Оценки подобия Джеймса позволяют проводить ретроспективный анализ, предоставляя возможность оценивать прошлые события. Например, с его помощью можно проанализировать, насколько игрок заслуживает, чтобы его приняли в Зал славы.
Если вы считали, что ваш любимый игрок действительно заслуживает это, и могли увидеть, что это удалось 9 из 10 игрокам с идентичной статистикой, то у вас были все шансы верить в успех. Но можно ли использовать оценки подобия и для предсказания? Например, если мы могли выявить сотню игроков, наиболее сопоставимых с Педройей по возрастным критериям, то в какой степени результаты этих игроков за всю карьеру могли подсказать нам, как будет развиваться карьера Педройи? Меня заинтересовала эта идея, и так, понемногу, PECOTA начала свое существование в те долгие дни, которые я проводил в KPMG в 2002 г. Она приобрела форму гигантской и разноцветной электронной таблицы Excel. Этот выбор был довольно случайным, поскольку именно Excel был одним из моих основных рабочих инструментов в KPMG (каждый раз, когда мимо моего стола проходил кто‑то из начальников, он предполагал, что я усердно тружусь над какой‑то особенно сложной моделью для одного из наших клиентов {206}). Постепенно, отнимая пару часов от работы и по нескольку часов от сна, я смог разработать базу данных, включавшую более чем 10 000 позиций «игрок – сезон» (я учел каждый сезон основной лиги, начиная со времен Второй мировой войны {207}). Кроме этого, я разработал алгоритм, позволяющий сравнивать любого игрока с другим. Алгоритм был чуть более сложным, чем алгоритм Джеймса, и предполагалось, что он сможет в полной мере воспользоваться изобилием данных, присущих бейсболу. В нем был заложен иной метод сравнения набора игроков, метод, называемый на техническом языке метод ближайшего соседа [44]. Также он учитывал более широкий набор факторов, включая рост и вес игрока, которые обычно принимаются во внимание лишь скаутами. Как и система Хакебея, PECOTA предполагала, что различные типы игроков могут стареть по‑разному. Однако я не стремился сопоставить игру каждого бейсболиста с одной из 26 кривых развития; более того, сопоставление происходило естественным образом с помощью поиска похожих игроков где‑то далеко в статистической галактике бейсбола. Если, допустим, обнаруживалось, что очень многие игроки, статистические параметры игры которых сопоставимы с данными Дастина Педройи, становились сильными игроками основной лиги, то это давало основания надеяться на успех и самого Педройи. Однако чаще всего мне не удавалось найти однозначно сопоставимые результаты; пути игроков, имевших одинаковую статистику в определенные периоды их карьеры, могли значительно расходиться после этого. Я уже упоминал, что по оценкам подобия, созданным Джеймсом, Педройя был идентичен Чарли Гейгеру и Роду Кэрью, двум игрокам, имевшим долгую и яркую карьеру и попавшим в конце концов в Зал славы. Однако статистика Педройи за этот период была также идентична статистическим данным Хосе Видро, ничем не примечательного игрока второй базы команды Montreal Expos.
Еще сильнее различия могут проявляться у игроков низших лиг[45]. В 2009 г. среди игроков, которые выявила PECOTA для сопоставления с Джейсоном Хейвардом, 19‑летним кандидатом на позицию в команде Atlanta Braves, можно было найти и участника Зала славы, и жертву убийства. Чиппер Джонс, один из близких по показателям к Хейварду игроков, был примером первого варианта. Это один из величайших игроков Atlanta Braves за все времена, он отыграл с клубом 17 сезонов, и его показатель результативности за всю карьеру в среднем составил 0,304. Он принес команде более 450 хоумранов. С другой стороны, система выдала мне имя Дернелла Стенсона, многообещающего молодого человека, чьи показатели были также идентичны цифрам Хейварда. В 2003 г. после одной из тренировочных игр в Аризоне неизвестные связали его, а потом застрелили, угнав при этом его внедорожник. Судя по всему, произошел случайный акт насилия. Все сопоставимые с Хейвардом игроки были крупными, сильными спортсменами; они обладали множеством талантов, имели отличные задатки и демонстрировали развитие навыков при играх в небольших лигах. Однако судьба их сложилась совершенно по‑разному. Инновационный характер PECOTA был призван признать этот факт: система выдавала диапазон возможных исходов для каждого игрока, основанный на прецедентах с сопоставимыми игроками. По сути, это были наилучший, наихудший и наиболее вероятный сценарий. Но нужно помнить, что каждый раз при попытках предсказать развитие человека нам придется сталкиваться с бесконечным диапазоном возможных исходов. Пока что для Хейварда все складывалось ни шатко ни валко. После удачного для него 2009 г., когда он был назван «Игроком года в низшей лиге», Хейвард дебютировал в команде Braves в 2010 г. и обеспечил своей команде восемь хоумранов в первых 30 играх в основной лиге. После этого он вошел в состав «Звездной команды», превзойдя все ожидания. Однако сезон 2011 г. оказался для него более сложным, и его результат не превысил 0,227. Хорошая система статистического прогнозирования позволяет сохранять оптимизм даже после выступления Хейварда в сезоне 2011 г. – все его показатели были, по сути, теми же, если не считать результативности ударов по мячу, а этот показатель зависит от удачи значительно больше, чем другие. Но может ли статистика сказать вам все, что вы хотите узнать об игроке? Десять лет назад эта тема была одной из самых обсуждаемых в мире бейсбола.
Можем ли мы все ужиться?
Довольно поверхностное, но распространенное мнение о книге «Moneyball» состоит в том, что это рассказ о конфликте между двумя конкурирующими группами – «статистиками» и «скаутами». Каждая из них полагалась при оценке результативности игроков на свою собственную парадигму (разумеется, статистики полагались на статистические методы, скауты – на «инструменты»). В 2003 г., когда книга «Moneyball» была впервые опубликована, читатели Майкла Льюиса вполне могли оценить, насколько враждебными были отношения между двумя группами (нужно сказать, что и сама книга подливала масла в огонь). Когда я в том же году посетил ежегодное «Зимнее собрание» специалистов по бейсболу в гостинице Marriott в Новом Орлеане, мне показалось, что я вновь вернулся в школу. В одном углу можно было увидеть скаутов, которые, подобно буйволам в оазисе, цедили виски и обменивались историями о холодной войне, сгрудившись у стойки бара в гостинице. Часто они уходили в гостиничные номера и принимались за переговоры. Эти люди навсегда связали себя с миром бейсбола. Им было уже за 40, а то и за 50, многие из них были в прошлом спортсменами, которые внесли свой вклад в игру и теперь постепенно продвигались вверх в организационной иерархии. В другом углу располагались «ботаники» – ребята в возрасте 20–30 лет, вооруженные ноутбуками и цветными распечатками. Они ходили кругами по холлу и пытались уговорить кого‑нибудь из профессионалов старой школы взять их на работу. Между двумя лагерями практически не происходило никакого общения, и каждая сторона считала другую слишком высокомерной и косной. Возможно, подлинный источник конфликта состоял в том, что представители старой школы воспринимали молодежь как угрозу своей работе, способную лишить скаутов значительной доли заработка. «Сейчас существует невероятно сильная конкуренция, – рассказывал Эдди Бейн, директор по скаутингу команды Anaheim Angels на круглом столе в рамках одной конференции, посвященной “Moneyball” {208}. – Некоторые из наших старых коллег теряют работу, которую, по нашему мнению, они должны были сохранить. Возможно, что сокращение штатов вызвано денежными проблемами. Однако мы связываем происходящее с влиянием разных компьютерных штук, и это нас возмущает». До конца неизвестно, как много команд в реальности урезало бюджеты на скаутинг. Одной из них была Toronto Blue Jays, и она заплатила за это высокую цену, перенеся череду неудач в 2002–2005 гг. Однако уреза́ние бюджета было вынужденной мерой, вызванной спецификой работы корпоративного спонсора команды, компании Rogers Communications. Та пыталась противостоять ослаблению канадского доллара, поэтому случившееся отнюдь не было прихотью генерального менеджера компании, ученика Бина по имени Дж. П. Риккарди. После публикации «Moneyball» прошло десять лет, и пламя прежней борьбы давно потухло. Успех Red Sox, выигравшей в 2004 г. титул чемпиона ежегодного чемпионата США по бейсболу впервые за 68 лет, был основан на подходе, уделявшем внимание как статистике, так и скаутингу. Команды, которые в 2003 г. можно было назвать исключительно «скаутинговыми» (например, команда St. Louis Cardinals), приняли на вооружение более аналитический подход и являются сейчас одними из лидеров в области спортивных инноваций. Команды со «статистическим» уклоном, такие как Oakland A’s, значительно увеличили свои скаутинговые бюджеты {209}. Экономическая рецессия, продолжавшаяся с 2007 по 2009 г., способствовала дальнейшему развитию аналитических методов. Хотя бейсбол довольно хорошо перенес рецессию, внезапно буквально все прониклись идеями «Moneyball» и начали пытаться оптимизировать свои возможности в условиях ограниченных бюджетов {210}. На рынке не было дефицита в дешевой рабочей силе среди статистиков. Выпускники Гарварда и Йеля, специализировавшиеся на экономике и вычислительной технике, которые незадолго до этого времени планировали работать в инвестиционном банке и получать по 400 тыс. долл. в год, теперь с радостью отправлялись в Тампу или Кливленд и круглосуточно работали за десятую часть от этой суммы. Зарплата «компьютерного ботаника» в 40 тыс. долл. казалась куда лучшей инвестицией, чем 40 млн долл., выплачиваемых свободному агенту[46], прежние выдающиеся результаты которого постепенно снижались до средних. Однако случившееся не было свидетельством безоговорочной победы статистиков. Если им и удалось доказать свою ценность, то это же удалось и скаутам.
|
|||||||||
Последнее изменение этой страницы: 2021-01-14; просмотров: 63; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.188.106.47 (0.016 с.) |