П. 1 Вычисление математического ожидания выборки 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

П. 1 Вычисление математического ожидания выборки



Математическое ожидание или среднее арифметическое значение выборки — одна из основных числовых характеристик, показывающая центральную тенденцию ряда. При составлении прогноза развития интересующего нас процесса эта характеристика является базовой. Вместе с тем, при сопоставлении различных исследований, она позволяет объективно оценить различия между ними. Показатель «математическое ожидание» может быть использован при определении средней численности населения, средней продолжительности жизни, среднегодового дохода семьи, среднего количества решенных задач, допущенных ошибок, усвоенных единиц знаний и т.д., т.е. тех характеристик социолого-педагогических явлений, которые носят количественный характер.

Пусть интересующий нас признак имеет точечное распределение.

О п р е д е л е н и е. Математическим ожиданием выборки называется сумма произведений всех ее возможных значений на соответствующие относительные частоты:

 

М(Х)=х1р1+х2 р2+…+хк рк, где рк =ni/n, I=1,…,k.

 

Т.е. математическое ожидание — это "среднее взвешенное" возможных значений.

 

Пример 1.. Найти математическое ожидание для следующих данных:

Варианта          
Частота          
Относительная частота 1/20 5/20 7/20 3/20 4/20

 

В этом случае: М(Х)=2· 1/20+ 6· 5/20+10· 7/20+12· 3/20+ 14 ·4/20=9,7

По сути, как было подчеркнуто выше, математическое ожидание - это ни что иное, как среднее арифметическое наблюдаемых значений интересующего нас признака (в этом нетрудно убедиться).

Смысл (интерпретация) математического ожидания состоит в том, что оно заменяет все значения совокупности чисел. Иными словами, если взамен каждого значения ряда взять математическое ожидание, то мы при этом обеспечим минимальную ошибку отклонений от среднего.

А теперь обратимся к случаю, когда изучаемый признак имеет интервальное распределение. Пусть интервалы имеют длину h. Введем номера этих интервалов в порядке возрастания их величины, поместив начало отсчета вблизи от середины опытных данных и одновременно стремясь поместить его в интервал, соответствующий максимальной численности. Будем считать, что все наблюдения, попавшие в данный отрезок длины h, имеют значение, равное средней абсциссе этого отрезка.

Предположим, что для нулевого интервала это значение равно zо.Тогда для отрезка с номером k среднее значение равно zк = zо +kh.

Если в отрезок с условной вариантой zк попало nк наблюдений, а всего наблюдений было n, то среднее их значение равно

 

М(Х)=1/n Σ nk zk =1/n Σ (zo +kh)nk =zo +h/n Σ knk =zo + k h,

 

где k =1/n Σ knk. Здесь и далее суммирование по k.

 

Пример 2. Вычислим математическое ожидание для признака, имеющего интервальное распределение. Данные возьмем те, которые были приведены в § 7 (таблица 3). Расширим таблицу, введя дополнительные строчки, так, как было указано выше:

 

Интервалы (классы) 20-25 25-30 30-35 35-40 40-45 45-50  
Ni             S = 40
Ki -4 -3 -2 -1      
Niki -8 -9 -12 -10     S = -37

 

Тогда математическое ожидание равно: М(Х)= 42,5+ 5·(-37)/40≈37,9.

 

П.2 Мода и медиана

Следующая средняя величина — мода. Ею пользуются в тех случаях, когда хотят охарактеризовать явление на основе значения признака, встречающегося чаще всего.

О п р е д е л е н и е. Мода — это наиболее часто встречающееся значение признака.

Необходимо подчеркнуть, что мода представляет собой наиболее частое значение признака, а не частоту этого значения.

Рассмотрим случай точечного распределения. В совокупности оценок успеваемости 2, 3, 4, 4, 4, 5, 5 модой является оценка 4, потому, что эта оценка встречается чаще других. Принято считать, что в случае, когда все значения оценок встречаются одинаково часто, совокупность данных моды не имеет. Например, в совокупности 3, 3, 3, 4, 4, 4, 5, 5, 5 моды нет.

Если две несмежные оценки в совокупности имеют равные частоты и они больше частот других оценок, то существуют две моды. В примере совокупности 2, 3, 3, 4, 5, 5 модами являются оценки 3 и 5. В этом случае говорят, что совокупность оценок является бимодальной. Большие совокупности данных являются бимодальными, если они образуют полигон относительных частот с двумя вершинами, даже тогда, когда частоты не строго равны. В последнем случае различают большие и малые моды. Наибольшей модой в группе данных называют то значение варианты, которое чаще встречается, т.е. удовлетворяет определению моды. В практике встречаются большие совокупности, имеющие несколько малых мод. Это характерно для полигона с тремя и более вершинами.

Мода, как мера центральной тенденции, имеет следующую интерпретацию. Мода является такой характеристикой, т.е. имеет такое значение, которое наилучшим образом «заменяет все значения». Когда заменяют модой любое значение ряда чисел, мы имеем наибольшую частоту совпадений с числами ряда. Таким образом, мода тоже является характеристикой, на основе которой можно составлять прогноз развития интересующего нас процесса.

Следует заметить, что для малых групп часто о такой замене не может быть и речи. Например, группа из пяти учащихся имеет следующие оценки: 2, 2, 2, 5, 5. Модальное значение данной группы равно 2. Эта цифра точно характеризует успеваемость первых трех учеников, но является слишком некорректной для двух других.

Теперь рассмотрим другой случай. Пусть распределение интервальное. Как в этом случае вычисляется мода? Для начала следует найти модальный интервал, т.е. интервал, которому соответствует максимальная частота ns. Если Х's - X''s -модальный интервал, а интервалы вариационного ряда имеют постоянную ширину h, то мода изучаемого признака вычисляется:

 

Мо Х=Х's +h· (ns-ns-1)/((ns-ns-1)+(ns-ns+1)),

 

где ns-1, ns+1 — частоты, находящиеся в соответствии с интервалами, предшествующим модальному и следующим за ним.

 

Пример 3.. Данные статистического исследования представлены в таблице:

Количественное Значение признака 120-140 140-160 160-180 180-200 200-220 220-240 240-260 260-280
Число Случаев                

Найти Мо Х-?

 

Р е ш е н и е. Т.к. максимальная частота (n =58) соответствует интервалу 180-200, то Х's=180, ns-1 =19, ns+1 =53. Значит,

Мo Х=180 + 20·(58-19)/(39+5)=197,73.

Еще одним показателем, характеризующим центральную тенденцию ряда, является медиана.

О п р е д е л е н и е. Медианой Ме Х называется значение признака, относительно которого генеральная совокупность делится на две равные по объему части, причем в одной из них содержатся члены, у которых значение признака не превосходит Ме Х, а в другой — не меньше Ме Х.

 

Пример 4.. Пусть в результате проведения опроса в контрольной и экспериментальной группах получены следующие данные (количество посещений музеев в год):

 

Группы Кол-ое значение признака
Контрольная  
Экспериментальная  

 

Расположим полученные ряды чисел по порядку от минимальных значений до максимальных:

 

Групы Кол-ое значение признака
Контрольная 2222233333333333 33444444444445555
Экспериментальная 2233333333344444 44444444445555555

 

Теперь можно назвать медиану для каждой группы (значение ее выделено). Но это очень приблизительное значение медианы. Для уточнения его следует использовать другой подход, аналогичный тому, который используется в случае интервального распределения.

Если распределение интервальное, то сначала надо найти медианный интервал X'p- X''p, интервал, в котором расположено значение признака, являющегося медианой. Тогда можно вычислить значение самой медианы по следующей формуле:

 

MеX = X'p +h· (n/2- w(X'p))/ np,

 

где h — ширина интервала, n — объем генеральной совокупности, w (Х'p) — накопленная частота до p-го интервала, np — частота p-го интервала, p — номер медианного интервала.

П р и м е р 7. Рассмотрим пример 5 и вычислим для данного вариационного ряда медиану. Для ее нахождения строим кумулятивный ряд:

 

xi 120-140 140-160 160-180 180-200 200-220 220-240 240-260 260-280
wi                

Найдем номер медианного интервала s из условия:

w(X'p) < n/2, w(X''p) > n/2. Имеем n/2=180/2=90. Тогда w(X'4)=84 < 90, w(X'5)=137 > 90, следовательно,

Ме Х = 200 + 20·(90-84)/53 =202,26.

Вернемся к примеру 6. Ранее было отмечено, что полученные нами значения медиан весьма приблизительны. Вычислим их точнее. Как и в случае интервального распределения,

 

M еX = X'p +h· (n/2- w(X'p))/ np,

 

здесь X'p — начало класса, в котором находится медиана,

h — величина классового промежутка,

np — частота медианного класса,

остальные обозначения имеют стандартное значение.

Найдем для каждой группы точное значение медианы.

Для контрольной: X'p = 3, h=1, n=33, w(X'p)=5, np=13. Значит,

Ме Х =3+1·(33/2-5)/13≈ 3,9.

Для экспериментальной группы: X'p = 4, h=1, n=33, w(X'p)=11, np=15. Значит,

Ме Х =4+1·(33/2-11)/15≈ 4,37.

Таким образом, мы можем сказать, что среднее число посещений театров в контрольной группе — 3,9, а в экспериментальной группе — 4,37.

Следует отметить, что каждая мера центральной тенденции числовых рядов обладает характеристиками, которые являются ценными в определенных условиях. Мода проще всего вычисляется, и для больших совокупностей она является достаточно стабильной мерой центра распределения. В малых совокупностях чисел мода, как правило, нестабильна. Например, для ряда чисел 333455 мода равна 3, но если одну из троек заменить 5, то мода станет уже равной пяти.

Медиана более стабильная числовая характеристика. На нее не влияют «большие» и «малые» варианты. Например, для больших совокупностей вариант медиана не изменится, если число максимальных или минимальных вариант резко изменится. Например, совокупности 22233334445555 и 33333334444445 имеют одинаковые медианы. А вот на величину математического ожидания влияет изменение каждого значения варианты. Для многих числовых совокупностей педагогических измерений мода близка к двум другим мерам - медиане и математическому ожиданию. Медиана занимает промежуточное положение между модой и математическим ожиданием.

Центральная тенденция совокупности данных с большими крайними выбросами наилучшим образом характеризуется медианой, когда гистограмма унимодальна. Например, достаточно одного большого крайнего значения, чтобы сместить математическое ожидание совокупности намного дальше, чем это характерно для данной выборки.

В симметричных унимодальных совокупностях математическое ожидание, мода и медиана совпадают, что соответствует нормальному распределению выборочных данных. Отсутствие симметрии в полигоне или гистограмме оказывает определенное влияние на соотношения между модой, медианой и математическим ожиданием. Если большинство оценок расположено слева от вершины полигона относительных частот, то математическое ожидание примет минимальное значение, мода - максимальное, а медиана - между ними. Если группа данных измерения выбрана из большой симметричной группы, то математическое ожидание выборки будет ближе к центру большой группы, чем медиана и мода.

Далее рассмотрим числовые характеристики выборочной совокупности, которые характеризуют вариации вокруг центральной тенденции. Их нахождение основывается на вычислении математического ожидания, которое, как отмечалось выше, имеет ограниченное применение и не подходит для вычисления по характеристикам успеваемости в баллах, а также для различных ранговых измерений.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 6031; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.35.203 (0.021 с.)