Меры центральной тенденции: мода, медиана, среднее. Преимущества и 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Меры центральной тенденции: мода, медиана, среднее. Преимущества и



Ограничения мер центральной тенденции. Отношения между мерами центральной

Тенденции в разных видах распределения.

В статистике под рядом распределения понимают распределе­ние частот по вариантам. Измеренные величины признака в вы борке варьируют в пределах от минимального до максимального значения. Этот предел разбивают на так называемые классовые интервалы, которые, в зависимости от конкретных данных, мо­гут быть как равными по величине, так и неравными.

Если по оси абсцисс — ОХ откладывать величины классовых интервалов, а по оси ординат — OY величины частот, попадаю­щих в данный классовый интервал, то получается так называе­мая гистограмма распределения частот. При этом над каждым классовым интервалом строится колонка или прямоугольник, площадь которого оказывается пропорциональной соответствую­щей частоте. Гистограмма представляет собой графическое изоб­ражение данного частотного распределения.

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ РАСПРЕДЕЛЕНИЙ

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Для экспериментальных данных, полученных по выборке, можно вычислить ряд числовых характеристик (мер).

Мода

Числовой характеристикой выборки, как правило, не требу­ющей вычислений, является так называемая мода. Мода — это такое числовое значение, которое встречается в выборке наибо­лее часто. Мода обозначается иногда как .

Так, например, в ряду значений (2, 6, 6, 8, 9, 9, 9, 10) мо­дой является 9, потому что 9 встречается чаще любого другого числа. Обратите внимание, что мода представляет собой наибо­лее часто встречающееся значение (в данном примере это 9), а не частоту встречаемости этого значения (в данном примере рав­ную 3).

Моду находят согласно следующим правилам:

1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 — в этой выборке моды нет.

2) Когда два соседних (смежных) значения имеют одинако­вую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений.

Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1).

Следовательно, модой этого ряда будет величина = 3,5

3) Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами явля­ются значения 11 и 14. В таком случае говорят, что выбор­ка является бимодальной.

Могут существовать и так называемые мультимодальные рас­пределения, имеющие более двух вершин (мод).

3) Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа на­зывается модальной группой.

Медиана

Медиана — обозначается (X с волной или Md) и опреде­ляется как величина, по отношению к которой по крайней мере 50% выборочных значений меньше неё и по крайней мере 50% — больше. Можно дать второе определение, сказав, что медиана — это значение, которое делит упорядоченное множество данных пополам.

Задача 4.1. Найдем медиану выборки: 9, 3, 5, 8, 4, 11, 13.

Решение. Сначала упорядочим выборку по величинам вхо­дящих в нее значений. Получим: 3, 4, 5, 8, 9, 11, 13. Поскольку в выборке семь элементов, четвертый по порядку элемент будет иметь зна­чение большее, чем первые три, и меньшее, чем последние три. Таким образом, медианой будет четвертый элемент — 8.

Задача 4.2. Найдем медиану выборки: 20, 9, 13, 1, 4, 11.

Упорядочим выборку: 1, 4, 9, 11, 13, 20. Поскольку здесь имеется четное число элементов, то существует две «середины» — 9 и 11. В этом случае медиана определяется как среднее арифме­тическое этих значений.

4.3. Среднее арифметическое

Среднее арифметическое ряда из числовых значений обозначается и подсчитывается как:

(4.1)

Здесь величины 1, 2...п являются так называемыми индексами. В том случае, если отдельные значения выборки повторяют­ся раз, среднюю арифметическую вычисляют по формуле:

.(4.2)

в таком случае называют взвешенной средней, где — ча­стоты повторяющихся значений.

Знак является символом операция суммирования. Он озна­чает, что все значения должны быть просуммированы. Числа, стоящие над и под знаком называются пределами суммирова­ния и указывают наибольшее и наименьшее значения индекса суммирования, между которыми расположены его промежуточ­ные значения.

Например, в формуле (4.1) суммирование начинается с пер­вого элемента выборки, поэтому и пишется так: = 1, и закан­чивается последним, поэтому наверху символа суммирования стоит величина п.

Если же мы запишем так: то, поскольку нижний индекс суммирования равен 4, а верх­ний равен 6, то будут просуммированы следующие элементы ряда и в результате будет получено: . Или, если будет написано следующее выражение: , то, поскольку нижний индекс суммирования равен 1, а верх­ний равен 3, то будут просуммированы следующие элементы ряда и ряда, и в итоге будет получено:

В дальнейшем мы будем пользоваться сокращением, которое состоит в том, что если производится суммирование всех эле­ментов выборки от первого до последнего, то верхний и нижний пределы суммирования указываться не будут, а пишется просто:

или .

При вычислении величины средней по таблице чисел в даль­нейшем будет использоваться следующая формула:

(4.3)

где значения всех переменных, полученных в эксперименте, или все элементы таблицы;

при этом индекс меняется от 1 до р, где р число стол­бцов в таблице, а индекс меняется от 1 до п,где п — число испытуемых или число строк в таблице.

Тогда — общая средняя всей анализируемой совокупности данных; N — общее число всех элементов в таблице (анализиру­емой совокупности экспериментальных данных) и в общем слу­чае N=

Символическое обозначение очень удобно. Например, пусть перед нами стоит задача — указать конкретный элемент нашей таблицы. Для этого мы должны знать номер столбца, на­пример 4, и номер строки (или порядковый номер испытуемо­го), например 5. Тогда его обозначение будет таково: . Это значит, что выбран пятый элемент в строчке из четвертого столбца.

Символ (двойная сумма) означает, что вначале осуще­ствляется суммирование всех элементов таблицы по индексу — т. е. по строкам, затем полученные суммы по строчкам складыва­ются по столбцам, или, иначе говоря, по индексу .

Следует подчеркнуть, что средние величины характеризуют выборку одним (средним) числом. Преимущество, или иначе, информативная значимость, средних величин заключается в их способности аккумулировать или уравновешивать все индивиду­альные отклонения, в результате чего проявляется то наиболее устойчивое и типичное, что характеризует качественное своеоб­разие варьирующего объекта, позволяя отличить одну выборку от другой, а на этой основе, например, одно измеренное психо­логическоесвойство от другого.

Однако среднее как статистический показатель не лишено недостатков. Так, например, при вычислении среднего количе­ства ошибок при выполнении корректурной пробы может быть получена величина равная 1,3 ошибки или при определении среднего числа учеников, обучающихся в пятых классах данной школы, может быть получена величина равная 30,07. Конечно, с точки зрения статистика эти величины обычны, но для психо­логических задач они могут быть неприемлемы.

Кроме того, среднее оказывается достаточно чувствительным к очень маленьким или очень большим величинам, отличаю­щимся от основных значений измеренных характеристик. Приве­дем пример из книги Дж. Б. Мангейма и Ричарда К. Рича: «Поли­тология. Методы исследования» М., 1997 г. «Пусть 9 человек име­ют доход от 4500 до 5200 тыс. долларов в месяц. Величина их среднего дохода равняется 4900 долларов. Если же к этой группе добавить человека, имеющего доход в 20000 тыс. долларов в ме­сяц, то средняя всей группы сместится и окажется равной 6410 Долларов, хотя никто из всей выборки (кроме одного человека) реально не получает такой суммы. Понятно, что аналогичное смещение, но в противоположную сторону можно получить и в том случае, если добавить в эту группу человека с очень малень­ким годовым доходом».

Важно подчеркнуть, что подобные крайние величины, т. е. те, которые существенно искажают величину средней, оказываются в то же время и наименее характерными для изучаемой генеральной совокупности. Именно поэтому в статистике, кроме средней величины, используются и другие характеристики «типичных значений» выборки, такие, как мода, медиана и ряд других ха­рактеристик.

4.4. Разброс выборки

Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки — разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т. е.

Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот.

Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:

X = 1040 = 30, R = 40

=1032 = 30 = 40

При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует об­ратиться к их распределениям.

4.5. Дисперсия

Рассмотрим еще одну очень важную числовую характеристи­ку выборки, называемую дисперсией. Дисперсия представляет со­бой наиболее часто использующуюся меру рассеяния случайной величины (переменной). Дисперсия это среднее арифметическое квадратов отклонений значений переменной от её среднего зна­чения.

, (4.4)

где п — объем выборки

— индекс суммирования

— среднее, вычисляемое по формуле (4.1).

Вычислим дисперсию следующего ряда

Прежде всего найдем среднее ряда (4.5). Оно равно .

Рассмотрим величины: для каждого элемента ряда. Иными словами, из каждого элемента ряда 4.5 вычтем величину среднего этого ряда. Полученные величины характеризуют то, насколько каждый элемент отклоняется от средней величины в данном ряду. Обозначим полученную совокупность разностей как множество Т. Тогда Т есть:

== -4; 4 - 6 = -2; 6 - 6 = 0; 8 - 6 = 2;= 4).

Так образуется новый ряд чисел. Его особенность в том, что
при сложении этих чисел обязательно получится ноль. Прове
рим: (-4) + (-2) + 0 + 2 + 4 = 0.

Получить полный текст

Отметим, что сумма такого ряда всегда будет равна нулю, т. е.

Для того чтобы избавиться от нуля, каждое значение разности возводят в квадрат, все их суммируют и затем делят на число элементов, т. е. применяют формулу (4.4). В нашем примере получится следующее:

Это и есть искомая дисперсия.

Общий алгоритм вычисления дисперсии для одной выборки следующий:

1. Вычисляется среднее по выборке.

2. Для каждого элемента выборки вычисляется его отклонение от средней, т. е. получается множество Т.

3. Каждый элемент множества Т возводят в квадрат.

4. Находится сумма этих квадратов.

5. Эта сумма, как и в случае вычисления среднего, делится на общее количество членов ряда — п. В ряде случаев, особенно когда величина выборки мала, деление осуществляется не на величину п, а на величину п —1.

Величина, получающаяся после пятого шага, и есть искомая дисперсия.

Расчет дисперсии для таблицы чисел осуществляется по фор­муле 4.6:

. (4.6)

где — значения всех переменых, полученных в эксперименте, или все элементы таблицы;

индекс j меняется от 1 до р, где р число столбцов в таб­лице, а индекс меняется от 1 до п, где п — число ис­пытуемых или число строк в таблице.

- общая средняя всех элементов таблицы, вычисленная по формуле (4.3);

N — общее число всех элементов в таблице (анализируемой совокупности экспериментальных данных) и в общем случае N =

Дисперсию для генеральной совокупности принято обозна­чать как , а дисперсию выборки как , причем индекс х обо­значает, что дисперсия характеризует варьирование числовых значений признака вокруг их средней арифметической.

Преимущество дисперсии перед размахом в том, что диспер­сию можно представить как сумму ряда чисел (согласно ее определению), т. е. разложить на составные компоненты, позволяя тем самым более подробно охарактеризовать исходную выборку. Важная характеристика дисперсии заключается также и в том, что с её помощью можно сравнивать выборки, различные по объему.

Однако сама дисперсия, как характеристика отклонения от среднего, часто неудобна для интерпретации. Так, например, предположим, что в эксперименте измерялся рост в сантимет­рах, тогда размерность дисперсии будет являться характеристи­кой площади, а не линейного размера (поскольку при подсчете дисперсии сантиметр возводится в квадрат).

Для того чтобы приблизить размерность дисперсии к размер­ности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называ­ют стандартным отклонением.

Из суммы квадратов, деленных на число членов ряда извле­кается квадратный корень.

(4.7)

Другими словами, стандартное отклонение выборки Sx пред­ставляет собой корень квадратный, извлеченный из дисперсии выборки и характеризует величину среднего отклонения наблюдаемых случайных чисел от среднего значения выборки.

Стандартное отклонение для генеральной совокуп­ности обозначают также символом Подчеркнем еще раз, что размерность стандартного отклонения и размерность исходного ряда совпадают. В нашем примере .

4.6. Степень свободы

Число степеней свободы это число свободно варьирующих единиц в составе выборки. Так, если вся выборка состоит из п элементов и характеризуется средней , то любой элемент этой совокупности может быть получен как разность между величиной и суммой всех остальных элементов, кроме самого этого элемента.

Пример. Рассмотрим ряд (4.5): Мы помним, что сред­няя этого ряда равна 6. В этом ряду 5 чисел, следовательно N = 5. Предположим, что мы хотим получить последний элемент ряда (4.5) — 10, зная все предыдущие элементы и среднее этого ряда. Тогда:

= 10.

Предположим, что мы хотим получить первый элемент ряда (4.5) — 2, зная все последующие элементы и среднее этого ряда. Тогда:

= 2 и т. д.

Следовательно, один элемент выборки не имеет свободы ва­риации и всегда может быть выражен через другие элементы и среднее. Это означает, что число степеней свободы у выборочно­го ряда обозначаемое в таких случаях символом будет опреде­ляться как = п -1, где п — общее число элементов ряда (вы­борки).

При наличии не одного, а нескольких ограничений свободы вариации, число степеней свободы, обозначаемое как (гречес­кая буква ню) будет равно , где соответствует числу ограничений свободы вариации.

В общем случае для таблицы экспериментальных данных число степеней свободы будет определяться по следующей формуле:

. (4.8)

где с — число столбцов, а п — число строк (число испытуемых).

Следует подчеркнуть, однако, что для ряда статистических методов расчет числа степеней свободы имеет свою специфику.



Поделиться:


Последнее изменение этой страницы: 2017-02-17; просмотров: 1711; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.128.198.21 (0.046 с.)