Глава 5. Описательная статистика 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Глава 5. Описательная статистика



Глава 5. Описательная статистика

Статистическое наблюдение

Основные понятия

Для проведения полного и глубокого статистического анализа психологического явления необходимо располагать объективной информационной базой. Формирование информационной базы требует организации статистического наблюдения.

Статистическое наблюдение — это научно организованный сбор массовых данных об исследуемых психологических процессах и явлениях, проводимый по заранее разработанной программе.

Статистическая совокупность (генеральная статистическая совокупность, популяция) — это множество однородных объектов или явлений, объединенных по какому-либо критерию. Отдельные объекты или явления, входящие в статистическую совокупность, называются членами или единицами статистической совокупности.

В педагогических и психологических исследованиях в качестве статистических совокупностей рассматриваются группы людей. Общее число членов статистической совокупности называется объемом или размером. В психологии основную роль играют специально организованные наблюдения в статистических совокупностях. Далее проводится сбор сведений о значениях тех признаков в группе, которые интересуют исследователя. Такие сведения называются первичными эмпирическими данными (исходными статистическими данными).

Виды статистических наблюдений

В зависимости от степени охвата единиц совокупности наблюдение бывает — сплошное и несплошное. Несплошные наблюдения бывают выборочные или монографические. При выборочном наблюдении обследованию подвергается отобранная в определенном порядке часть элементов совокупности, а полученные результаты распространяются на всю совокупность.

Выборочной статистической совокупностью (выборкой) называют часть статистической совокупности, которая подвергается измерениям. При сплошном статистическом наблюдении выборка совпадает со всей статистической совокупностью. В зависимости от объема различают: малые выборки (не более 30 членов); средние выборки (более 30 членов и не более 100 членов); большие выборки (более 100 членов).

Основные способы формирования выборочной совокупности:

– критериальный отбор (при изучении психологических явлений критериями отбора могут быть возрастные, личностные или иные критерии);

– случайный отбор;

– механический отбор (члены выборочной совокупности отбираются из упорядоченной генеральной по некоторому правилу, к примеру, каждый двадцатый);

– типический (расслоенный) отбор (совокупность разбивается на типически однородные группы, и выбор из каждой группы проводится случайным или механическим способом).

Репрезентативность выборки обеспечивается именно третьим способом.

При монографическом обследовании тщательному изучению подвергаются отдельные элементы совокупности. Цель — дополнить массовое обследование. По времени проведения наблюдение бывает: непрерывным (текущим – мониторингом); периодическим; единовременным.

В зависимости от источников получения данных различают: непосредственное наблюдение, документальное наблюдение, опрос. Непосредственное наблюдение — информация в результате наблюдений — например, оценка поведения и т.п. Документальное наблюдение — по документам, даже по предыдущим исследованиям. Опрос — сведения фиксируются в бланках анкет со слов опрашиваемых.

Статистические таблицы

При статистическом наблюдении значения признаков членов статистической совокупности измеряются и записываются.

Статистическая таблица — форма рациональной и наглядной записи значений признаков членов исследуемых статистических совокупностей. В психологических исследованиях чаще всего используют простые или перечневые таблицы. Такие таблицы включают как подлежащее перечень элементов совокупности и как сказуемое — наименования признаков.

Первичные эмпирические данные (далее следует название, указывающее специфику метода)

NN

пп

Наименование объекта статистической совокупности

Значения признаков

Признак А Признак Б Признак В Признак Г ...
1            
2            
3            

Таблица — исходный материал для статистической обработки информации.

Виды измерений

Чтобы собрать первичные эмпирические данные, значение исследуемого признака нужно, прежде всего, измерить. Измерить — значит найти числовое значение признака.

Существуют различные подходы к измерениям и виды измерений. В психологии и педагогике обычно используют следующие виды измерений: количественные измерения, порядковые (ранговые) измерения, номинальные измерения.

Количественные измерения

Количественные измерения — это обычные измерения для признаков, имеющих единицы измерения. Например, температура в градусах по Цельсию, рост в сантиметрах, время реакции в секундах и т.п. Количественные измерения могут проводиться с помощью специальных измерительных приборов: метра, секундомера, тонометра и т.п. Часть признаков может быть измерена как численный результат испытаний. Например, способности ученика можно оценить количеством выполненных заданий из определенного набора (теста).

Есть признаки, значения которых определяются по известным правилам. Например, оценка выполнения задания в школе определяется в баллах (есть правила выставления оценок за письменные работы). В фигурном катании, в спортивной гимнастике судьи также выставляют оценки по определенным правилам (система снижения оценок за отдельные ошибки).

Номинальные измерения

Номинальные измерения (измерения в шкале наименований) — это отнесение объекта к определенному классу, то есть классификация объектов. За основу классификации берется определенный признак или свойство. Например, если изучается группа учеников, то признак пола дает возможность классифицировать учеников, т.е. отнести их к мужскому или женскому полу.

Альтернативные признаки – это номинальные признаки, которые имеют только два значения.

Методы ранжирования

Метод парных сравнений

При проведении порядковых измерений часто пользуются методом парных сравнений. Приведем пример ранжирования пяти минералов по твердости. Если минерал А тверже минерала В, то А оставляет след, когда им царапают минерал В. Таким образом, минералы можно расположить по возрастанию твердости и присвоить места в группе от 1 до 5.

Рассмотрим другой пример. Пусть следует проранжировать несколько писателей в соответствии с предпочтениями некоторого эксперта. Для этого составляется прямоугольная таблица – матрица предпочтений.

Матрица предпочтений

N   1 2 3 4 5 6 Сумма Место Ранг
1 Пикуль 0 1 0 0 1 0 2 3 3
2 Иванов 0 0 0 0 0 0 0 1 1
3 Булгаков 1 1 0 0 1 1 4 5 5,5
4 Платонов 1 1 0 0 1 1 4 6 5,5
5 Бондарев 0 1 0 0 0 0 1 2 2
6 Максимов 1 1 0 0 1 0 3 4 4

Единица в строке 3 на месте 5 означает, что эксперт предпочитает писателя в строке 3 писателю в строке 5. По строкам единицы суммируются и получаются некие количественные оценки для каждого писателя. Далее поступают аналогично предыдущему случаю ранжирования. Если сумма (оценка) в предпоследнем столбце равна у нескольких писателей, то в этом случае ранг равен среднему арифметическому тех мест, которые должны делить эти писатели. В нашем примере делятся пятое и шестое места, поэтому ранги равны половине суммы 5 и 6.

Полигон распределения

Полигоном распределения (полигоном) называют диаграмму для изображения дискретного вариационного ряда. Пусть имеется дискретный ряд распределения

Варианты 17 18 19 20 21 22 23 24
Частоты 1 3 5 8 12 9 5 2

На плоскости строится прямоугольная система координат. На горизонтальной оси отмечаются точки — варианты. Слева и справа от крайних вариантов отмечают еще по одной точке, как бы еще по одному варианту с частотой, равной 0.

В каждой такой точке восстанавливается перпендикуляр, длина которого равна частоте варианта. Концы перпендикуляров, начиная с левого фиктивного варианта, последовательно соединяют отрезками прямых (см. рис. 2). Это и есть полигон для рассматриваемого признака. Полигон, в переводе с греческого, — многоугольник. Другое название — экспериментальная кривая распределения частот.

Рис. 2

5.2. Гистограмма (столбиковая диаграмма)

Гистограммы (столбиковые диаграммы) используются для изображения интервальных вариационных рядов. Пусть дан интервальный ряд распределения из п. 4.3.

Интервалы 6,5 – 7,5 7,5 – 8,5 8,5 – 9,5 9,5 – 10,5 10,5 – 11,5
Частоты 3 12 23 14 8

На плоскости строится прямоугольная система координат. На горизонтальной оси отмечаются точки, концы интервалов ряда. На каждом интервале, как на основании, строится прямоугольник, высота которого равна частоте признака (рис. 3). Результатом построения и является гистограмма.

Рис. 3

Кумулята

Кумулятой называют диаграмму для изображения кумулятивного ряда. Для дискретного признака кумулята строится с помощью кумулятивного ряда распределения. На горизонтальной оси добавляют только один левый фиктивный вариант с частотой, равной 0. Для кумулятивного дискретного ряда п. 4.4 кумулята будет выглядеть, как представлено на рис. 4.

Варианты 17 18 19 20 21 22 23 24
Накопл. част. 1 4 9 17 29 38 43 45

Рис. 4

При построении кумуляты для интервального ряда распределения, его заменяют дискретным (за вариант берется середина интервала) и построения делают, как в предыдущем случае. Для кумулятивного ряда распределения

Интервалы 6,5 – 7,5 7,5 – 8,5 8,5 – 9,5 9,5 – 10,5 10,5 – 11,5
Накопл. част. 3 15 38 52 60

кумулятивный дискретный ряд будет иметь вид

Варианты 7 8 9 10 11
Накопл. част. 3 15 38 52 60

Построенная кумулята изображена на рис. 5.

Рис. 5

 6. Показатели центра распределения

Основные понятия

Любой многоэлементный объект человек обычно оценивает небольшим числом параметров. Для описания центра в физике известно понятие центра тяжести (центра масс), в геометрии — центра симметрии. Для описания центра статистического явления используется понятие центра распределения. Традиционно в статистике используют следующие показатели центра распределения: мода, медиана, среднее арифметическое.

Мода

Мода — это значение признака, которое в выборке имеет наибольшую частоту, обозначается Mo. Для дискретного признака мода вычисляется очень легко. Например, для дискретного ряда распределения

Варианты 17 18 19 20 21 22 23 24
Частоты 1 3 5 8 12 9 5 2

В данном случае наибольшую частоту имеет варианта 21. Следовательно, Mo =21. Если дискретный ряд распределения представлен в виде полигона, то мода — это варианта, в которой график имеет вершину. Дискретный признак может иметь одну моду, тогда он называется унимодальным, иметь две моды (две вершины полигона), тогда он называется бимодальным. Признак может вообще не иметь моды (более двух значений имеют одинаковую наибольшую частоту).

Если признак непрерывный, то мода вычисляется следующим образом. Пусть дан непрерывный признак с интервальным рядом распределения

Интервалы 6,5 – 7,5 7,5 – 8,5 8,5 – 9,5 9,5 – 10,5 10,5 – 11,5
Частоты 3 12 23 14 8

Пусть x1 — начало интервала с наибольшей частотой fM. Частота на предыдущем интервале f (–), на последующем — f (+). Мода вычисляется по формуле

.

В нашем случае имеем .

Медиана

Медиана — это число, которое на числовой оси делит все измеряемые значения признака на две равные по количеству группы: одни наблюдения не больше этого числа, другие — не меньше. Обозначается Me.

Для дискретных признаков медиана находится по следующим правилам. Все наблюдения (с повторениями значений, если они есть) выстраивают в порядке возрастания. Находится число (n +1)/2. Если объем выборки n число нечетное, то это число конкретное и является номером члена в упорядоченной выборке. Например: 2, 5, 6, 6, 8, 10, 13, 14, 16, то п = 9 и (п + 1)/2 = 5. Медианой будет пятое значение в этом ряду (подчеркнуто): Me = 8. Если объем выборки число четное, то (n +1)/2 — дробное число. За медиану берут полусумму двух соседних значений. Например: 3, 5, 5, 7, 10, 11, 15, 17; п = 8 и (п + 1)/2 = 4,5. Медиана есть полусумма четвертого и пятого значений (подчеркнуты): Me = (7 + 10)/2 = 8,5. Повторения в ряду наблюдений могут попасть в середину упорядоченной выборки. Это правил подсчета не меняет. Например, 1, 2, 4, 4, 4, 7, 9; n = 7; в данном случае Me = 4. Если имеем выборку вида 3, 5, 8, 8, 8, 10, 11, 15; здесь п = 8, Me = 8. В примере п. 4.2 M e = 21.

Для непрерывных признаков медиана вычисляется с помощью интервального и кумулятивного рядов. Пусть дан интервальный ряд распределения и одновременно построен кумулятивный:

Интервалы 6,5 – 7,5 7,5 – 8,5 8,5 – 9,5 9,5 – 10,5 10,5 – 11,5
Частоты 3 12 23 14 8
Нак. част. 3 15 38 52 60

Пусть x 1 — начало, а x 2 — конец интервала с частотой fM е, на котором находится медиана. До интервала накоплена частота f (–). Будем искать медиану по формуле

.

Объем выборки n = 60 — число четное, (n +1)/2 = 30,5. По правилам для дискретных признаков надо искать полусумму 30-го и 31-го значений в упорядоченном ряду наблюдений. Эти значения находятся на интервале (8,5; 9,5), так как по кумулятивному ряду до этого интервала накопленная частота равна 15 (< 30,5), а вместе с интервалом — 38 (> 30,5). Тогда x 1 = 8,5; x 2 = 9,5; fM е, = 23; f (–) = 15. Используя формулу выше, получим

M e = 8,5 + (30,5 – 15) (9,5 – 8,5)/23 = 8,5 + 15,5/23» 9,174.

Показатели вариации

Размах вариации. Лимиты

Вариация — это изменчивость, рассеяние признака. Размах вариации (РВ) — это разность наибольшего и наименьшего значений признака в выборке, РВ = xmaxxmin.

Лимиты (диапазон) — это значения xmax и xmin.

Размах вариации показывает общую границу изменчивости признака. Показатель прост, но является слишком поверхностной оценкой, так как не дает представления об особенностях распределения значений внутри общих границ. Например, ряды наблюдений 1, 2, 4, 5, 7, 8, 10, 11 и 1, 5, 5, 6, 6, 7, 7, 11 имеют одни и те же лимиты (xmin = 1, xmax = 11), один и тот же размах вариации (РВ = 10), но значения признаков имеют совершенно отчетливые различия в расположении. В первом случае значения равномерно располагаются по области значений, во втором — концентрируются около значения признака, равного 6.

Среднее линейное отклонение

Среднее линейное отклонение (MD) — это среднее арифметическое абсолютных величин отклонений:

или .

Формула достаточно проста и понятна, но на практике, как правило, не используется, так как плохо согласуется с теоретическими оценками теории вероятностей.

Выборочная дисперсия

Во избежании необходимости оценивать отклонения по абсолютной величине, используют оценку, которая носит название выборочной дисперсии или просто дисперсии (). Для вычисления выборочной дисперсии в формуле для среднего отклонения абсолютные величины отклонений заменяют их квадратами, а в знаменателе вместо n записывают n –1 (это следствие из общей теории):

.

В случае, когда признак является дискретным и для него составлен дискретный ряд распределения

Варианты v 1 v 2 ... vk
Частоты m 1 m 2 ... m k

формула для дисперсии получает вид

, здесь k < n.

Если для признака составлен интервальный ряд распределения, то вместо вариантов берутся середины интервалов.

Стандартное отклонение

Выборочная дисперсия вычисляется как среднее квадратов отклонений. Возведение в квадрат несколько изменяет характер оценки вариации. Поэтому на практике чаще используют корень квадратный из дисперсии, т.е. стандартное отклонение .

Подставив выражение для выборочной дисперсии, получаем

.

Если построен вариационный ряд, то

,

где vi — варианты или середины интервалов, а mi — частоты.

Стандартное отклонение называют также средним квадратическим или средним квадратичным отклонением. Стандартное отклонение имеет те же единицы измерения, что и основной признак.

Стандартное отклонение позволяет с достаточной полнотой оценить характер отклонений признака от среднего арифметического. Если у двух рядов наблюдений одно и то же среднее арифметическое, то у ряда, в котором большие отклонения встречаются чаще, больше стандартное отклонение. Например, два ряда наблюдений имеют такие средние арифметические и стандартные отклонения: 1, 2, 4, 5, 7, 8, 10, 11;  = 6; s = 3,625;

1, 5, 5, 6, 6, 7, 7, 11;  = 6; s = 2,777.

Лимиты, размахи и средние арифметические равны, но стандартное отклонение для первого ряда больше, т.к. большие отклонения встречаются чаще, чем во втором ряду.

 

Оценка формы распределения

Асимметрия

При оценке свойств измеряемого признака большое значение имеет симметрия частот отклонений относительно среднего арифметического. Она сказывается на форме полигона (гистограммы) распределения (форме распределения). Пусть по ряду наблюдений вычислены среднее арифметическое и ряд отклонений. Распределение частот симметрично, если отклонения со знаком "плюс" встречаются столько же раз, сколько такие же по абсолютной величине отклонения со знаком "минус". Симметрию легко выявить по полигону (ветви полигона симметричны относительно вершины) или по гистограмме. Для количественной оценки несимметричности распределения введен коэффициент асимметрии или просто асимметрия, который вычисляется по формуле

где s — стандартное отклонение. Если As = 0, распределение частот симметричное. Если As > 0, то чаще встречаются отклонения со знаком "плюс", и говорят о правосторонней асимметрии (полигон вытянут вправо относительно высшей точки). Если As < 0, то чаще встречаются отклонения со знаком "минус", и говорят о левосторонней асимметрии (полигон вытянут влево относительно высшей точки). На рис. 7 эти особенности схематично отображены.

Рис. 7

Эксцесс

Эксцесс (Ex) — это показатель, который описывает форму кривой распределения в смысле островершинности или плосковершинности. Обычно этот показатель применяют для описания унимодальных распределений частот.

Вершина полигона острая, если небольшое число вариант около моды имеет превосходство в величине частоты (рис. 8).

Рис. 8 Рис. 9

Если варианты в районе моды имеют примерно сравнимые частоты, то полигон будет плосковершинным (рис. 9). Значение эксцесса вычисляется по формуле

,

где s — стандартное отклонение. Если Ex = 0, распределение частот характеризуется как нормальное (встречается чаще всего). Если Es > 0, то распределение островершинное (рис. 8). Если Ex < 0, то распределение плосковершинное (рис. 9).

Глава 5. Описательная статистика

Статистическое наблюдение

Основные понятия

Для проведения полного и глубокого статистического анализа психологического явления необходимо располагать объективной информационной базой. Формирование информационной базы требует организации статистического наблюдения.

Статистическое наблюдение — это научно организованный сбор массовых данных об исследуемых психологических процессах и явлениях, проводимый по заранее разработанной программе.

Статистическая совокупность (генеральная статистическая совокупность, популяция) — это множество однородных объектов или явлений, объединенных по какому-либо критерию. Отдельные объекты или явления, входящие в статистическую совокупность, называются членами или единицами статистической совокупности.

В педагогических и психологических исследованиях в качестве статистических совокупностей рассматриваются группы людей. Общее число членов статистической совокупности называется объемом или размером. В психологии основную роль играют специально организованные наблюдения в статистических совокупностях. Далее проводится сбор сведений о значениях тех признаков в группе, которые интересуют исследователя. Такие сведения называются первичными эмпирическими данными (исходными статистическими данными).



Поделиться:


Последнее изменение этой страницы: 2021-02-07; просмотров: 200; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.216.201.93 (0.057 с.)