Методы группировок в статистике 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Методы группировок в статистике



Под статистической группировкой понимается распределение единиц наблюдения по группам по одному или нескольким признакам. Эти признаки называются группировочными. В зависимости от задач исследования строят типологические, структурные и аналитические группировки.

Типологическая группировка представляет собой распределение единиц наблюдения качественно неоднородной совокупности по социально-экономическим типам, классам, качественно однородным группам. Например, распределение совокупности предприятий по формам собственности (табл. 3.1); отраслям экономики; размеру бизнеса - малые, средние и крупные предприятия (отнесение к ним идет сразу по нескольким критериям); банков - на государственные и коммерческие и т.д. Основная задача типологической группировки - идентификация и описание типов исследуемого явления. Число выделяемых групп определяется количеством типов, классов, однородных групп, т.е. самим характером явления.

Распределение предприятий и организаций по формам собственности на 1 января 2006 г.

Форма собственности Число предприятий и организаций, тыс.
Государственная  
Муниципальная  
Собственность общественных и религиозных объединений (организаций)  
Частная 3 838
Прочие формы собственности, включая смешанную российскую, иностранную, совместную российскую и иностранную  
Всего 4 767

Источник: Россия в цифрах. 2006: Крат. стат. сб. / Росстат. М., 2006. С. 167.*

* Далее, если на источник отсутствует ссылка, приведенные в таблице данные являются условными.

При структурной группировке разделение единиц однородной совокупности на группы происходит с целью выявления ее структуры по одному из признаков. Например, распределение наемных работников по полу, возрасту; распределение предприятий по численности работающих и т.д. Примером структурной группировки являются данные табл. 3.2.

Таблица 3.2

Структура работников по стажу работы на предприятии

Стаж работы, лет Число работников Число работников в процентах к итогу
До 2    
2–4    
4–6    
6–8    
8 и более    
Итого    

Важную роль в статистическом анализе играют аналитические группировки. С их помощью определяют наличие связи между признаками и ее направление. При этом один из признаков является результативным, а другой - факторным. Результативный признак меняется под воздействием факторного признака.

При построении аналитической группировки в качестве группировочного признака всегда выбирают факторный признак. В каждой выделенной группе рассчитывают среднее значение результативного признака. Например, в табл. 3.3 компании сгруппированы по величине затрат на рекламу. В каждой группе определен средний размер товарооборота. Из таблицы видно, что чем больше внимания компании уделяют рекламе, тем значительнее результаты их деятельности, выражающиеся в объеме товарооборота.

Таблица 3.3

Распределение компаний по затратам на рекламу и объему товарооборота

Затраты на рекламу в год, млн руб. Число компаний Объем товарооборота в среднем на одну компанию, млн руб.
До 3    
3–5    
5–7    
7 и более    
Итого    

Связь между признаками называется прямой, если с ростом значений факторного признака увеличиваются значения результативного признака. Связь является обратной, если увеличение значений факторного признака приводит к уменьшению значений результативного признака. В нашем примере рост затрат на рекламу вызвал увеличение объемов товарооборота, значит между этими признаками наблюдается прямая связь.

В зависимости от количества признаков, по которым проводится группировка, различают простые и сложные группировки. Если груп­пировка проводится по одному признаку, то она называется простой (см. табл. 3.1, 3.2). Если единицы совокупности группируются сразу по двум или более признакам, то такая группировка называется сложной. При этом внутри групп, образованных по одному признаку, единицы совокупности подразделяются на подгруппы по другому признаку. Примером сложной группировки является группировка учащихся на потоке по двум признакам - полу и возрасту. Ее результаты могут быть представлены в виде таблицы (табл. 3.4).

Распределение учащихся на потоке по полу и возрасту

Возраст, лет Пол Итого
мужчины женщины  
До 14      
       
       
17 и более      
Итого      

 

Вторичная группировка данных. На практике часто возникают ситуации, когда по имеющимся сгруппированным данным требуется построить новую группировку. При этом, как правило, массив первичных данных оказывается недоступным. Тогда прибегают к методам вторичной группировки данных.

Вторичной группировкой называется перегруппировка уже сгруппированных данных без обращения к массиву первичных данных. Для этой цели применяются два подхода: объединение первоначальных интервалов, если границы новых и старых групп совпадают, и долевая перегруппировка данных при несовпадении границ.

Метод объединения первоначальных интервалов продемонстрируем на следующем примере. Предположим, что исходные данные представляют собой ряд, приведенный в табл. 3.5.

Распределение работников фирмы по размеру заработной платы

Номер интервала Заработная плата, руб. Численность работающих, чел.
  2 000–3 000  
  3 000–4 000  
  4 000–5 000  
  5 000–6 000  
  6 000–7 000  
  7 000 и выше  
Итого -  

Перегруппируем данные и образуем новые интервалы: «2000–4000», «4000–6000», «6000 и выше». Поскольку границы новых и старых интервалов совпадают, легко видеть, что в первый новый интервал «2000-4000» попадут работники первого и второго интервалов исходной группировки (16 + 40 = 56 чел.), во второй новый интервал - работники третьего и четвертого интервалов исходной группировки (65 + 58 = 123 чел.), в третий новый интервал - работники двух последних интервалов (44 + 17 = 61 чел.). Результаты перегруппировки представлены в табл. 3.6.

Распределение работников фирмы по размеру заработной платы (вторичная группировка)

Номер интервала Заработная плата, руб. Численность работающих, чел.
  2 000–4 000  
  4 000–6 000  
  6 000 и выше  
Итого -  

Долевая перегруппировкавка базируется на принципе равномерности распределения единиц наблюдения внутри границ интервальных групп. В результате ее проведения рассчитывают, какая часть единиц наблюдения перейдет из старой интервальной группы в новую.

Пример 3.1. «Перегруппируем данные табл. 3.5 и образуем новые интервалы: «2000–3400»; «3400–4800»; «4800–6200»; «6200 и выше». Распределим единицы совокупности по новым интервалам.

В первый новый интервал войдут из исходной группировки все единицы первого интервала и часть единиц из второго интервала. Эту часть мы определяем следующим образом. Новая граница «3400» разбивает второй интервал на два отрезка: «3000–3400» и «3400–4000». Находим, какую долю составляет длина отрезка «3000–3400» от длины второго интервала. Она равна . Значит, от 40 единиц, находившихся во втором интервале исходной группировки, следует взять для нового первого интервала 16 единиц . Тогда первый новый интервал будет содержать 32 единицы (16 + 16).

Во второй новый интервал войдут оставшиеся от второго интервала исходной группировки 24 единицы (40 – 16) и часть единиц из третьего интервала. Для этого мы находим, какую долю составляет отрезок «4000–4800» от длины третьего интервала «4000–5000». Она равна . Значит, от 65 единиц следует взять для второго нового интервала 52 единицы . Итак, второй интервал новой группировки будет содержать 76 единиц (24 + 52).

В третий интервал вторичной группировки войдут оставшиеся 13 единиц (65 – 52 = 13) третьего интервала исходной группировки, все единицы ее четвертого интервала (58 ед.) и 9 единиц пятого интервала

В последний интервал новой группировки войдут оставшиеся 35 единиц (44 – 9 = 35) пятого интервала и все 17 единиц последнего интервала, т.е. 52 единицы (35 + 17).

При проверке правильности расчетов видим, что сумма единиц совокупности осталась равной 240.

Результаты вторичной группировки приведены в следующей таблице.

Распределение работников фирм по размеру заработной платы

Номер интервала Заработная плата, руб. Численность работающих, чел.
  2 000–3 400  
  3 400–4 800  
  4 800–6 200  
  6 200 и выше  
Итого -  

 

Результаты группировки собранных статистических данных, как правило, представляются в видеиде рядов распределения. Ряд распределения - это упорядоченное распределение единиц совокупности на группы по изучаемому признаку.

Ряды распределения делятся на атрибутивные и вариационные, в зависимости от признака, положенного в основу группировки. Если признак качественный, то ряд распределения называется атрибутивным. Примером атрибутивного ряда является распределение предприятий и организаций по формам собственности (см. табл. 3.1).

Если признак, по которому строится ряд распределения, количественный, то ряд называется вариационным.

Вариационный ряд распределения всегда состоит из двух частей: вариант и соответствующих им частот (или частостей). Вариантой называется значение, которое может принимать признак у единиц совокупности, частотой - количество единиц наблюдения, обладающих данным значением признака. Сумма частот всегда равна объему совокупности. Иногда вместо частот рассчитывают частости - это частоты, выраженные либо в долях единицы (тогда сумма всех частостей равна 1), либо в процентах к объему совокупности (сумма частостей будет равна 100%).

Вариационные ряды бывают дискретными и интервальными. У дискретных рядов (табл. 3.7) варианты выражены конкретными числами, чаще всего целыми.

Распределение работников по времени работы в страховой компании

Время работы в компании, полных лет (варианты) Число работающих  
человек (частоты) в % к итогу (частости)
до года   11,6 13,2 14,7 20,2 7,8 13,9 18,6
Итого   100,0

 

В интервальных рядах (см. табл. 3.2) значения показателя задаются в виде интервалов. Интервалы имеют две границы: нижнюю и верхнюю. Интервалы могут быть открытыми и закрытыми. У открытых нет одной из границ, так, в табл. 3.2 у первого интервала нет нижней границы, а у последнего - верхней. При построении интервального ряда в зависимости от характера разброса значений признака используют как равные интервальные промежутки, так и неравные (в табл. 3.2 представлен вариационный ряд с равными интервалами).и).

Если признак принимает ограниченное число значений, обычно не больше 10, строят дискретные ряды распределения. Если вариант больше, то дискретный ряд теряет свою наглядность; в этом случае целесообразно использовать интервальную форму вариационного ряда. При непрерывной вариации признака, когда его значения в определенных пределах отличаются друг от друга на сколь угодно малую величину, также строят интервальный ряд распределения.

Рассмотрим методику построения дискретных вариационных рядов на примере.

Пример 3.2. Имеются следующие данные о количественном составе 60 семей:

2 3 3 1 4 2 3 3 1 5 2 4 3 2 2 1 2 3 4 5

2 2 1 3 4 3 3 3 6 6 3 3 6 1 3 4 3 4 4 5

3 3 2 2 1 3 2 5 5 2 4 3 6 1 2 2 3 1 3 4.

Для того чтобы получить представление о распределении семей по числу их членов, следует построить вариационный ряд. Поскольку признак принимает ограниченное число целых значений строим дискретный вариационный ряд. Для этого сначала рекомендуется выписать все значения признака (число членов в семье) в порядке возрастания (т.е. провести ранжирование статистических данных):

1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2

2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6.

Затем необходимо подсчитать число семей, имеющих одинаковый состав. Число членов семей (значение варьирующего признака) - это варианты (будем их обозначать через х), число семей, имеющих одинаковый состав,- это частоты (будем их обозначать через f). Результаты группировки представим в виде следующего дискретного вариационного ряда распределения:

Число членов семьи (х) Число семей (f)
   
   
   
   
   
   
Итого  

Покажем методику построения интервальных вариационных рядов распределения на следующем примере.ре.

Пример 3.3. В результате статистического наблюдения получены следующие данные о средней величине процентной ставки 50 коммерческих банков (%):

14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,0 14,3 18,0 15,1 23,8 18,5 14,4 21,0 19,0

 

Как видим, просматривать такой массив данных крайне неудобно, кроме того, не видно закономерностей изменения показателя. Построим интервальный ряд распределения.

1) Определим число интервалов.

Число интервалов на практике часто задается самим исследователем исходя из задач каждого конкретного наблюдения. Вместе с тем его можно вычислить и математически по формуле Стерджесса

n = 1 + 3,322 lg N,

где n - число интервалов;

N - объем совокупности (число единиц наблюдения).

Для нашего примера получим: n = 1 + 3,322 lg N = 1 + 3,322 lg 50 = = 6,6» 7.

2) Определим величину интервалов (i) по формуле

где х max - максимальное значение признака;

х min - минимальное значение признака.

Для нашего примера

Интервалы вариационного ряда наглядны, если их границы имеют «круглые» значения, поэтому округлим величину интервала 1,9 до 2, а минимальное значение признака 12,3 до 12,0.

3) Определим границы интервалов.

Интервалы, как правило, записывают таким образом, чтобы верхняя граница одного интервала являлась одновременно нижней границей следующего интервала. Так, для нашего примера получим: 12,0–14,0; 14,0–16,0; 16,0–18,0; 18,0–20,0; 20,0–22,0; 22,0–24,0; 24,0–26,0.

Подобная запись означает, что признак непрерывный. Если же варианты признака принимают строго определенные значения, например, только целые, но их количество слишком велико для построения дискретного ряда, то можно создать интервальный ряд, где нижняя граница интервала не будет совпадать с верхней границей следующего интервала (это будет означать, что признак дискретный). Например, в распределении работников предприятия по возрасту можно создать следующие интервальные группы лет: 18–25, 26–33, 34–41, 42–49, 50–57, 58–65, 66 и более.

Кроме того, в нашем примере мы могли бы сделать первый и последний интервалы открытыми, т.е. записать: до 14,0; 24,0 и выше.

4) По исходным данным построим ранжированный ряд. Для этого запишем в порядке возрастания значения, которые принимает признак. Результаты представим в таблице:

Ранжированный ряд величин процентной ставки коммерческих банков*

Ставка банка, % (варианты)  
12,3 17,0 19,9 23,8
12,8 17,4 20,0 24,5
13,0 18,0 20,0 24,6
13,3 18,1 20,4 25,1
13,8 18,5 20,4 25,6
14,2 18,7 20,5  
14,3 18,8 20,7  
14,4 18,9 20,7  
14,7 19,0 20,8  
14,7 19,0 21,0  
15,1 19,0 21,0  
15,2 19,0 21,1  
15,3 19,0 21,4  
16,0 19,6 21,9  
16,9 19,7 22,7  

*В таблице чертой отделены значения признаков, попадающих в один и тот же интервал.

5. Подсчитаем частоты.

При подсчете частот может возникнуть ситуация, когда значение признака попадет на границу какого-либо интервала. В таком случае можно руководствоваться правилом: данная единица приписывается к тому интервалу, для которого ее значение является верхней границей. Так, значение 16,0 в нашем примере будет относиться ко второму интервалу.

Результаты группировки, полученные в нашем примере, оформим в таблице.

Распределение коммерческих банков по величине кредитной ставки

Кредитная ставка, % Количество банков, ед. (частоты) Накопленные частоты
12,0–14,0 14,0–16,0 16,0–18,0 18,0–20,0 20,0–22,0 22,0–24,0 24,0–26,0    
Итого   -

В последней графе таблицы представлены накопленные частоты, которые получают путем последовательного суммирования частот, начиная с первой (например, для первого интервала - 5, для второго интервала 5 + 9 = 14, для третьего интервала 5 + 9 + 4 = 18 и т.д.). Накопленная частота, например, 33, показывает, что у 33 банков кредитная ставка не превышает 20% (верхняя граница соответствующего интервала).



Поделиться:


Последнее изменение этой страницы: 2016-12-15; просмотров: 747; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.14.130.13 (0.034 с.)