Глава 3. Сводка и группировка статистических данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Глава 3. Сводка и группировка статистических данных



Глава 3. Сводка и группировка статистических данных

 

Вступление

После того как статистическая информация получена в виде данных статистических анкет, отчетности и других документов, возникает задача ее систематизации и упорядочивания, поскольку из разрозненных сведений первичных документов, содержащих информацию только по одной единице наблюдения, нельзя сделать правильного вывода обо всей совокупности в целом. Для этого полученную информацию группируют, подводят итоги по группам и совокупности в целом. Таким образом, наступает следующий этап статистического исследования – сводка и группировка статистических материалов.

Задачи и виды статистической сводки

Статистическая сводка – это первичная обработка данных статистического наблюдения с целью их систематизации. Она предполагает сведение полученной статистической информации о единицах наблюдения в массив данных, упорядоченных по значению какого-либо признака.

Различают простую и сложную сводку.

Простая сводка предполагает сведẻние полученных данных в статистические таблицы, подведение общих итогов по совокупности в целом.

Сложная сводка осуществляется с применением метода группировок по определенной программе, предусматривающей следующие этапы:

- выбор группировочных признаков;

- определение порядка формирования групп;

- разработка системы показателей для характеристики групп и статистической совокупности в целом;

- разработка макетов статистических таблиц для представления результатов сводки;

- распределение единиц наблюдения на группы по изучаемым признакам;

- подведение групповых и общих итогов;

- оформление результатов сводки в виде статистических таблиц.

По технике выполненияразличают ручную сводку и сводку с использованием компьютерных технологий.

По форме обработки статистической информации, собранной в процессе наблюдения, сводка может быть децентрализованной и централизованной. В первом случае данные сначала сводятся по территориям, а затем в центральной организации проводится обработка уже систематизированных данных. Во втором случае вся работа по первичной обработке собранной информации осуществляется в центральной организации.

Результатом проведения статистической сводки является получение обобщающих статистических таблиц, которые содержат итоговые данные по показателям, характеризующим единицы наблюдения.

 

Таблица 3.2 – Структура работников по стажу работы на предприятии

 

Важную роль в статистическом анализе играют аналитические группировки. С их помощью определяют наличие связи между признаками и ее направление. При этом один из признаков является результативным, а другой – факторным. Результативный признак меняется под воздействием факторного признака.

При построении аналитической группировки в качестве группировочного признака всегда выбирают факторный признак. В каждой выделенной группе рассчитывают среднее значение результативного признака.

Например, в табл. 3.3 компании сгруппированы по величине затрат на рекламу. В каждой группе определен средний размер товарооборота. Из таблицы видно, что чем больше внимания компании уделяют рекламе, тем значительнее результаты их деятельности, выражающиеся в объеме товарооборота.

Таблица 3.3 – Распределение компаний по затратам на рекламу и объему товарооборота

Связь между признаками называется прямой, если с ростом значений факторного признака увеличиваются значения результативного признака. Связь является обратной, если увеличение значений факторного признака приводит к уменьшению значений результативного признака. В нашем примере рост затрат на рекламу вызвал увеличение объемов товарооборота, значит между этими признаками наблюдается прямая связь.

В зависимости от количества признаков, по которым проводится группировка, различают простые и сложные группировки. Если группировка проводится по одному признаку, то она называется простой (см. табл. 3.1, 3.2). Если единицы совокупности группируются сразу по двум или более признакам, то такая группировка называется сложной. При этом внутри групп, образованных по одному признаку, единицы совокупности подразделяются на подгруппы по другому признаку.

Примером сложной группировки является группировка учащихся на потоке по двум признакам – полу и возрасту. Ее результаты могут быть представлены в виде таблицы (табл. 3.4).

Таблица 3.4 – Распределение учащихся на потоке по полу и возрасту

Вторичная группировка данных. На практике часто возникают ситуации, когда по имеющимся сгруппированным данным требуется построить новую группировку. При этом, как правило, массив первичных данных оказывается недоступным. Тогда прибегают к методам вторичной группировки данных.

Вторичной группировкой называется перегруппировка уже сгруппированных данных без обращения к массиву первичных данных. Для этой цели применяются два подхода: объединение первоначальных интервалов, если границы новых и старых групп совпадают, и долевая перегруппировка данных при несовпадении границ.

Метод объединения первоначальных интервалов продемонстрируем на следующем примере. Предположим, что исходные данные представляют собой ряд, приведенный в табл. 3.5.

Таблица 3.5 – Распределение работников фирмы по размеру заработной платы

Перегруппируем данные и образуем новые интервалы: «2000-4000», «4000-6000», «6000 и выше». Поскольку границы новых и старых интервалов совпадают, легко видеть, что в первый новый интервал «2000-4000» попадут работники первого и второго интервалов исходной группировки (16  40 - 56 чел.), во второй новый интервал – работники третьего и четвертого интервалов исходной группировки (65  58 - 123 чел.), в третий новый интервал – работники двух последних интервалов (44  17 - 61 чел.). Результаты перегруппировки представлены в табл. 3.6.

Таблица 3.6 – Распределение работников фирмы по размеру заработной платы (вторичная группировка)

Долевая перегруппировка базируется на принципе равномерности распределения единиц наблюдения внутри границ интервальных групп. В результате ее проведения рассчитывают, какая часть единиц наблюдения перейдет из старой интервальной группы в новую.

 

Пример 3.1. «Перегруппируем данные табл. 3.5 и образуем новые интервалы: «2000-3400»; «3400-4800»; «4800-6200»; «6200 и выше». Распределим единицы совокупности по новым интервалам.

В первый новый интервал войдут из исходной группировки все единицы первого интервала и часть единиц из второго интервала. Эту часть мы определяем следующим образом. Новая граница «3400» разбивает второй интервал на два отрезка: «3000-3400» и «3400-4000». Находим, какую долю составляет длина отрезка «3000-3400» от длины второго интервала. Она равна  Значит, от 40 единиц, находившихся во втором интервале исходной группировки, следует взять для нового первого интервала 16 единиц  Тогда первый новый интервал будет содержать 32 единицы (16+16).

Во второй новый интервал войдут оставшиеся от второго интервала исходной группировки 24 единицы (40-16) и часть единиц из третьего интервала. Для этого мы находим, какую долю составляет отрезок «4000-4800» от длины третьего интервала «4000-5000». Она равна  Значит, от 65 единиц следует взять для второго нового интервала 52 единицы  Итак, второй интервал новой группировки будет содержать 76 единиц (24+52).

В третий интервал вторичной группировки войдут оставшиеся 13 единиц (65-52=13) третьего интервала исходной группировки, все единицы ее четвертого интервала (58ед.) и 9 единиц пятого интервала

В последний интервал новой группировки войдут оставшиеся 35 единиц (44-9=35) пятого интервала и все 17 единиц последнего интервала, т. е. 52 единицы (35+17).

При проверке правильности расчетов видим, что сумма единиц совокупности осталась равной 240.

Результаты вторичной группировки приведены в следующей таблице.

Ряды распределения: виды

Результаты группировки собранных статистических данных, как правило, представляются в виде рядов распределения. Ряд распределения – это упорядоченное распределение единиц совокупности на группы по изучаемому признаку.

Ряды распределения делятся на атрибутивные и вариационные, в зависимости от признака, положенного в основу группировки. Если признак качественный, то ряд распределения называется атрибутивным.

Если признак, по которому строится ряд распределения, количественный, то ряд называется вариационным.

Вариационный ряд распределения всегда состоит из двух частей: вариант и соответствующих им частот (или частостей). Вариантой называется значение, которое может принимать признак у единиц совокупности, частотой – количество единиц наблюдения, обладающих данным значением признака. Сумма частот всегда равна объему совокупности. Иногда вместо частот рассчитывают частости – это частоты, выраженные либо в долях единицы (тогда сумма всех частостей равна 1), либо в процентах к объему совокупности (сумма частостей будет равна 100%).

Вариационные ряды бывают дискретными и интервальными. У дискретных рядов (табл. 3.7) варианты выражены конкретными числами, чаще всего целыми.

Таблица 3.7 – Распределение работников по времени работы в страховой компании

В интервальных рядах (см. табл. 3.2) значения показателя задаются в виде интервалов. Интервалы имеют две границы: нижнюю и верхнюю. Интервалы могут быть открытыми и закрытыми. У открытых нет одной из границ, так, в табл. 3.2 у первого интервала нет нижней границы, а у последнего – верхней. При построении интервального ряда в зависимости от характера разброса значений признака используют как равные интервальные промежутки, так и неравные (в табл. 3.2 представлен вариационный ряд с равными интервалами).

Если признак принимает ограниченное число значений, обычно не больше 10, строят дискретные ряды распределения. Если вариант больше, то в этом случае целесообразно использовать интервальную форму вариационного ряда. При непрерывной вариации признака, когда его значения в определенных пределах отличаются друг от друга на сколь угодно малую величину, также строят интервальный ряд распределения.

Таблица 3.8 – Схема интервального вариационного ряда с неравными интервалами для данных, подчиняющихся правилу арифметической прогрессии

Для показателей, приблизительно изменяющихся в геометрической прогрессии, величину интервалов можно вычислить по формуле

ik = ik - 1 × c,

где ik – величина вычисляемого интервала;

ik - 1 – величина предыдущего интервала;

с – константа-множитель геометрической прогрессии

Заработная плата работников

Для расчета среднего размера заработной платы необходимо просуммировать заработную плату, начисленную всем работникам предприятия (т. е. найти фонд заработной платы), и разделить на число работающих:

А теперь добавим в нашу совокупность всего лишь одного человека (директора этого предприятия), но с окладом в 50000 руб. В таком случае вычисляемая средняя будет совсем другая:

Как видим, она превышает 7000 руб., т. е. она больше всех значений признака за исключением одного-единственного наблюдения.

 

Таблица 6.1 – Расчет средней арифметической в дискретном ряду

 

Средняя арифметическая простая используется в тех случаях, когда данные не сгруппированы или сгруппированы, но все частоты равны между собой.

Часто результаты наблюдения представляют в виде интервального ряда распределения (см. таблицу в примере 6.4). Тогда при расчете средней в качестве х i берут середины интервалов. Если первый и последний интервалы открыты (не имеют одной из границ), то их условно «закрывают», принимая за величины данного интервала величину примыкающего интервала, т.е. первый закрывают исходя из величины второго, а последний – по величине предпоследнего.

Пример 6.3. По результатам выборочного обследования одной из групп населения рассчитаем размер среднедушевого денежного дохода.

В приведенной таблице середина первого интервала равна 500. Действительно, величина второго интервала – 1000 (2000 - 1000); тогда нижняя граница первого равна 0 (1000 - 1000), а его середина – 500. Аналогично поступаем с последним интервалом. За его середину принимаем 25 000: величина предпоследнего интервала 10 000 (20 000 - 10 000), тогда его верхняя граница – 30 000 (20 000 + 10 000), а середина, соответственно, - 25 000.

Средняя гармоническая

Средняя гармоническая применяется в тех случаях, когда неизвестны значения частот у вариант ряда, зато имеются для каждого xi произведения этих вариант на соответствующие им частоты, т.е. [ Fi = xi × fi ]. Величиной Fi может быть, например, товарооборот по видам товаров при расчете их средней цены; фонд заработной платы по отдельным категориям работников при расчете средней заработной платы и т. д. Ситуаций, когда нам известны не частоты, а произведения частот на соответствующие им варианты при расчете средней величины, более чем достаточно.

Формула средней гармонической взвешенной имеет следующий вид:

где Fi – произведения вариант на соответствующие им частоты;

xi – варианты.

Если мы для каждой варианты рассчитаем частоту как  то формула средней гармонической взвешенной превратится в формулу для расчета средней арифметической взвешенной:

Пример 6.5. Вернемся к примеру 6.2, где рассчитывалась средняя заработная плата 20 работников малого предприятия. Предположим, что изначально были известны данные об уровне заработной платы для каждой группы работающих и начисленный им фонд заработной платы. Тогда для расчета средней заработной платы необходимо определить численность работающих в каждой группе. Для этого разделим фонд заработной платы каждой группы работающих на их уровень заработной платы (см. графу 3 в таблице). Тогда, разделив общий фонд заработной платы на общую численность работающих, получим их среднюю заработную плату.

Средняя геометрическая

Для расчета среднего коэффициента или темпа роста статистического показателя используется формула средней геометрической.

Для несгруппированных данных (при отсутствии частот) или для сгруппированных данных с равными частотами применяется средняя геометрическая простая

Для сгруппированных данных с неравными частотами применяется средняя геометрическая взвешенная

 

Вступление

В процессе статистического анализа может сложиться ситуация, когда значения средних величин совпадают, а совокупности, на основе которых они рассчитаны, состоят из единиц, значения признака у которых достаточно резко различаются между собой. Возьмем, например, данные о количестве договоров, заключенных в двух филиалах страховой компании. Предположим, что в каждом из филиалов работает по два агента. В первом филиале один агент заключил 5 договоров, а второй – 25; во втором филиале каждый агент заключил по 15 договоров. Как видим, среднее число договоров, заключенных одним агентом в каждом филиале совпадает (15 договоров), в то же время очевидно, что первая и вторая совокупности качественно неоднородны, т. е. вариация значений признака внутри них различна.

 

Таблица 7.1 – Распределение сотрудников первого агентства по уровню месячной заработной платы

Распределение сотрудников второго агентства по уровню месячной заработной платы представлено в табл. 7.2.

Таблица 7.2 – Распределение сотрудников второго агентства по уровню месячной заработной платы

Рассчитаем средний уровень заработной платы:

- для первого агентства:

- для второго агентства:

Как видим, средние в двух совокупностях практически совпадают между собой (с разницей в 1 руб.). Однако если вы вдруг случайно встретите сотрудников этих агентств и поинтересуетесь уровнем оплаты их труда, то вас заверят, что платят у них вовсе не одинаково! Почему?! Оказывается, что разброс значений вокруг средней в этих совокупностях абсолютно разный. Значит, такой характеристики, как средняя, вовсе не достаточно, чтобы делать выводы о совокупности. Для этого используют показатели вариации.

Рассчитаем показатели вариации для приведенных в табл. 7.1 и 7.2 вариационных рядов (табл. 7.3 и 7.4).

Таблица 7.3 – Расчет абсолютных и относительных показателей вариации для первого агентства

По первому агентству получим следующие данные.

Размах вариации:

R = x max - x min = 18 000 - 4000 = 14 000 (руб.).

Среднее линейное отклонение (так как ряд сгруппирован и частоты не равны между собой) рассчитываем как взвешенную величину:

 

Дисперсия:

Среднее квадратическое отклонение:

Коэффициент осцилляции:

Относительное линейное отклонение:

Коэффициент вариации:

Судя по коэффициенту вариации, совокупность по данному признаку можно считать однородной.

Проведем расчет аналогичных характеристик вариации по второму агентству (табл. 7.4).

Таблица 7.4 – Расчет абсолютных и относительных показателей вариации для второго агентства

Показатели вариации по второму агентству:

Размах вариации:

R = 22 500 - 1500 = 21 000 (руб.);

Среднее линейное отклонение:

Дисперсия:

 

Среднее квадратическое отклонение – 5180 (руб.).

Коэффициент осцилляции – 193%.

Относительное линейное отклонение – 40%.

Коэффициент вариации – 48%.

Таким образом, по данному признаку вторая совокупность сотрудников неоднородна.

Сравнение относительных показателей вариации по двум совокупностям говорит о том, что дифференциация по уровню заработной платы во втором агентстве гораздо выше, чем в первом, хотя их средние практически совпадают между собой.

 

Свойства дисперсии

1) если xi = c, где с – постоянная величина, то дисперсия будет равна нулю;

2) если из всех значений признака вычесть постоянную величину с, то дисперсия от этого не изменится:

3) если все индивидуальные значения признака уменьшить в d раз, то дисперсия уменьшится в d 2 раз:

 

Вступление

Для получения более полной характеристики вариационного ряда помимо средней величины рассчитываются так называемые структурные показатели. К ним относятся мода, медиана, квартили, децили, перцентили, квартильные и децильные коэффициенты.

 

Мода

Мода (Мо) – это наиболее часто встречающееся значение признака, или иначе говоря, значение варианты с наибольшей частотой. В дискретных и интервальных рядах моду рассчитывают по-разному.

Медиана

Медиана – это значение признака, которое делит статистическую совокупность на две равные части: половина единиц совокупности имеет значения признака не меньше медианы, другая половина – значения признака не больше медианы.

Значения изучаемого признака всех единиц статистической совокупности можно расположить в порядке возрастания (или убывания). В этом случае мы получим ранжированный ряд. Если число единиц совокупности нечетное, то значение признака, находящееся в середине ранжированного ряда, будет являться медианой. Если число единиц совокупности четное, то медианой будет средняя величина из двух значений признака, находящихся в середине ряда.

Пример 8.5. Имеются следующие данные о результатах сдачи экзамена по статистике в студенческой группе:

Представим их в виде ранжированного ряда:

Как видим, в ранжированном ряду оценки расположились следующим образом: сначала записана одна неудовлетворительная оценка (ее получил студент, имеющий в ведомости номер 3), затем три оценки «удовлетворительно», пять оценок «хорошо» и две оценки «отлично». В середине ранжированного ряда, имеющего нечетное число членов, стоит оценка «4», которую получил студент, записанный в ведомости под номером 5. Следовательно, оценка «4 (хорошо)» является медианой для данного ряда распределения. Пять студентов получили оценки 4 и ниже (2, 3, 3, 3, 4), другие пять студентов – 4 и выше (4, 4, 4, 5, 5).

Пример 8.6. Имеются данные о цене антоновских яблок в шести магазинах города. Представим их сразу в виде ранжированного ряда:

В середине ранжированного ряда находятся цены двух магазинов, причем они разные. Медиана определяется как средняя величина из этих значений признака. Она равна 43 руб. [(42  44): 2 – 43].

Таким образом, в 50% магазинов города яблоки продаются по цене не выше 43 руб. за килограмм, а в других 50% магазинов – по цене не ниже 43 руб.

Структурные показатели не зависят от того, имеются ли в статистической совокупности аномальные (резко выделяющиеся) наблюдения. И если средняя величина при их наличии теряет свою практическую значимость, то информативность медианы наоборот усиливается – она начинает выполнять функции средней, т. е. характеризовать центр совокупности.

Способы расчета рассматриваемых структурных показателей зависят от вида вариационного ряда.

Таблица 9.1 – Число предприятий и организаций в Российской Федерации, тыс. (по состоянию на 1 января)

Таблица 9.2 – Удельный вес предприятий и организаций частной формы собственности в общей совокупности предприятий и организаций Российской Федерации за период 20022006 гг.

Таблица 9.3 – Индексы физического объема оборота розничной торговли в Российской Федерации (в процентах к предыдущему году)

Таблица 9.4 – Показатели деятельности рекламных агентств в Российской Федерации за период 1999-2002 гг.

 

Данные о количестве предприятий и организаций Российской Федерации (см. табл. 9.1) относятся к 1 января каждого года, поэтому данный ряд является моментным.

Динамический ряд, представленный в табл. 9.4 и характеризующий выручку от реализации рекламных услуг в расчете на одного работника, является интервальными, поскольку содержит значения показателя за годовые промежутки времени.

Деление динамических рядов на моментные и интервальные обусловлено разными методологическими подходами, применяемыми к их анализу, поэтому всегда следует обращать внимание, к какому виду относится исследуемый ряд.

В зависимости от вида статистического показателя динамические ряды подразделяют на ряды абсолютных, относительных и средних величин.

Примерами рядов динамики абсолютных величин являются данные о количестве предприятий и организаций Российской Федерации за период 2001-2006 гг. (см. табл. 9.1); данные о числе рекламных агентств за период 1999-2002 гг. (см. табл. 9.4, строка «Число рекламных агентств – всего»). В этих рядах рассматриваемый показатель представляет собой абсолютную величину.

Ряды абсолютных величин являются исходными для построения рядов динамики относительных и средних величин.

 

Показатели ряда динамики

При анализе динамического ряда рассчитываются следующие показатели:

- средний уровень динамического ряда;

- абсолютные приросты: цепные и базисные, средний абсолютный прирост;

- темпы роста: цепные и базисные, средний темп роста;

- темпы прироста: цепные и базисные, средний темп прироста;

- абсолютное значение одного процента прироста.

Цепные и базисные показатели вычисляются для характеристики изменения уровней динамического ряда и различаются между собой базами сравнения: цепные рассчитываются по отношению к предыдущему уровню (переменная база сравнения), базисные – к уровню, принятому за базу сравнения (постоянная база сравнения).

Средние показатели представляют собой обобщенные характеристики ряда динамики. С их помощью сравнивают интенсивность развития явления по отношению к различным объектам, например по странам, отраслям, предприятиям и т. д., или периодам времени.

Расстояние между датами

 

Если имеется полная информация о значениях моментного статистического показателя на каждую дату, то среднее значение этого показателя за весь период исчисляется по формуле средней арифметической взвешенной

 

 где yi – значения показателя

ti – длина периода, в течение которого это значение статистического показателя оставалось неизменным.

 

Если мы дополним пример 9.4 информацией о датах изменения денежных средств на счете вкладчика в I квартале 2006г., то получим:

- остаток денежных средств на 1 января – 132 000 руб.;

- 5 января выдано – 19 711 руб.;

- 28 января внесено – 35 000 руб.;

- 20 февраля внесено – 2000 руб.;

- 24 февраля внесено – 2581 руб.;

- 3 марта выдано – 3370 руб. (в марте других изменений не происходило).

Итак, с 1 по 4 января (четыре дня) значение показателя оставалось равным 132000 руб., с 5 по 27 января (23 дня) его значение составило 112289 руб., с 28 января по 19 февраля (23 дня) – 147289 руб., с 20 по 23 февраля (четыре дня) – 149289 руб., с 24 февраля по 2 марта (семь дней) – 151870 руб., с 3 по 31 марта (29 дней) – 148500 руб. Для удобства проведения расчетов представим эти данные в таблице:

По формуле средней арифметической взвешенной находим значение среднего уровня ряда

Как видим, среднее значение отличается от полученного в примере 9.4, оно является более точным, так как в вычислениях использовалась более точная информация. В примере 9.4 были известны лишь данные на начало каждого месяца, при этом не оговаривалось, когда же именно происходили изменения показателя, была применена формула хронологической средней.

В заключение отметим, что расчет среднего уровня ряда теряет свой аналитический смысл в случаях большой изменяемости показателя внутри ряда, а также при резкой смене направления развития явления.

Приложение 2

Таблица случайных чисел

Ряд

Колонка



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 65; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.139.238.76 (0.123 с.)