Практическое занятие Расчет ошибки выборки, показателей генеральной совокупности, объема выборки 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Практическое занятие Расчет ошибки выборки, показателей генеральной совокупности, объема выборки



Практическое занятие Расчет ошибки выборки, показателей генеральной совокупности, объема выборки

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

· Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)

· Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)

· Юридические лица России (2,2 млн. на начало 2005 года)

· Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

· Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.

· Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.

· Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

· Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).

· Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

· вероятностные

· невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Вычисление ошибки репрезентативности для собственно случайной выборки.

Пусть нам необходимо оценить средний возраст некоторой группы людей по ограниченному числу наблюдений n. Оценкой среднего значения непрерывной случайной величины является математическое ожидание:

.

Естественной оценкой математического ожидания является среднее арифметическое:

.

От оценки необходимо потребовать следующие свойства:

1. состоятельность – оценка называется состоятельное, если при увеличении числа опытов оценка сходится по вероятности с искомым параметром,

2. несмещенность – оценка называется несмещенной, если выполнялось условие

,

3. эффективность – оценка называется эффективной, если ее дисперсия минимальна по сравнению с другими.

Среднее арифметическое обладает этими свойствами[1].

Оценка параметра является функцией от случайных величин , , …, , поэтому сама является случайной величиной. Другими словами, мы можем сделать множество выборок, для каждой из которых значение оценки будет различно. По закону больший чисел распределение оценки является нормальным с математическим ожиданием

и дисперсией

[2],

где  - генеральная дисперсия.

Тогда можно рассчитать вероятность того, что  попадет в интервал . Поскольку нам неизвестна величина , то мы будем говорить о вероятности, с которой интервал накроет . Эта которая равна площади под графиком функции распределения случайной величины  (см. рис. 2):

.

 

Рисунок 1. Распределение выборочной оценки среднего.

Приведем это распределение к стандартному виду.

Произведем замену переменной:

.

Справа получили функцию Лапласа, которая табулирована (см. Приложение):

.

 

Нам не известно значение , поэтому заменим его на . Но в этом случае нужно использовать не нормальное распределение, а распределение Стьюдента.

,

где

При больших объемах выборки вид распределения Стьюдента приближается к виду нормального распределения, поэтому для больших выборок также можно использовать функцию Лапласа.

Для повторной выборки

(1).

Для бесповторной выборки необходимо внести поправку на конечность ГС

(2).

Для большой ГС (объем ВС составляет менее 5% от ГС) поправкой на конечность совокупности можно пренебречь.

Про коэффициент доверия  следует сказать отдельно. Этот коэффициент исследователь выбирает сам. Чем меньше , тем меньше доверительный интервал, но тем меньше и вероятность того, что оценка не выйдет за пределы доверительного интервала.

Пример 1. Пусть была произведена выборка 1600 человек. Средний возраст по выборке – 30 лет, среднеквадратическое отклонение – 10 лет. Необходимо найти доверительный интервал.

Прежде всего, необходимо задать надежность оценки. Возьмем 95% надежность. Поскольку выборка большая, воспользуемся таблицей значений функции Лапласа и найдем коэффициент доверия  - 1,96.

Тогда

.

С вероятностью 95% истинное средний возраст по ГС находится в интервале от 29,51 лет до 30,49 лет.

Для биномиального распределения

,

где  – доля признака, .

Тогда для повторной выборки из (1)

 (3),

для бесповторной выборки из (2)

 (4).

Пример 2. Из 200 опрошенных 55% - женщины. Действуем аналогично примеру 1. Выборку также можно считать большой. Тогда =1,96 для 95% надежности.

.

С вероятностью 95% доля женщин в ГС находится в интервале от 48% до 62%.

Механическая выборка.

Наиболее близкой к собственно случайной выборке является механическая выборка. Однако даже она может приводить к систематическим ошибкам.

Практическая реализация.

Проведение механической выборки требует список характеристик респондентов (фамилии, адреса, телефоны и т.д.). Из этого списка через равные промежутки люди отбираются в выборку. Этот промежуток называется шагом выборки.

 , где

N – объем генеральной совокупности

n – объем выборочной совокупности.

Начало отбора выбирается случайным образом в пределах шага выборки. Например, если шаг выборки равен 20, то начинать отбор надо с любого числа от 1 до 20.

Вычисление ошибки выборки.

При определении ошибки репрезентативности используются те же формулы, что и при случайной выборке.

Определение объема выборки.

Как следствие, при определении объема выборки так же используются те же формулы, что и при случайной выборке.

Плюсы и минусы механического отбора.

Процедура проведения механической выборки менее громоздка, чем проведение случайной выборки. Хотя применение компьютеров практически нивелирует это преимущество.

Механическая выборка может быть как более точной, так и менее точной по сравнению со случайной выборкой. Это продемонстрирует следующий пример.

Пример: [6, 51-52].Воспользуемся данными таблицы 1. Из всех респондентов проведем механическую выборку путем отбора каждого четвертого респондента, начиная с первого. В таблице 5 представлены четыре возможные выборки.

Факторы,

Выборку от

респондента:

не зависит А С E
зависит В D X

Рассмотрим подробнее каждый из типов неслучайного отбора.

Доступная выборка

Как следует из названия, в этом случае проводится отбор доступных единиц. Одним из плюсов этого метода являются сравнительно низкие издержки на поиск респондентов.

А: доступные респонденты выделены заранее;

В: респонденты выявляются в процессе опроса, поэтому действительное число доступных объектов определяется апостериори.

Сферы применения доступной выборки:

1) тестирование анкет

2) отработка процедур опроса

3) изучение интимных сторон жизни людей

4) изучение здоровья населения на основе данных об обращениях в больничные учреждения

5) монографические обследования.

Метод типичных единиц.

При использовании данного метода отбираются единицы генеральной совокупности, обладающие средним (или типичным) значением признака. Однако в таком случае встает проблема выбора признака и определения его типичного значения. Субъективный характер оценки вполне может привести к систематической ошибке. Данный метод целесообразно применять для изучения таких объектов, о которых мы уже обладаем некоторой информацией, например, территориальных общностей, предприятий, учреждений и т.п.

Целевая выборка.

Сферы применения целевой выборки:

1) формирование состава участников эксперимента (например, формирование контрольных групп точечным методом, когда для каждого участника основной группы подбирается участник контрольной группы, обладающий сходными признаками). Это один из тех редких случаев, когда нет необходимости в проведении случайного отбора.

2) отбор экспертов, который может проводиться на основе следующих критериев:

· объективные характеристики экспертов, содержащиеся в документах

· тестирование кандидатов в эксперты

· взаимный отбор

· самооценка кандидатов в эксперты.

Квотный отбор.

Остановимся на описании этого метода более подробно, т.к. это один из самых распространенных методов неслучайного отбора.

При использовании данного метода отбирают один или несколько признаков, по которым будет контролироваться выборка. Количество единиц в выборке, обладающих определенными характеристиками, должно быть пропорционально количеству таких единиц в генеральной совокупности.

Виды квотного отбора.

Можно выделить две разновидности метода квот:

1) априорный отбор

2) апостериорный отбор.

Априорный отбор осуществляется интервьюером на стадии сбора первичной информации.

Апостериорный отбор проводится для корректировки выборки. Например, когда в газету приходят письма с заполненными читателями анкетами, часто среди ответивших имеется перекос по некоторым важным параметрам (возраст, пол и т.п.). В таком случае можно взвесить полученные результаты, а можно провести выборку из выборки квотным методом.

Выбор признаков.

Во-первых, выбранные признаки должны быть тесно связаны с изучаемыми характеристиками, иначе полученные результаты могут оказаться сильно искаженными.

Во-вторых, признаки должны быть независимыми, иначе расход средств на их контроль будет нерациональным.

Требования к выборке могут быть жесткими и пониженными. Жесткие требования означают совпадение пропорций генеральной и выборочной совокупностей по сочетаниям признаков. В этом случае структура выборочной и генеральной совокупностей по заданным параметрам точно совпадают. При использовании пониженных требований контролируют лишь совпадение пропорций по каждому параметру отдельно.

Например, если исследователи решили контролировать выборку по четырем параметрам: пол (2 градации), возраст (7 градаций), образование (6 градаций) и род занятий (12 градаций), то при предъявлении пониженных требований они получат 2+6+7+12=27 групп, а при предъявлении жестких требований они получат 2*6*7*12=1008 групп.

Обычно к выборке предъявляют пониженные требования, так как в обратном случае теряется основное преимущество квотного отбора – малый объем выборки, и увеличиваются затраты на поиск респондентов, обладающих определенными характеристиками.

Чаще всего используются социально – демографические признаки, так как:

· они часто носят ключевой характер

· легко получить информацию о распределении по этим признакам единиц в генеральной совокупности.

Обычно используют не более трех – четырех признаков, так как при увеличении их числа растет число ограничений и, соответственно, растут затраты на поиск респондентов.

Трудности, возникающие при применении метода квот.

1. Необходимо предварительное изучение объекта для выявления в нем пропорций единиц с различными характеристиками и связей между характеристиками.

2. Необходима свежая информация о генеральной совокупности. Например. Если активно происходят какие-то демографические процессы, например, миграция, то применение данных переписи населения, проведенной несколько лет назад, может дать большую систематическую ошибку.

3. Некоторые проблемы могут возникнуть на полевом этапе проведения исследования:

3.1 Интервьюер, скорее всего, будет проводить отбор среди наиболее доступных ему лиц, поэтому выборка имеет тенденцию превращаться в доступную. При этом проблема «крепких орешков» не решается, а обходится, так как даже в группе труднодоступных, «дефицитных» респондентов будет происходить смещение в сторону тех, кто наиболее охотно идет на контакт с интервьюером.

3.2 Ближе к концу полевого этапа часто возникает группа «дефицитных» признаков, поэтому повышается соблазн для интервьюера сфальсифицировать результаты.

Практическое занятие Расчет ошибки выборки, показателей генеральной совокупности, объема выборки

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

· Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)

· Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)

· Юридические лица России (2,2 млн. на начало 2005 года)

· Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.



Поделиться:


Читайте также:




Последнее изменение этой страницы: 2021-04-13; просмотров: 218; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.19.56.114 (0.084 с.)