Характеристики основных видов распределения. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Характеристики основных видов распределения.



Нормальное распределение – непрерывные величины

 

 

Характеристики:

1.Среднее или ожидаемое значение дискретной случайной величины X:

 

 

2.Стандартное отклонение дискретной случайной величины X (риск, неопределенность ситуации)

 

 

Биномиальное распределение - если количество наступлений событий выражается как процент от общего количество возможностей.

Характеристики биномиального распределения:

-1.Количество наступлений события, X и Доля(процент), p=X/n

Среднее

 

 

Стандартное отклонение

X и Доля(процент), p=X/n

Среднее

 

 

Стандартное отклонение

 

Если для Бр нужно определить вероятность того, что вероятность события = α, то для НР надо считать вероятность попадания в интервал.

Распределение Пуассона -распределение дискретной величины, которое зависит только от ожидаемого среднего количества наступления событий

Характеристики:

1.стандартное отклонение = корень из среднего

2.вероятность того, что случайная величина Х со средним значением = α

 

Экспоненциальное распределение- Непрерывное распределение с сильной асимметрией

Характеристики:

1.Стандартное отклонение всегда равно среднему значению;

2. Вероятность того, что случайная величина X со средним значением μ принимает значения, меньшее α:

Стандартная ошибка выборки.

Стандартная ошибка среднего:

 

 

Центральная предельная теорема

Для случайной выборки объемом n элементов из ГС справедливо:

-С увеличением n распределение как среднего, так и суммы все более приближается к нормальному;

-Средние и стандартные отклонения вычисляют по формулам:

Поправка для малой ГС

Влияние вида распределения и способа отбора на величину ошибки выборки.

Среднее для стратифицированной выборки

Стандартная ошибка стратифицированной выборки

Скорректированная стандартная ошибка стратифицированной выборки (Размеры некоторых страт малы)

Стандартная ошибка биномиального распределения

-SX – неопределенность частоты

-Sp – неопределенность в доле

Количество наступлений события, X

-Стандартное отклонение для ГС

-Стандартная ошибка (оценка по выборке)

Доля(процент), p=X/n

-Стандартное отклонение для ГС

-Стандартная ошибка (оценка по выборке)

Малая выборка: понятия особенности проверки гипотез.

t-распределение или распределение Стьюдента – это распределение вероятностей, но при небольших n оно ниже в центра и больше на краях.

Для проверки гипотез:

теория t-распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности

p-уровень значимости t - критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в действительности эта гипотеза имеет место.

x-среднее по выборке, -значение, которое хотели бы получить, Sx-стандартная ошибка.

Смотрим табл. значений t -распределения df\p, df- размерность малой выборки, p-уровень значимости.

Двусторонняя проверка:

 

 

Односторонняя проверка:

 

Можно говорить о нулевой гипотезе, включая, что мат ожидание не меньше, чем какое-то заданное значение.

Нулевая гипотеза утверждает, что неизвестное среднее значение ГС по меньшей мере так же велико, как заданное значение μ0

 

Доверительный интервал для разных видов распределения.

Доверительный интервал - это допустимое отклонение наблюдаемых значений от истинных. Размер этого допущения определяется исследователем с учетом требований к точности информации. Если увеличивается допустимая ошибка, размер выборки уменьшается, даже если уровень доверительной вероятности останется равным 95%.

Доверительный интервал для среднего ГС

-Мы уверены на 95%, что среднее ГС μ находится в пределах:

 

Доверительный интервал для биномиального распределения

-Мы уверены на 95%, что доля интересующего нас свойства в ГС π находится в пределах

 

Доверительный интервал нормального распределения

95% всех значений находятся на расстоянии от среднего.

99% - от среднего.

Расчет объема выборки.

Размер выборки зависит:

-от размера ГС

-от точности кот. хотим получить.

 

σ ≈ N/6

t-уровень достоверности, критическое значение для которого считаем

t=2,57 для 0,99, t=1,96 для 0,95.

Пример: Сколько человек нужно опросить, если всего у компании 200 постоянных клиентов?

Чем точнее хотим получить результат, т.е чем меньше разница между средним Гс по выборке и ГС, тем больше выборка.

Если объем выборки составляет 10% и больше от объема ГС, то рассчитывается окончательная коррекция совокупности:

 

 

n — объем выборки до применения окончательной коррекции;

nкорр— объем выборки после применения окончательной коррекции.

Пример: Сколько человек нужно опросить, если всего у Вашей компании 50 постоянных клиентов?

 

Если изучаемая статистика является не средним, а долей:

29. Гипотеза

недоказанное утверждение, предположение или догадка.

Можно проверить гипотезы:-о различиях между группами \выборками, -о различиях между признаками, -о зависимостях между признаками, -о форме распределения.

Н0 – гипотеза об отсутствии различий (нулевая).

Н1 – гипотеза о значимости различий (альтернативная).

Гипотезы: Направленные: Н0 (рост мужчин не больше, чем женщин), Н1 (муж. выше жен.)

Ненаправленные:Н0 (рост муж. и жен. одинаковый), Н1 (рост муж. и жен. разный)

Проверка гипотезы – решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью.

Критерий проверки гипотезы: решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью:

1.Непараметрические (в формуле исп-ся частоты и ранги)Ранжировать-упорядочивать.

2. Параметрические (в формуле исп-ся параметры распределения, среднее и станд.откл.)

Выбор критерия зависит от вида распределения и объёма выборки.

 

30. Непараметрические:

Критерий Розенбаума.

Цель: Оценка различий между 2 выборками в уровне признака.

Условие: Количество измерений в каждой выборке n1, n2 ≥ 11; n1 ≈ n2

Qэмп = S1 + S2

Алгоритм:

1. Упорядочить значения по степени возрастания признака. Выборка 1значения предполагаются >.

2. Определить макс значение в выборке 2.

3. Подсчитать количество значений в выборке 1, которые выше макс значения выборки 2: S1

4. Определить мин значение в выборке 1.

5. Подсчитать количество значений в выборке 2, которые ниже мин значения выборке 1: S2

6. Qэмп = S1+S2

7. По таблице определить критические значения Q для n1, n2. Если Q эмп >= Q 0,05, H0 отвергается.

8. При n1, n2 >=26 H0 отвергается, если Qэмп = 8 (p<=0,05), =10 (p<=0,01).

 

Критерий Манна-Уитни.

-Оценка различий между двумя выборками по уровню количественно измеренного признака.

Размеры выборок: n1, n2 ³ 3 или n1=2, n2 ³ 5; n1, n2 ≤ 60

 

 

Uэмп < U кр0,05 ® H1 Uэмп≥ U кр0,01® H0

Параметрический метод. Критерий χ2 Пирсона.

Цель: 1. Сопоставление эмпирического распределения с теоретическим – Разница между фактическими и ожидаемыми частотами. 2. Сопоставление 2-х и более эмпирических распределений.

Условия: 1)Количество измерений: n 30; 2) Теоретическая частота: f 5

 

Хэмп² Хкр0,05² ® H1, χэмп2 < χкр0,01² ® H0

df=(r-1)*(c-1) Количество степеней свободы - количество значений в распределении, которые свободны для изменений..

Особые случаи: 1.Если признак принимает 2 значения: k=2(2 строки в таблице)

2. Если признак варьируется в широком диапазоне: укрупняйте разряды признаков.

32. Виды связей между признаками

Статистическая - связь, где воздействие отдельных факторов проявляется только как тенденция. Корреляция – мера зависимости переменных. Сила взаимосвязи данных.

(Коэф-ты Пирсона, Фехнера, Спирмэна)

 

33. Показатели тесноты парной связи

Коэф-т корреляции Пирсона:

 
 

 


Интерпретация Пирсона: Отклонение признака-фактора от его среднего на величину стандартного отклонения в среднем приводит к отклонению признака-результата от своего среднего на величину r его стандартного отклонения.

Коэффициент корреляции Пирсона -1 Rxy 1. Rxy = -1Строгая отрицательная корреляция, Rxy = 1Строгая положительная корреляция, Rxy = 0Отсутствие корреляции

0,7 ≤ | Rxy | 1 Сильная корреляция, 0,5 ≤ | Rxy | 0,7 Средняя корреляция, 0,3 ≤ | Rxy | 0,5 Слабая корреляция, 0 ≤ | Rxy | 0,3 Незначимая корреляция

Меры тесноты парной связи:

Коэф-т Фехнера: мера тесноты связи виде отклонения разности числа пар совпадений и несовпадений признаков отклон. от среднего.

 

C – количество совпадающих знаков отклонений от средних

H – количество несовпадающих знаков отклонений от средних

C + H = n

Алгоритм расчета:

-расчет среднего для X и Y

-сравнение индивид.значений xi и yi со средними значениями с обязат.указаниями знака (+ или -). Если совпад., то относим к «С», если не совпад.,то к «Н».

-считаем кол-во совпад.или несовпад.

Коэффициент Спирмена:

Не параметр.показатель, с помощью кот.пытаемся выявить связи между рангами соответ.величин.

 
 

 


где di – разность рангов по обоим признакам для каждого объекта.

 

Множественная корреляция

Корреляция – мера зависимости переменных. Сила взаимосвязи данных.

Меры тесноты парной связи: Коэф-т Пирсона, Спирмена, Фехнера.

Множественная корреляция.

 
 


Использование метода множественной корреляции позволяет обнаружить объедин. эффект. влияния всех независимых переменных к зависимой.

Корреляционный анализ показывает тесноту связи, только если связь линейная.

Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

 
 

 

 


степень аппроксимации

 
 

 

 


R² коэфф.детерминации,указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.

 

35. Регрессия – это предсказание значения одного признака на основе значения другого.Регрессионный анализ проводится при наличии корреляционной связи между признаками.

Оценка ошибки выбранной математической модели.

 
 


y – эмпирическое значение, y* - теоретическое значение, p – число параметров уравнения.

Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

 
 

 

 


степень аппроксимации

 

36. 37. Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X

Параметры уравнения парной линейной регрессии вычисляются с помощью метода наименьших квадратов.

 
 

 


Сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть мин. Параметры линейной регрессии находятся из системы:

 
 

 

 


Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R².

Корреляционное отношение

 
 

 

 


степень аппроксимации

 
 

 

 


Вид кривой неизвестен

Оценка кривой:

Пораболическая связь Y = a + b*x + с*х2

Экспоненциальная связьY = a*ebx

Гиперболическая связь Y = a + b/x

R²-коэфф.детерминации,указывает,какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику.

Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка.

 

Множественная регрессия.

Регрессия – это предсказание значения одного признака на основе значения другого.Регрессионный анализ проводится при наличии корреляционной связи между признаками.

Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X

Вид кривой неизвестен

Пораболическая связь Y = a + b*x + с*х2

Экспоненциальная связьY = a ebx

Гиперболическая связь Y = a + b/x

R² указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику.

Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка.

Множественная рег-я: Y = a + b1*X1 + b2*X2 +... + bp*Xp

Если значение признака-результата зависят от нескольких факторов.Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной.

 

39.Факторный анализ - совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств..

Цели: 1)сокращениечисла переменных; 2)определение структуры взаимосвязей между переменными.

Факторный анализ не требует априорного разделения признаков на зависимые и независимые.

Этапы: 1) построение матрицы попарных корреляций;

2) Выделение факторов-Метод главных компонент (МГК).

Идея МГК:

-линейные комбинации выбираются такие образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая Главная Компонента F1(х) обладает наиб.дисперсией.

-геометрически- это ориентация новой координатной оси F, вдоль направления наибольшей вытянутости эллипсоида, рассеивания объектов исследуемой выборки в пространстве признаков.

-вторая главная компонента имеет наиб.дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой Главной Компонентой.

3)Методы вращения факторных нагрузок.

Вращение матрицы факторных нагрузок - поиск такого положения системы координат, которое для каждой строки (столбца) увеличивало бы большие факторные нагрузки и уменьшало бы малые.

 

40.Кластерный анализ - это разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Цели:1)Понимание данных (Каждому кластеру – свой метод анализа); 2)Сжатие данных (Один типичный представитель от каждого кластера); 3)Novelty Detection (Выделение нетипичных объектов).

Евклидово расстояние – мера расстояния между кластерами.

 

 


Расст-е между точками в трёхмерном пр-ве

 
 

 

 



Поделиться:


Последнее изменение этой страницы: 2016-08-12; просмотров: 295; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.147.73.35 (0.102 с.)