Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Характеристики основных видов распределения.Содержание книги
Поиск на нашем сайте
Нормальное распределение – непрерывные величины
Характеристики: 1.Среднее или ожидаемое значение дискретной случайной величины X:
2.Стандартное отклонение дискретной случайной величины X (риск, неопределенность ситуации)
Биномиальное распределение - если количество наступлений событий выражается как процент от общего количество возможностей. Характеристики биномиального распределения: -1.Количество наступлений события, X и Доля(процент), p=X/n Среднее
Стандартное отклонение X и Доля(процент), p=X/n Среднее
Стандартное отклонение
Если для Бр нужно определить вероятность того, что вероятность события = α, то для НР надо считать вероятность попадания в интервал. Распределение Пуассона -распределение дискретной величины, которое зависит только от ожидаемого среднего количества наступления событий Характеристики: 1.стандартное отклонение = корень из среднего 2.вероятность того, что случайная величина Х со средним значением = α
Экспоненциальное распределение- Непрерывное распределение с сильной асимметрией Характеристики: 1.Стандартное отклонение всегда равно среднему значению; 2. Вероятность того, что случайная величина X со средним значением μ принимает значения, меньшее α: Стандартная ошибка выборки. Стандартная ошибка среднего:
Центральная предельная теорема Для случайной выборки объемом n элементов из ГС справедливо: -С увеличением n распределение как среднего, так и суммы все более приближается к нормальному; -Средние и стандартные отклонения вычисляют по формулам: Поправка для малой ГС Влияние вида распределения и способа отбора на величину ошибки выборки. Среднее для стратифицированной выборки Стандартная ошибка стратифицированной выборки Скорректированная стандартная ошибка стратифицированной выборки (Размеры некоторых страт малы) Стандартная ошибка биномиального распределения -SX – неопределенность частоты -Sp – неопределенность в доле Количество наступлений события, X -Стандартное отклонение для ГС -Стандартная ошибка (оценка по выборке) Доля(процент), p=X/n -Стандартное отклонение для ГС -Стандартная ошибка (оценка по выборке) Малая выборка: понятия особенности проверки гипотез. t-распределение или распределение Стьюдента – это распределение вероятностей, но при небольших n оно ниже в центра и больше на краях. Для проверки гипотез: теория t-распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности p-уровень значимости t - критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в действительности эта гипотеза имеет место. x-среднее по выборке, -значение, которое хотели бы получить, Sx-стандартная ошибка. Смотрим табл. значений t -распределения df\p, df- размерность малой выборки, p-уровень значимости. Двусторонняя проверка:
Односторонняя проверка:
Можно говорить о нулевой гипотезе, включая, что мат ожидание не меньше, чем какое-то заданное значение. Нулевая гипотеза утверждает, что неизвестное среднее значение ГС по меньшей мере так же велико, как заданное значение μ0
Доверительный интервал для разных видов распределения. Доверительный интервал - это допустимое отклонение наблюдаемых значений от истинных. Размер этого допущения определяется исследователем с учетом требований к точности информации. Если увеличивается допустимая ошибка, размер выборки уменьшается, даже если уровень доверительной вероятности останется равным 95%. Доверительный интервал для среднего ГС -Мы уверены на 95%, что среднее ГС μ находится в пределах:
Доверительный интервал для биномиального распределения -Мы уверены на 95%, что доля интересующего нас свойства в ГС π находится в пределах
Доверительный интервал нормального распределения 95% всех значений находятся на расстоянии от среднего. 99% - от среднего. Расчет объема выборки. Размер выборки зависит: -от размера ГС -от точности кот. хотим получить.
σ ≈ N/6 t-уровень достоверности, критическое значение для которого считаем t=2,57 для 0,99, t=1,96 для 0,95. Пример: Сколько человек нужно опросить, если всего у компании 200 постоянных клиентов? Чем точнее хотим получить результат, т.е чем меньше разница между средним Гс по выборке и ГС, тем больше выборка. Если объем выборки составляет 10% и больше от объема ГС, то рассчитывается окончательная коррекция совокупности:
n — объем выборки до применения окончательной коррекции; nкорр— объем выборки после применения окончательной коррекции. Пример: Сколько человек нужно опросить, если всего у Вашей компании 50 постоянных клиентов?
Если изучаемая статистика является не средним, а долей: 29. Гипотеза недоказанное утверждение, предположение или догадка. Можно проверить гипотезы:-о различиях между группами \выборками, -о различиях между признаками, -о зависимостях между признаками, -о форме распределения. Н0 – гипотеза об отсутствии различий (нулевая). Н1 – гипотеза о значимости различий (альтернативная). Гипотезы: Направленные: Н0 (рост мужчин не больше, чем женщин), Н1 (муж. выше жен.) Ненаправленные:Н0 (рост муж. и жен. одинаковый), Н1 (рост муж. и жен. разный) Проверка гипотезы – решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью. Критерий проверки гипотезы: решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью: 1.Непараметрические (в формуле исп-ся частоты и ранги)Ранжировать-упорядочивать. 2. Параметрические (в формуле исп-ся параметры распределения, среднее и станд.откл.) Выбор критерия зависит от вида распределения и объёма выборки.
30. Непараметрические: Критерий Розенбаума. Цель: Оценка различий между 2 выборками в уровне признака. Условие: Количество измерений в каждой выборке n1, n2 ≥ 11; n1 ≈ n2 Qэмп = S1 + S2 Алгоритм: 1. Упорядочить значения по степени возрастания признака. Выборка 1значения предполагаются >. 2. Определить макс значение в выборке 2. 3. Подсчитать количество значений в выборке 1, которые выше макс значения выборки 2: S1 4. Определить мин значение в выборке 1. 5. Подсчитать количество значений в выборке 2, которые ниже мин значения выборке 1: S2 6. Qэмп = S1+S2 7. По таблице определить критические значения Q для n1, n2. Если Q эмп >= Q 0,05, H0 отвергается. 8. При n1, n2 >=26 H0 отвергается, если Qэмп = 8 (p<=0,05), =10 (p<=0,01).
Критерий Манна-Уитни. -Оценка различий между двумя выборками по уровню количественно измеренного признака. Размеры выборок: n1, n2 ³ 3 или n1=2, n2 ³ 5; n1, n2 ≤ 60
Uэмп < U кр0,05 ® H1 Uэмп≥ U кр0,01® H0 Параметрический метод. Критерий χ2 Пирсона. Цель: 1. Сопоставление эмпирического распределения с теоретическим – Разница между фактическими и ожидаемыми частотами. 2. Сопоставление 2-х и более эмпирических распределений. Условия: 1)Количество измерений: n ≥ 30; 2) Теоретическая частота: f ≥ 5
Хэмп² ≥ Хкр0,05² ® H1, χэмп2 < χкр0,01² ® H0 df=(r-1)*(c-1) Количество степеней свободы - количество значений в распределении, которые свободны для изменений.. Особые случаи: 1.Если признак принимает 2 значения: k=2(2 строки в таблице) 2. Если признак варьируется в широком диапазоне: укрупняйте разряды признаков. 32. Виды связей между признаками Статистическая - связь, где воздействие отдельных факторов проявляется только как тенденция. Корреляция – мера зависимости переменных. Сила взаимосвязи данных. (Коэф-ты Пирсона, Фехнера, Спирмэна)
33. Показатели тесноты парной связи Коэф-т корреляции Пирсона:
Интерпретация Пирсона: Отклонение признака-фактора от его среднего на величину стандартного отклонения в среднем приводит к отклонению признака-результата от своего среднего на величину r его стандартного отклонения. Коэффициент корреляции Пирсона -1 ≤ Rxy ≤ 1. Rxy = -1Строгая отрицательная корреляция, Rxy = 1Строгая положительная корреляция, Rxy = 0Отсутствие корреляции 0,7 ≤ | Rxy | ≤ 1 Сильная корреляция, 0,5 ≤ | Rxy | ≤ 0,7 Средняя корреляция, 0,3 ≤ | Rxy | ≤ 0,5 Слабая корреляция, 0 ≤ | Rxy | ≤ 0,3 Незначимая корреляция Меры тесноты парной связи: Коэф-т Фехнера: мера тесноты связи виде отклонения разности числа пар совпадений и несовпадений признаков отклон. от среднего.
C – количество совпадающих знаков отклонений от средних H – количество несовпадающих знаков отклонений от средних C + H = n Алгоритм расчета: -расчет среднего для X и Y -сравнение индивид.значений xi и yi со средними значениями с обязат.указаниями знака (+ или -). Если совпад., то относим к «С», если не совпад.,то к «Н». -считаем кол-во совпад.или несовпад. Коэффициент Спирмена: Не параметр.показатель, с помощью кот.пытаемся выявить связи между рангами соответ.величин.
где di – разность рангов по обоим признакам для каждого объекта.
Множественная корреляция Корреляция – мера зависимости переменных. Сила взаимосвязи данных. Меры тесноты парной связи: Коэф-т Пирсона, Спирмена, Фехнера. Множественная корреляция. Использование метода множественной корреляции позволяет обнаружить объедин. эффект. влияния всех независимых переменных к зависимой. Корреляционный анализ показывает тесноту связи, только если связь линейная. Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R². Корреляционное отношение
степень аппроксимации
R² коэфф.детерминации,указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.
35. Регрессия – это предсказание значения одного признака на основе значения другого.Регрессионный анализ проводится при наличии корреляционной связи между признаками. Оценка ошибки выбранной математической модели. y – эмпирическое значение, y* - теоретическое значение, p – число параметров уравнения. Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R². Корреляционное отношение
степень аппроксимации
36. 37. Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X Параметры уравнения парной линейной регрессии вычисляются с помощью метода наименьших квадратов.
Сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть мин. Параметры линейной регрессии находятся из системы:
Доказательство линейности связи. Чтобы подтвердить линейный характер связи необходимо сравнить η² и R². Корреляционное отношение
степень аппроксимации
Вид кривой неизвестен Оценка кривой: Пораболическая связь Y = a + b*x + с*х2 Экспоненциальная связьY = a*ebx Гиперболическая связь Y = a + b/x R²-коэфф.детерминации,указывает,какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику. Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка.
Множественная регрессия. Регрессия – это предсказание значения одного признака на основе значения другого.Регрессионный анализ проводится при наличии корреляционной связи между признаками. Парная линейная рег-я: Y = Сдвиг + Наклон * X; Y = a + b*X Вид кривой неизвестен Пораболическая связь Y = a + b*x + с*х2 Экспоненциальная связьY = a ebx Гиперболическая связь Y = a + b/x R² указывает, какая доля вариации результативного признака объясняется влиянием всех X – переменных.Чем > коэф детерминации R², та прямая лучше описывает, если <0,5, то нет такой прямой. Чем >степень ф-ции, тем лучше она описывает эмпирику. Если разница между коэф-ом детерминации < 0,05, то нет смысла брать ф-цию более старшего порядка. Множественная рег-я: Y = a + b1*X1 + b2*X2 +... + bp*Xp Если значение признака-результата зависят от нескольких факторов.Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной.
39.Факторный анализ - совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.. Цели: 1)сокращениечисла переменных; 2)определение структуры взаимосвязей между переменными. Факторный анализ не требует априорного разделения признаков на зависимые и независимые. Этапы: 1) построение матрицы попарных корреляций; 2) Выделение факторов-Метод главных компонент (МГК). Идея МГК: -линейные комбинации выбираются такие образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая Главная Компонента F1(х) обладает наиб.дисперсией. -геометрически- это ориентация новой координатной оси F, вдоль направления наибольшей вытянутости эллипсоида, рассеивания объектов исследуемой выборки в пространстве признаков. -вторая главная компонента имеет наиб.дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой Главной Компонентой. 3)Методы вращения факторных нагрузок. Вращение матрицы факторных нагрузок - поиск такого положения системы координат, которое для каждой строки (столбца) увеличивало бы большие факторные нагрузки и уменьшало бы малые.
40.Кластерный анализ - это разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Цели:1)Понимание данных (Каждому кластеру – свой метод анализа); 2)Сжатие данных (Один типичный представитель от каждого кластера); 3)Novelty Detection (Выделение нетипичных объектов). Евклидово расстояние – мера расстояния между кластерами.
Расст-е между точками в трёхмерном пр-ве
|
||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2016-08-12; просмотров: 325; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.149.250.65 (0.012 с.) |