Тема 2. Математические методы, используемые для установления подобия и отличия объектов и систем 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 2. Математические методы, используемые для установления подобия и отличия объектов и систем



 

Вопросы:

1. Критерий Стъюдента (t)

2. Критерий наименьшей существенной разности (НСР)

3. Критерий соответствия (х2)

4. Критерий Фишера (F)

 

Достоверность различий между генеральными сово­купностями (Ni, N 2...) может быть определена с помощью следующих критериев достоверности: критерия Стьюдента (t), наименьшей существенной разности (НСР), кри­терия соответствия (x2), критерия Фишера (F).

1. Критерий Стьюдента. Сравнение выборочных сово­купностей по критерию Стьюдента t позволяет утверж­дать с некоторой долей уверенности сходство или раз­личие между средними выборок по разнице между ними (MiМ2, miМ3, М2 —М3 и т. д.) с использованием фор­мулы

t = d/md,                                                        (1.14)

где d — разность между средними 1М2); т d — ошиб­ка разности средних.

При расчете разницы между средними из большей величины вычитают меньшую независимо от нумерации выборочных совокупностей. С методической точки зрения весьма важным для исследователя является установле­ние типа выборочной совокупности. От этого будет за­висеть применение соответствующих формул при расчете степени свободы и ошибки разности между средними вы­борочных совокупностей.

Выделяют три типа сравниваемых статистических со­вокупностей: независимые с одинаковым объемом вы­борок (Ni = N 2), независимые с разным объемом выбо­рок (N 1 N 2), сопряженные только с одинаковым объ­емом выборок (ni = n 2).

Независимые статистические совокупности могут быть получены на одной или нескольких точках, но при оди­наковых условиях проведения эксперимента: например, измерение температуры воздуха в июле в г. Минске в течение нескольких лет и установление достоверных раз­личий между этими показателями по годам исследова­ний; определение содержания бора в автономных ланд­шафтах на дерново-подзолистых супесчаных почвах оди­наковой окультуренности в северной, центральной и южной провинциях Белоруссии и сравнение полученных данных по провинциям. И в том, и в другом случаях условия наблюдения одинаковы. Поэтому при установ­лении степени свободы в каждом независимом экспери­менте выборочные совокупности суммируются.

Сопряженные статистические совокупности, как и не­зависимые, однозначны по смыслу, их получают при про­ведении исследований на одном или нескольких ключах, но в разных условиях. Например: измерение температур воздуха и почвы на глубине 5 см в г. Минске в июле и сравнение полученных показателей (условия разные, точка наблюдения одна и та же); анализ содержания бора в дерново-подзолистых супесчаных почвах элюви­ального ландшафта и в дерново-подзолистых заболочен­ных супесчаных почвах супераквального ландшафта (точки наблюдения и условия различны). Степень свободы в каждом рассматриваемом эксперименте опреде­ляется по числу пар сравниваемых выборок (Nu).

При одинаковом объеме выборок в случаях независи­мых статистических совокупностей производят следую­щие расчеты. Вычисляют средние в сравниваемых вы­борках М1и М 2. Затем находят ошибки средних для каждой выборки в отдельности по формуле (1.5), опре­деляют разность между средними d =М1M 2. Ошибку разности между средними вычисляют по формуле

 ,                                      (1.15)

где т1 — ошибка среднего арифметического первой вы­борки; т2 — ошибка среднего арифметического второй выборки.

Критерий Стьюдента определяют по формуле (1.6). Число степеней свободы устанавливают следующим об­разом:

v =N1 + N2 - 2.

Сопоставляя tф, и tТ, устанавливают или отвергают с некоторой долей уверенности различия между средними арифметическими выборок.

 

Пример. При исследовании глубины расчленения рельефа в Воложинском районе n 1 и Браславском районе N 2 необходимо уста­новить, объединять рассматриваемые участки в один геоморфологи­ческий район по степени расчленения рельефа или различать их как самостоятельные. Исходные данные и их обработка приводятся в табл. 1.3. Из полученной информации по средним арифметическим (M1 =16,6, М2 = 15,2 м) различие по глубине расчленения рельефа можно признать как существенным, так и несущественным. Для объ­ективных выводов используем критерий Стьюдента. Определим разницу между средними: d = М1 — М2 = 16,6 — 15,2 = 1,4 м. Ошибки сред­них по каждой выборке равны:

 

 ;

 

.

 

Ошибка разности средних составляет: . Полученные данные подставляем в формулу (1.14): t=1,4: 1,2 = 1,17. Число степеней свободы v = N1 + N2 — 2 = 5 + 5 — 2 = 8.

Сопоставляем табличные значения критерия Стьюдента tт=2,32 и 3,36 (см. приложение 4) при Р=0,95 и 0,99 для v=8 с расчетным. Поскольку tТ > t Ф,, то разность между средними признается несу­щественной (недостоверной). Следовательно, при выделении геомор­фологических районов по глубине расчленения рельефа рассматри­ваемые участки необходимо объединить в один геоморфологический район.

Таблица 1.3

Форма обработки вариант в независимых совокупностях

 

xi 1 xi1- M1 (xi1-M1)2 xi2 xi2- M2 (xi2-M2)2
20 3,4 11,56 17 1,8 3,24
17 0,4 0,16 16 0,8 0,64
16 -0,6 0,36 15 -0,2 0,04
15 -1,6 2,56 14 -1,2 1,44
15 - 1,6 2,56 14 -1,2 1,44
Σ 83

0

17,20

76

0

6,80

M1=16,6 M2=15,2

 

При разном объеме выборок в сравниваемых сово­купностях порядок вычислений критерия Стьюдента та­кой же, как и при установлении достоверности в неза­висимых выборках с одинаковым числом наблюдений. Различие состоит лишь в вычислении ошибки разности средних, которая определяется по формуле

,                                   (1.16)

 

где Σ(xi1 — M1)2  - сумма квадратов отклонений от среднего для первой выборки; Σ i 2 - М2)2 - второй выборки; N1, N2— количество вариант в первой и второй выборках соответственно.

Исходные данные для формулы (1.16) получаем пу­тем вычислений, аналогичных представленным в табл. 1.3.

При малых объемах независимых совокупностей, если дисперсии сравниваемых выборок нельзя считать одина­ковыми, число степеней свободы определяется несколько сложнее:

 

,

 

где , m1, m2— ошибка среднего первой и второй выборок соответственно.

При установлении различий между сопряженными выборками алгоритм тот же, что и для независимых на­блюдений. Вычисление ошибки разности средних в этом случае производится по формулам

; ,

 

где di — разность между индивидуальными сопряжен­ными вариантами в выборках;   — разность между сред­ними сопряженных выборок; N П число сопряженных пар в сопря-женных выборках.

Число степеней свободы находят по равенству v = Nп—1.

 

Пример. Сравним глубину расчленения рельефа в пределах конечно-моренного ландшафта N 1 и донно-моренного ландшафта N 2 (получены сопряженные выборки). Для обработки данных составля­ем табл. 1.4. Число пар NП = 5. Разность между средними = M 1 - M2 = 16,6—15,2=1,4. Ошибку разности средних рассчитыва­ем по одной из формул

 

 

или

 

.

 

Критерий Стьюдента определяется по формуле

.                                                                       (1.17)

Подставив в формулу (1.17) необходимые данные, получим: t =1,4:0,40=3,5. Число степеней свободы v=NП—2 = 5—2=3. Для v=3 при Р=0,95 и 0,99 tT=3,18 и 5,84 соответственно (см. прило­жение 4). Поскольку t Ф > t Т при Р=0,95, то различие по глубине расчленения рельефа в сравниваемых ландшафтах признается суще­ственным. Такие ландшафты в один геоморфологический район объ­единять нельзя.

Таблица 1.4

Форма обработки данных сопряженных наблюдений

 

Глубина расчленения,

м

di

N1 N2
20 17 3 9 + 1,6 2,56
17 16 1 1 —0,4 0,16
16 15 1 1 —0,4 0,16
15 14 1 1 —0,4 0,16
15 14 1 1 —0,4 0,16
Σ 83 76 7 13 0 3,20
M1=16,6 М2=15,2  = l,4  

=1,4

 

Если при проведении эксперимента пренебречь со­пряженностью выборок и обработку статистических по­казателей проводить по независимым наблюдениям, то получим противоположный вывод, т. е. различие будет признано несущественным. Поэтому необходимо под­бирать такой способ обработки выборочных совокупно­стей, который соответствовал бы условиям проведения опыта.

 

2. Наименьшая существенная разность. Достоверность различий между двумя выборками может быть прове­рена по наименьшей существенной разности (НСР). Наименьшая существенная разность показывает то ми­нимальное различие между средними, начиная с которо­го при выбранном уровне вероятности средние сравни­ваемые показатели существенно отличаются друг от дру­га. Величина критерия НСР выражается в тех же единицах, что и сравниваемые средние выборочных со­вокупностей, и определяется по формуле

 

НСР = t Т · m d,                                                (1.18)

 

где т d — ошибка разности средних; tT — табличное зна­чение критерия Стьюдента при выбранном значении уровня вероятности.

Если разность между сравниваемыми средними в условиях эксперимента больше или равна величине НСР при Р = 0,95 или 0,99, то различие существенно. Если разность между средними меньше НСР, то различие обусловлено случайными факторами и признается недо­стоверным.

Проверим достоверность разности между средними арифметическими с использованием критерия НСР для случаев независимого и сопряженного наблюдений по формуле (1.18): НСР0,95=2,31•1,20=2,77 м, НСР0,99=3,36-1,20=4,03 м для независимых наблюдений; НСР0,95 = 3,18- 0,40= 1,27 м, НСР0,99 = 5,84 -0,40 = 2,33 м для сопряженных наблюдений.

Разница между средними арифметическими глубины расчленения рельефа при независимых и сопряженных наблюдениях в примерах одна и та же (1,4 м). Сравни­вая ее с величиной НСР, приходим к тем же выводам, что и при использовании критерия Стьюдента. По величине НСР достоверное различие между средними уста­новлено лишь при сопряженном наблюдении для уров­ня вероятности 0,95 (HCP0,95=1,27< = 1,4 м).

3. Критерий Фишера. Сравниваемые совокупности мо­гут отличаться не только по величине средних, но и по другим параметрам распределения случайных величин, в частности по дисперсиям. В таких случаях при уста­новлении достоверности различия между совокупно­стями лучше использовать критерий Фишера F (положи­тельное асимметричное распределение). Расчет критерия Фишера производится по формуле

,                                                (1.19)

где  по абсолютной величине должна быть больше, чем . Если величина расчетного критерия Фишера FФ не превышает величины приведенного в таблице FT (при­ложение 5), то различие между сравниваемыми диспер­сиями считается недостоверным. При Fф>Fт эти диспер­сии достоверно различны, а различие сравниваемых ге­неральных совокупностей признается неодинаковым. Степень свободы рассчитывается для сравниваемых со­вокупностей отдельно по формуле v = N—1.

Пример. Необходимо установить достоверность различия в содержании гумуса в дерново-подзолистой заболоченной суглинистой почве для северной n 1 и центральной n 2 провинций РБ. Количе­ство вариант в обеих совокупностях одинаковое. В результате обра­ботки данных получены следующие средние и дисперсии: M1 = 3,53 %,  =0,0024 %; M2 = 3,32 %, =0,00032 %. Сравниваемые совокуп­ности весьма сходны и можно констатировать отсутствие различия между ними. Однако пределы колебаний в совокупностях сущест­венно отличаются по вариантам (более чем в 2 раза), что требует для доказательства сходства или различия использовать критерий Фишера. В результате вычислительных операций получены следую­щие результаты: Fф = / = 0,0024: 0,00032 = 7,5. Степень свободы равна: v1 = 5—1=4, v2 = 5—1=4. Для P=0,95 и 0,99 FT = 6,39 и 15,98 соответственно. Поскольку Fф>Fт, то различие в содержании гумуса по провинциям признается существенным при уровне вероят­ности Р=0,95.

4. Критерий кси-квадрат. Количественное изучение явле­ний требует создания гипотез, с помощью которых мож­но объяснить эти явления. Чтобы проверить гипотезу, нужно получить ряд опытных данных и сопоставить их с теоретически ожидаемыми согласно гипотезе. Совпаде­ние может служить основанием для принятия гипотезы и подтверждения ее правильности. Степень несоответствия фактических наблюдений теоретически ожидаемым ре­зультатам может быть различной. Отсюда возникает задача статистической оценки разницы между расчет­ными и теоретически ожидаемыми данными. Для этой цели используется критерий кси-квадрат (χ2), или кри­терий соответствия, который рассчитывается по формуле

                                                             (1.20)

где φ, φ' — число наблюдений в опыте фактическое и теоретически ожидаемое.

Значения кси-квадрат могут быть только положитель­ными и возрастать от нуля до бесконечности. Если рас­четные значения кси-квадрат превышают табличные (приложение 6), то гипотеза о независимости признаков отвергается. Если < , то признаки можно считать не­зависимыми. Степень свободы при проверке гипотезы о нормальном распределении вычисляется по формуле v = k —3, где k — число классов.

Достоверность расчетных данных можно также оце­нить по формуле

D = (  — v)/  3.                                          (1.21)

Различие считается достоверным, если D 3. При обра­ботке данных по условиям применения критерия кси-квадрат требуется, чтобы частота в каждом классе была не менее пяти.

Пример. Следует определить число сельских жителей с бронхолегочными заболеваниями, обострение болезни у которых связано с природными условиями местожительства. Для обработки выбороч­ных вариант составляем таблицу 1.5. Всего выявлен 71 больной жи­тель из 639 обследованных одного возраста и пола по 9 человек в каждом населенном пункте. Для обработки данных количество об­следованных сгруппировано в 9 классов. Поскольку частота в каж­дом классе φ, φ' должна быть не менее 5, объединяем первые три и последние два класса в столбцах 2 и 3. Получаем новые классы с частотами 11,15 и 13,8 (всего по 6 классов распределения). Затем производим расчеты, которые позволяют получить критерий кси-квадрат (см. табл. 1.5).

Сравниваем и  при величине степени свободы v= k —3=6—3=3 и для Р = 0,95. Поскольку =5,43< =7,815, теоретическое распределение частот несущественно отличается от эмпи­рического, а гипотеза признается состоятельной.

Определим также достоверность кси-квадрат по формуле (1.21):

D = (5,43—3)/ = 0,99.

Таблица 1.5

Сравнение эмпирических и теоретических частот с использованием критерия кси-квадрат

 

Число обсле-дованных жителей (классы) Число фактиче -ски больных, φ Число теоре-тически больных, φ' φ – φ' (φ- φ')2 (φ- φ')2 φ'
1 2 3 4 5 6
1-71 72-142 143-213 214-284 285-355 356-426 427-497 498-568 569-639 10 15 12 10 13 14 10 11   -4   -3 1 2 -1 5   16   9 1 4 1 25   1,06   0,69 0,07 0,40 0,09 3,12
i=9 N=71 N=71  

=5,43

Полученная величина D=0,99<3, следовательно, рассчитанное значение кси-квадрат показывает достоверное влияние природных условий на распространение бронхолегочных заболеваний.

 

 

Тема 4 Использование дисперси­онного, информационного и кластерного анализа в классифи­ кации и районировании

Вопросы:

1. Обработка данных дисперсионного анализа

2. Цели и условия применения информационного метода в географических исследованиях

3. Цели и условия использования кластерного анализа.

 



Поделиться:


Последнее изменение этой страницы: 2021-05-11; просмотров: 166; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.193.129 (0.039 с.)