Статистическая значимость результата 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Статистическая значимость результата



Статистическая значимость результата (p-уровень) представляет собой оцененную меру уверенности в его "истинности" (в смысле "репрезентативности выборки"). Выражаясь более технически, p-уровень – это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий p-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию.

На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований.

Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить.

Разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д.

Большинство этих мер, тем не менее, подчиняются общему принципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой зависимостью" между рассматриваемыми переменными. Говоря технически, обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных.

Значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными.

Таким образом, для того чтобы определить уровень статистической значимости, нужна функция, которая представляла бы зависимость между "величиной" и "значимостью" зависимости между переменными для каждого объема выборки.

Такая функция указала бы точно "насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет". Другими словами, эта функция давала бы уровень значимости
(p -уровень), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции.

Эта "альтернативная" гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой.

Нормальное распределение

Нормальное распределение важно по многим причинам. Распределение многих величин является нормальным или может быть получено из нормальных с помощью некоторых преобразований.

Нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная "колоколообразная кривая") определяется только двумя параметрами: средним и стандартным отклонением.

Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±3 стандартных отклонения содержит 95% значений.

 

Хотя многие утверждения разделов элементарных понятий статистики можно доказать математически, некоторые из них не имеют теоретического обоснования и могут быть продемонстрированы только эмпирически, с помощью так называемых экспериментов Moнте-Кaрло.

В этих экспериментах большое число выборок генерируется на компьютере, а результаты полученные из этих выборок, анализируются с помощью различных тестов.

Этим способом можно эмпирически оценить тип и величину ошибок или смещений, которые вы получаете, когда нарушаются определенные теоретические предположения тестов, используемых вами.

Исследования с помощью методов Монте-Карло интенсивно использовались для того, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям предположений нормальности.

Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они увеличили общую популярность тестов, основанных на нормальном распределении.

Использование регрессионного анализа для выборок. Основные понятия. Назначение МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях.

В общем, множественная регрессия позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, "что является лучшим предиктором для...". Заметим, что термин "множественная" указывает на наличие нескольких предикторов или регрессоров, которые используются в модели.

Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек.

В простейшем случае, когда имеется одна зависимая и одна независимая переменная, это можно увидеть на диаграмме рассеяния.

Метод наименьших квадратов. На диаграмме рассеяния имеется независимая переменная или переменная X и зависимая переменная Y. Программа строит линию регрессии так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому на эту общую процедуру иногда ссылаются как на оценивание по методу наименьших квадратов.

Уравнение регрессии. Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом.

В многомерном случае, когда имеется более одной независимой переменной, линия регрессии не может быть отображена в двумерном пространстве, однако она также может быть легко оценена. Тогда, в общем случае, процедуры множественной регрессии будут оценивать параметры линейного уравнения вида:

Y = a + b1*X1 + b2*X2 +... + bp*Xp

Однозначный прогноз и частная корреляция. Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной. Другими словами, переменная X1, к примеру, коррелирует с переменной Y после учета влияния всех других независимых переменных. Этот тип корреляции упоминается также под названием частной корреляции. Если одна величина коррелирована с другой, то это может быть отражением того факта, что они обе коррелированы с третьей величиной или с совокупностью величин.

Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.

Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0.

В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными.

Обычно, степень зависимости двух или более предикторов (независимых переменных или переменных X) с зависимой переменной (Y) выражается с помощью коэффициента множественной корреляции R. По определению он равен корню квадратному из коэффициента детерминации. Это неотрицательная величина, принимающая значения между 0 и 1. Для интерпретации направления связи между переменными смотрят на знаки (плюс или минус) регрессионных коэффициентов или B-коэффициентов. Если B-коэффициент положителен, то связь этой переменной с зависимой переменной положительна; если B-коэффициент отрицателен, то и связь носит отрицательный характер. Конечно, если B-коэффициент равен 0, связь между переменными отсутствует.

Как это видно уже из названия множественной линейной регрессии, предполагается, что связь между переменными является линейной. На практике это предположение, в сущности, никогда не может быть подтверждено. Если нелинейность на двумерных диаграммах рассеяния переменных связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные (causal) связи.

Мультиколлинеарность и плохая обусловленность матрицы. Проблема мультиколлинеарности является общей для многих методов корреляционного анализа. Представим, что имеется два предиктора (переменные X) для роста субъекта: (1) вес в фунтах и (2) вес в унциях. Очевидно, что иметь два предиктора совершенно излишни; вес является одной и той же переменной, измеряется он в фунтах или унциях. Это происходит при попытке выполнить множественный регрессионный анализ с ростом в качестве зависимой переменной (Y) и двумя мерами веса, как независимыми переменными (X).

Подгонка центрированных полиномиальных моделей. Подгонка полиномов высших порядков от независимых переменных с ненулевым средним может создать большие трудности с мультиколлинеарностью. А именно, получаемые полиномы будут сильно коррелированы из-за этого среднего значения первичной независимой переменной. При использовании больших чисел эта проблема становится очень серьезной, и если не принять соответствующих мер, то можно прийти к неверным результатам. Решением в данном случае является процедура центрирования независимой переменной, т.е. вначале вычесть из переменной среднее, а затем вычислять многочлены.

 

45. Понятие интегрированной системы автоматизированного проектирования. Классификация подсистем интегрированной системы автоматизированного проектирования.

.

Разработка и техническая подготовка производства изделий машиностроения предусматривает выполнение определенной стандартами последовательности взаимосвязанных процессов. Современные системы автоматизированного проектирования поддерживают целый комплекс инженерных работ на несколь­ких ключевых этапах жизненного цикла изделия (ЖЦИ) -в процессах проектирования, конструкторско-технологической подготовки производства и составляют основу интегрированных систем управления ЖЦИ машиностроительного предприятия (PLM-систем).

В настоящее время под термином «машиностроительная САПР» у нас в стране и за рубежом однознач­но подразумевается комплексная автоматизированная систе­ма, состоящая как минимум из CAD/CAM/CAE/CAPP/PDM-подсистем.

CAD-системы (Computer-Aided Design — компьютерная под­держка конструирования) предназначены, прежде всего, для решения конструкторских задач и автоматизации оформления проектно-конструкторской документации. Современные уни­версальные CAD-системы позволяют выполнять в интерактив­ном режиме как 2D, так и ЗD -геометрическое моделирование де­талей и сборок, а также разрабатывать на основе геометрических Моделей полный комплект технической документации: чертежи, спецификации, ведомости и т.д. Сюда же относятся и многочисленные проблемно-ориентированные программы и подсистемы, автоматизирующие частные задачи проектирования (моделиро­вание деталей, изготавливаемых из листовых материалов, объ­емной штамповки, трассировки трубопроводов, расчеты типовых изделий и их элементов — тел вращения, пружин, зубчатых сое­динений и т.д.).

САМ-системы (Computer-Aided Manufacturing — компьютерная поддержка изготовления) предназначены в основном для проек­тирования процессов обработки изделий на станках с числовым программным управлением (ЧПУ) и генерации программ для этих станков (фрезерных, сверлильных, токарных, шлифоваль­ных и др.). К САМ-системам логично отнести и другие компоненты САПР, решающие многочисленные проблемно-ориентированные задачи технологической подготовки произ­водства (моделирование и расчет заготовок, подбор оптималь­ных режимов обработки, вычисление параметров техпроцессов и т.д.).

САЕ-системы (Computer-Aided Engineering — компьютерная поддержка инженерного анализа), как правило, реализуют уни­версальные подходы метода конечных элементов, с помощью которого можно проводить моделирование и численные расчеты практически любых физических полей. К САЕ можно отнести обширный класс подсистем, каждая из которых позво­ляет автоматизировать определенную инженерную задачу (класс однородных задач): от расчетов на прочность, анализа аэро-, ги-дро-, термодинамических процессов — до моделирования функ­ционирования машин и механизмов, расчетов процессов литья, штамповки и пр.

САРР (СААР)-системы (Computer-Aided Process Planning (Assembly Planning) — компьютерная поддержка планирования технологических процессов (процессов сборки). Предназначены для проектирования технологических процессов, трудового и ма­териального нормирования и разработки технологической доку­ментации. Эти системы совместно с компонентами CAD/CAM/САЕ-систем составляют современную основу САПР ТП.

PDM-системы (Product Data Management - управление дан­ными о продукте) предназначены для интеграции и хранения комплексной информационной модели изделия, включая геоме­трические и инженерно-физические модели, исходные данные и результаты расчетов, чертежи, программы для станков с ЧПУ» другие конструкторские и технологические документы, результаты измерений и контроля, материалы системы качества и т.д.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 278; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.21.100.34 (0.014 с.)