ТОП 10:

Подгонка кривой с помощью полиномиальной регрессии



 

Рассмотрим нелинейную двумерную взаимосвязь. Если диаграмма рассеяния Y в зависимости от X демонстрирует наличие нелинейной взаимосвязи, можно попытаться воспользоваться множественной регрессией, введя сначала новую X-переменную, взаимосвязь которой с переменной X также является нелинейной. Простейшим вариантом является введение переменной X— квадрата исходной переменной X (Х2). Теперь вы имеете дело с многомерной совокупностью данных, которая характеризуется наличием трех переменных: Y, X и X2. Когда вы прогнозируете Y на основании одной переменной X и некоторых из ее степеней (X2, X3 и т.д.), вы имеете дело с полиномиальной регрессией. Рассмотрим случай использования переменной X вместе с X2.

В случае использования этих переменных обычное уравнение множественной регрессии, Y = а + b1 X1 + b2Х2, превращается в квадратичный полином — Y = а + b1Х + b2Х2. Такая взаимосвязь по-прежнему рассматривается как линейная, поскольку отдельные члены складываются. Точнее говоря, вы имеете дело с линейной взаимосвязью между Y и парой переменных (X, X2), которые вы используете для объяснения нелинейной взаимосвязи между Y и X.

Начиная с этого момента вы можете просто вычислить множественную регрессию Y по двум переменным X и X2 (таким образом, количество переменных увеличивается до k = 2, в то время как количество наблюдений, п, не изменяется). При этом используется вся рассмотренная ранее техника: прогнозы, остатки, R2 и Se, как меры качества регрессии, тесты для коэффициентов регрессии и т.д.

На рис. 12.3.1 представлены некоторые из множества кривых, которые могут порождаться квадратичными полиномами. Если ваша диаграмма рассеяния Y в зависимости от X похожа на одну из этих кривых, то введение X2 в качестве новой переменной может быть полезным для объяснения и прогнозирования соответствующей взаимосвязи.

 

Пример. Оптимизация объема производимой продукции

 

Проанализируем данные из табл. 12.3.3, представляющие собой часть эксперимента для определения температуры, позволяющей получить наибольший объем продукции, выпускаемой в ходе некоторого производственного процесса.

 

Эти данные могут оказаться чрезвычайно полезными для вашей фирмы, поскольку они свидетельствует о том, что для максимизации объема выпускаемой продукции температуру процесса следует установить около 700 градусов. Объем выпускаемой продукции заметно снижается, если температура существенно отличается от указанного значения (в ту или другую сторону).

Диаграмма рассеяния, показанная на рис. 12.3.2 с помощью линии наименьших квадратов, демонстрирует, сколь неподходящей может оказаться линейная регрессия при попытках ее использования для прогнозирования нелинейной взаимосвязи. Структуру, которая в данном случае просматривается совершенно четко, можно использовать для прогнозирования объема выпускаемой продукции на основе температуры и для определения температуры, обеспечивающей максимальный объем продукции, но прямая линия в данном случае совершенно неуместна!

 

 

Эту проблему способна решить полиномиальная регрессия; кроме того, она даст вам надежную оценку оптимальной температуры, обеспечивающей максимальный объем выпускаемой продукции. В табл. 12.3.4 представлена многомерная совокупность данных, которая будет использоваться в этом случае. Обратите внимание, что новой является лишь последняя переменная (квадрат температуры). Ниже представлено уравнение прогнозирования, полученное методом множественной регрессии. На рис 12.3.3 представлен соответствующий график и данные.

 

 

Объем продукции = -712,10490 + 2,39119 (температура) - 0,00165 (температура2).

 

Соответствующие результаты представлены в табл. 12.3.5.

 

 

 

Коэффициент детерминации для этой множественной регрессии, R2 = 0,969, свидетельствует, что очень большая часть вариации объема выпускаемой продукций, а именно 96,9%, объясняется температурой и ее (температуры) квадратом. (В действительности сама по себе прямая линия объясняет менее 1%.) Стандартное отклонение оценки Se = 1,91 указывает на то, что объем выпускаемой продукции можно прогнозировать с точностью в несколько единиц (сравните с соответствующим намного большим значением 10,23 для прямой линии).

Как проверить, действительно ли нам необходим дополнительный член (квадрат температуры)? t-тест для соответствующего коэффициента регрессии (b2 = -0,00165), основанный на стандартной ошибке Sb2 =0,000104 с 8 степенями свободы, указывает на очень высокую значимость этого члена уравнения. Разумеется, это было очевидно из сильной кривизны на диаграмме рассеяния.

Какую температуру лучше всего использовать для оптимизации объемов выпуска продукции? Если коэффициент регрессии b2 для квадрата переменной X является отрицательным (как в данном случае), то квадратичный полином принимает максимальное значение при –b1 /2b2. В нашем случае температура, обеспечивающая максимальный объем выпускаемой продукции, определяется следующим образом:

оптимальная температура = –b1 /2b2 = -2,39119/[2(-0,00165)] = 724,6.

Таким образом, правильным будет установить температуру на уровне 725 градусов.

 







Последнее изменение этой страницы: 2016-04-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.233.221.149 (0.004 с.)