Татьяна Ефимова предлагает статью на тему: "оценка параметров линейной регрессии" с детальным описанием.
Содержание
- 1 Оценка параметров линейной регрессии
- 2 Корреляция и регрессия
- 3 Оценка сущности параметров линейной регрессии и корреляции.
- 4 линейная регрессия и корреляция, ее применение в эконометрических исследованиях.
- 5 Оценка параметров уравнения регреcсии. Пример
- 6 Оценка существенности параметров линейной регрессии
- 7 Оценка параметров линейной регрессии
Оценка параметров линейной регрессии
Параметры уравнения y = a*x + b
а) с помощью статистической функции ЛИНЕЙН (Excel). Получаем следующую статистику:
a | 0,15 | 197,80 | b |
ma | 0,07 | 13,77 | mb |
R 2 | 0,32 | 8,36 | Sост |
Fф | 5,07 | 11 | Ч.С.С |
354,56 | 768,52 | (y-y x ) 2 |
Записываем уравнение парной линейной регрессии:
Экономический смысл уравнения: с увеличением х на 1 ед., y возрастает в среднем на а ед.
Если требуется рассчитывать без применения Excel, то строим таблицу.
N | x | y | x 2 | x*y | (y-y x ) 2 | (y-y ср ) 2 |
1 | ||||||
2 | ||||||
3 | ||||||
N | ||||||
Итого | ||||||
Среднее |
б) для парной линейной регрессии:
в) или решая систему уравнений
Для автоматического расчета можно воспользоваться сервисом Уравнение регрессии
б) с помощью статистической функции КОРРЕЛ (Excel)
в) по формуле:
или
К xy – корреляционный момент (коэффициент ковариации)
Средняя ошибка аппроксимации (рассчитываем столбцы y x , y i -y x , A i )
Это означает, что в среднем, расчетные значения зависимого признака отклоняются от фактического значения на А%.
а) с помощью функции ЛИНЕЙН (Excel)
б) R 2 = r 2 xy ; R 2 = 0,32, т.е. в 31,57% случаев изменения х приводят к изменению y . Другими словами – точность подбора уравнения регрессии 31,57% – низкая.
Оценка статистической значимости
а) по критерию Фишера :
1. Выдвигаем нулевую гипотезу о статистической незначимости параметров регрессии и показателя корреляции а = b = r xy
2. Фактическое значение критерия получено из функции ЛИНЕЙН (Excel)
3.Для определения табличного значения критерия рассчитываем коэффициенты k1 = m = 1 и k2= n – m – 1
4. Сравниваем фактическое и табличное, значения критерия F факт > F табл
нулевую гипотезу отклоняем и делаем вывод о статистической значимости и надежности полученной модели.
б) по критерию Стъюдента
1. Выдвигаем нулевую гипотезу о статистически незначимом отличии показателей от нуля; а = b = r xy =0;
2. Табличное значение t-критерия зависит от числа степеней свободы и заданного уровня значимости а.
Уровень значимости – это вероятность отвергнуть правильную гипотезу при условии, что она верна.
3. Фактические значения t-критерия рассчитываются отдельно для каждого параметра модели. С этой целью, сначала определяются случайные ошибки параметров ma, mb, mr
S 2 – необъясненная дисперсия является несмещенной оценкой дисперсии случайных отклонений
n – число наблюдений, m – число независимых переменных.
Рассчитаем фактические значения t-критерия.
4. Сравниваем фактические значения t-критерия с табличными значением:
нулевую гипотезу отклоняем, параметры a = b = r xy – не случайно отличаются от нуля и являются статистически значимыми и надежными.
в) чтобы рассчитать доверительный интервал для параметров регрессии a,b необходимо определить предельную ошибку параметров:
а ± ∆a; a – ∆a ≤ a ≤ a + ∆a
b ± ∆b; b – ∆b ≤ b ≤ b + ∆b
Анализ верхней и нижней границ доверительного интервалов показывает, что с вероятностью р = 1- α = 0,95 параметры а и b не принимают нулевые значения, т.е. являются статистически значимыми и надежными. Если одна из границ доверительного интервала – меньше нуля или равна нулю – делается вывод о статистической незначимости соответствующего параметра.
4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение yp определятся путем подстановки в уравнение регрессии соответствующего прогнозного значения хр. Если прогнозное значение составит хр = ∙1,1, то прогнозное значение y
5. Рассчитаем случайную ошибку прогноза:
Предельная ошибка прогноза: ∆y = tтабл*myp
Доверительный интервал прогноза:
С надежностью 0,95 прогнозное значение y заключено в данном доверительном интервале. Поскольку границы не принимают нулевых значений можно сделать вывод о статистической надежности прогноза.
Автоматический расчет
Для автоматического расчета можно воспользоваться сервисом Уравнение регрессии. Необходимо будет ввести значения x,y (можно вставить из MS Excel). Решение оформляется в файле MS Word с пояснением нахождения каждого параметра.
Корреляция и регрессия
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε – случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β – используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид:
10a + 356b = 49
356a + 2135b = 9485
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17
Уравнение регрессии:
y = 68.16 x – 11.17
1. Параметры уравнения регрессии.
Выборочные средние.
1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у ) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у , но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе – обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета – коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами – Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596
т.е. в 95.96 % случаев изменения x приводят к изменению у . Другими словами – точность подбора уравнения регрессии – высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.
x | y | x 2 | y 2 | x • y | y(x) | (yi-ycp) 2 | (y-y(x)) 2 | (xi-xcp) 2 | |y – yx|:y |
0.371 | 15.6 | 0.1376 | 243.36 | 5.79 | 14.11 | 780.89 | 2.21 | 0.1864 | 0.0953 |
0.399 | 19.9 | 0.1592 | 396.01 | 7.94 | 16.02 | 559.06 | 15.04 | 0.163 | 0.1949 |
0.502 | 22.7 | 0.252 | 515.29 | 11.4 | 23.04 | 434.49 | 0.1176 | 0.0905 | 0.0151 |
0.572 | 34.2 | 0.3272 | 1169.64 | 19.56 | 27.81 | 87.32 | 40.78 | 0.0533 | 0.1867 |
0.607 | 44.5 | .3684 | 1980.25 | 27.01 | 30.2 | 0.9131 | 204.49 | 0.0383 | 0.3214 |
0.655 | 26.8 | 0.429 | 718.24 | 17.55 | 33.47 | 280.38 | 44.51 | 0.0218 | 0.2489 |
0.763 | 35.7 | 0.5822 | 1274.49 | 27.24 | 40.83 | 61.54 | 26.35 | 0.0016 | 0.1438 |
0.873 | 30.6 | 0.7621 | 936.36 | 26.71 | 48.33 | 167.56 | 314.39 | 0.0049 | 0.5794 |
2.48 | 161.9 | 6.17 | 26211.61 | 402 | 158.07 | 14008.04 | 14.66 | 2.82 | 0.0236 |
7.23 | 391.9 | 9.18 | 33445.25 | 545.2 | 391.9 | 16380.18 | 662.54 | 3.38 | 1.81 |
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 – количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически – значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S 2 y = 94.6484 – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 9.7287 – стандартная ошибка оценки (стандартная ошибка регрессии).
S a – стандартное отклонение случайной величины a.
Sb – стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где
xi | y = -11.17 + 68.16xi | εi | ymin | ymax |
0.371 | 14.11 | 19.91 | -5.8 | 34.02 |
0.399 | 16.02 | 19.85 | -3.83 | 35.87 |
0.502 | 23.04 | 19.67 | 3.38 | 42.71 |
0.572 | 27.81 | 19.57 | 8.24 | 47.38 |
0.607 | 30.2 | 19.53 | 10.67 | 49.73 |
0.655 | 33.47 | 19.49 | 13.98 | 52.96 |
0.763 | 40.83 | 19.44 | 21.4 | 60.27 |
0.873 | 48.33 | 19.45 | 28.88 | 67.78 |
2.48 | 158.07 | 25.72 | 132.36 | 183.79 |
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895
Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b – tкрит Sb; b + tкрит Sb)
(68.1618 – 1.895 • 5.2894; 68.1618 + 1.895 • 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a – ta)
(-11.1744 – 1.895 • 5.3429; -11.1744 + 1.895 • 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).
Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.
Оценка сущности параметров линейной регрессии и корреляции.
После нахождения уравнения линейной регрессии проводится оценка значимости как уравнения в целом, так и его параметров. Оценка значимости уравнения регрессии в целом производится при помощи критерия Фишера. В основе лежит гипотеза о том, что коэффициент регрессии b=0, откуда фактор х не оказывает никакого влияния на результативный признак y. До начала расчета F- критерия производится анализ дисперсии. В основе этого анализа лежит правило сложной дисперсии.
=
+
Общая сумма квадратов отклонения
Сумма квадратов, объясняющих регрессий
Остаточная сумма квадратов отклонений
Общая сумма квадратов отклонений индивидуальных значений результативного признака y от среднего значения
вызывается влиянием множества причин. Эти причины можно разделит на две группы.1. Изучаемый фактор х.
2. Все другие факторы.
Если фактор х не оказывает влияния на результат, то линия регрессии на графике параллельна оси Ох и среднее значение y равно расчетному:
Тогда все дисперсии результативного признака обусловлены воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной.Если прочие факторы не влияют на результат, то связь х и y функциональна, а остаток суммы квадратов равен нулю. Сумма квадратов объясненных регрессий в этом случае совпадает с общей суммой квадратов.
В связи с тем, что не все точки поля корреляции лежат на линии регрессии имеет место разброс, обусловленный как влиянием фактора х, т.е. регрессией, так и вызванный действием прочих причин (необъясненные возмущения). В зависимости от того, какая часть объединенной вариации признака y приходится на объясняющую вариацию, делают вывод о том, пригодна ли линейная регрессия для прогноза. Если сумма квадратов отклонений, обусловленная регрессией будет больше остаточной суммы квадратов, то уравнение регрессии считается статистически значимым, а фактор х оказывает существенное воздействие на результативный признак y. В таком случае коэффициент детерминации r2 будет приближаться к единице.
Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. с числом свободы, независимого варьирования признака. Его значение связано с числом единиц совокупности n и с числом определяемых постоянных m (а, b). Для объединенной суммы квадратов число степеней свобода равно n-1. Объясненная или функциональная сумма квадратов имеет одну степень свободы, т.е. равна единице. Существует равенство между числом степеней свободы общей факторной и остаточной сумме квадратов, потому что степеней свободы для остаточной суммы квадратов равно n-2. При делении каждый из суммы квадратов на соответствующее число степеней свободы получают среднее квадратическое отклонение и дисперсию: σ2 – общее, σ2 – объясненная и σ2 – остаточная.
Сопоставляя фактическую и остаточную дисперсии в расчете на одну степень свободы, получаем F – отношение или F- критерий
Если нулевая гипотеза справедлива, то фактическая и остаточная дисперсии не отличаются друг от друга. Для нулевой гипотезы необходимо опровержение, чтобы фактор дисперсии превышал остаток в несколько раз. Разработаны специальные таблицы критических значений F- критерия при разных уровнях сущности нулевой гипотезы и различным числом степеней свободы. Табличное значение F – критерия это максимальная величина отклонения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F – отклонения признается достоверным (отличающимся от границы), если оно больше таблиц. В этом случае нулевая гипотеза об отсутствии связи отклоняется и дается вывод о сущности этой связи Fфакт. > Fтабл.. Если Fфакт. tфакт, то нулевая гипотеза не отклоняется и признается случайная природа формирования а, b,r.
линейная регрессия и корреляция, ее применение в эконометрических исследованиях.
Лин регрессия сводится к нахождению уравнения вида y=a+bx+e графически вид: имеет широкое применения в связи с легкостью интерпретации ее параметров параметры
a=Уравн регрессии всегда дополняется показат тесноты связи. Для линейной функции таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 2 – Квадрат коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.(%)
8.предпосылки МНК
При оценке параметров применяется МНК при этом делаются определенные предпосылки касаемо случ составл e в модели y=a+bx+e e=уфакт-утеор при измен специфик могут меняться, поэтому в звдвчу регр анализа входит также исследование случ остатков e после постр уравн регр проводтся проверка наличия у случ остатков св-в: несмещенность( мат.ожидание =0, если несм.то их можно сравнивать) эффективность(характеризуются наименьшей дисперсией)состоятельность(увеличение точности с увел выборки)
Условия для получения несмещенных,эффективных,состоятельных оценок представляют собой предпосылки МНК:1) случ характер остатков (график зависимости остатков от теор значений, если случайны– мнк оправдан)
2)средняя величина остатков=0, не зависит от х( график зависимости e от х, если зависят модель не адекватна)
3)дисперсия остатков гомоскедастична(для каждого х остатки e имеют одинаковую дисперсию, можно увидеть из поля корреляции) 4)отсутствие автокорреляции остатков(значения остатков e распределены независимо друг от друга) для этого рассчитывается коэфф авткорр остатков
если сильно отличен от 0 то оценки состоятельны и эффективны) при несоблюдении основных предпосылок необходимо менять спецификацию, добавлять и исключать факторы, преобразовывать данные для получения оценок коэфф регрессии которые обладают св-м несмещенности, имеют меньшее значение дисперсии остатков и обеспеч более эфф стат проверку9.оценка существенности параметров линейной регрессии и корреляции t-критерий и его связь с F-критерием
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля, выдвигается гипотиза H0 и проверяется на основе сравнения табличного значенияс фактическим.Для расчета значимости параметра b и нахождения t-критерия рассчитывается его ст ошибка
величина ошибки совместно с t-критерием стьюдента исп для проверки существенности коэфф регрессии b, где его величина сравнивается с его ст ошибкой т.е опред tфактсравнивается с tтабл если больше табличного значения tкрит (n-m-1;α/2) – то коэффициент регрессии/параметр b является существенным и значимым
Значимость коэфф корр на основе величины ошибки
tr=tb=10.Интервалы прогноза по линейному уравнению регрессии
В прогнозных расчетах по ур регрессии опред упредск путем подстановки х в уравнение, но точечный прогноз явно нереален поэтому рассчитывается ст ошибка упредск и интервальн оценка прогнозного значения у *
Подставив знач а в уравн регрессии видим что ст ошибка утеор зависит от ошибки уср и ошибки b
Эта формула ст ошибки при заданном значении xp характ ошибку полож линии регрессии величина ош мин, когда хср=хр и возр по мере того как удаляется от хср
Для упрогн интервал :
11. Нелинейная регрессия и корреляция
Если между эк явл существуют нелин соотн, то они выраж с помощью соотв нелинейных ф-й. Различают два класса нелинейных регрессий:1. Регрессии, нелинейные относительно включенных в анализ
объясняющих переменных, но линейные по оцениваемым параметрам,
– полиномы различных степеней yx = a + bx + cx 2 ,
равносторонняя гипербола – y=a+b/x
полулогарифм ф-ии y=a+b*lnx
2. Регрессии, нелинейные по оцениваемым параметрам, например
– экспоненциальная – y = e a + bx .
Регрессии нелин по вкл переменным приводятся к лин виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью МНК. Парабола второй степени y = a + bx + cx 2 приводится к линейному виду с помощью замены:
x1 = x , x2 = x 2 . В результате приходим к двухфакторному уравнению
Равносторонняя гипербола y = a + b/x гипербола приводится к линейному уравнению простойзаменой: z = 1/x Аналог способом замены приводятся др функции Несколько иначе обстоит дело с регрессиями нелинейными пооцениваемым параметрам, которые делятся на два типа: нелинейные моделивнутренне линейные (приводятся к линейному и модели внутренне нелинейные (к линейному виду не приводятся).К внутренне линейным моделям относятся, например, Степенная Y(X)=A*X1 A 1 *X2 A 2 *…*XK AK Показательная Y(X)=e A 0+ A 1* X 1+ A 2* X 2+…+ Ak * Xk обратная
. Для оценки параметров функции линеаризируются путем логарифмирования и для МНК применяются уже преобразованные данные, после этого функция потенцируется. Для оценки тесноты связи нелинейной регрессии служит индекс корреляции: принимает значения от –1 до +1. Связи между признаками могут быть 0Оценка параметров уравнения регреcсии. Пример
Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.
Требуется:
1. Построить уравнения парной регрессии y от x :
- линейное;
- степенное;
- показательное;
- равносторонней гиперболы.
2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации. Сделать выводы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.
1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения
Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии
Коэффициент детерминации
R 2 = 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами – точность подбора уравнения регрессии – высокая
x | y | x 2 | y 2 | x ∙ y | y(x) | (y-y cp ) 2 | (y-y(x)) 2 | (x-x p ) 2 |
78 | 133 | 6084 | 17689 | 10374 | 142.16 | 115.98 | 83.83 | 1 |
82 | 148 | 6724 | 21904 | 12136 | 148.61 | 17.9 | 0.37 | 9 |
87 | 134 | 7569 | 17956 | 11658 | 156.68 | 95.44 | 514.26 | 64 |
79 | 154 | 6241 | 23716 | 12166 | 143.77 | 104.67 | 104.67 | |
89 | 162 | 7921 | 26244 | 14418 | 159.9 | 332.36 | 4.39 | 100 |
106 | 195 | 11236 | 38025 | 20670 | 187.33 | 2624.59 | 58.76 | 729 |
67 | 139 | 4489 | 19321 | 9313 | 124.41 | 22.75 | 212.95 | 144 |
88 | 158 | 7744 | 24964 | 13904 | 158.29 | 202.51 | 0.08 | 81 |
73 | 152 | 5329 | 23104 | 11096 | 134.09 | 67.75 | 320.84 | 36 |
87 | 162 | 7569 | 26244 | 14094 | 156.68 | 332.36 | 28.33 | 64 |
76 | 159 | 5776 | 25281 | 12084 | 138.93 | 231.98 | 402.86 | 9 |
115 | 173 | 13225 | 29929 | 19895 | 201.86 | 854.44 | 832.66 | 1296 |
16.3 | 20669.59 | 265.73 | 6241 | |||||
1027 | 1869 | 89907 | 294377 | 161808 | 1869 | 25672.31 | 2829.74 | 8774 |
Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
. . .
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически – значим.
Анализ точности определения оценок коэффициентов регрессии
S a = 0.1712
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается
Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a – t S a; a + t S a)
(1.306;1.921)
(b – t b S b; b + t bS b)
(-9.2733;41.876)
где t = 1.796
2) F-статистики
Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим
Оценка существенности параметров линейной регрессии
Компьютерные программы рассчитывают для каждого из коэффициентов уравнения регрессии стандартную ошибку и t-статистику
Коэффициент bj признается статистически значимым, если
где tтаб — табличное значение t-критерия Стьюдента в соответствии с принятым и .
Обычно рассчитывается и наблюдаемый уровень значимости («P-Значение») — вероятность того, что bj сформировался случайным образом. Коэффициент статистически значим, если его «P‑Значение» не превышает принятый уровень значимости . Эти две проверки равнозначны.
Если значимость коэффициента bj не установлена, то все выводы относительно него и соответствующего фактора Xj не вполне надежны. Если при этом , то фактор Xj следует исключить из модели как неинформативный, и построить новое уравнение уже без него.
Продолжение примера 3. С помощью EXCEL были получены t‑статистики и «P-Значения» коэффициентов регрессии:
Оценка параметров линейной регрессии
Линейная регрессия сводится к нахождению уравнения вида
(или ) | (3) |
Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x. На графике теоретические значения лежат на прямой, которая представляют собой линию регрессии.
Построение линейной регрессии сводится к оценке ее параметров- а и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).
МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений
от теоретических |
(4) |
Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.
Преобразуем, получаем систему нормальных уравнений:
В этой системе n- объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b, получаем:
Выражение (7) можно записать в другом виде:
где
Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.
Формально a– значение y при x=0. Если x не имеет или не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Интерпретировать можно лишь знак при параметре a. Если a> 0, то относительное изменение результата происходит медленнее, чем изменение фактора.
Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции
Выпуск продукции тыс.ед.( |
Затраты на производство, млн.руб.( |
|
|
|
|
31,1 | |||||
67,9 | |||||
141,6 | |||||
104,7 | |||||
178,4 | |||||
104,7 | |||||
141,6 | |||||
Итого: 22 | 770,0 |
Система нормальных уравнений будет иметь вид:
Решая её, получаем a= -5,79, b=36,84.
Уравнение регрессии имеет вид:
Подставив в уравнение значения х, найдем теоретические значения y (последняя колонка таблицы).
При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r:
|
(11) |
Его значения находятся в границах:
|
(12) |
Величина
В примере
Дата добавления: 2016-07-27 ; просмотров: 1301 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Позвольте представиться. Меня зовут Татьяна. Я уже более 8 лет занимаюсь психологией. Считая себя профессионалом, хочу научить всех посетителей сайта решать разнообразные задачи. Все данные для сайта собраны и тщательно переработаны для того чтобы донести как можно доступнее всю необходимую информацию. Перед применением описанного на сайте всегда необходима ОБЯЗАТЕЛЬНАЯ консультация с профессионалами.