Реферат: Регрессионный анализ. Парная регрессия

РЕФЕРАТ

Регрессионныйанализ. Парная регрессия.


I. Построениерегрессионных моделей

1. Смысл регрессионногоанализа – построение функциональных зависимостей между двумя группамипеременных величин Х1, Х2, … Хр и Y. При этомречь идет о влиянии переменных Х (это будут аргументы функций) на значенияпеременной Y (значение функции). Переменные Х мы будем называть факторами, а Y– откликом.

Сегодня мы разберем наиболеепростой случай – установление зависимости одного отклика y от одного фактора х.Такой случай называется парной (простой) регрессией.

2.Построение модели

Этап 1. Исходные данные:заранее известные (экспериментальные, наблюденные) значения фактора хi– экзогенная переменная и соответствующие им значения отклика yi, (i= 1,…,n) — эндогенная переменная;

Активный и пассивныйэксперимент.

Выборочные характеристики – позволяют краткоохарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:

а) среднееарифметическое:

/>

Среднее арифметическое –это «центр», вокруг которого колеблются значения случайной величины.

Пример: средняяпродолжительность жизни в России и США

б) дисперсия:

Отклонение от среднего: /> — характеризуетлишь «разброс» конкретной, отдельно взятой величины хi. Если мызахотим получить более полную информацию, нам придется выписать такиеотклонения для всех х, т. е., получить такой же ряд чисел, как и исходнаявыборка.

Можно попытатьсяусреднить все отклонения, но «среднее арифметическое отклонений от среднегоарифметического» имеет особенность:

/>

Эта величина обнуляется из-за того, что отрицательныезначения отклонений и положительные взаимно погашаются.

Чтобы избежать этого,возведем их в квадрат, получив так называемую выборочную дисперсию:

/>

Выборочная дисперсияхарактеризует разброс (вариацию) элементов выборки вокруг их среднегоарифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеютразные порядок: если элементы выборки измеряются в метрах, то дисперсия – вквадратных метрах.

Стандартное отклонение: />

Полезное свойстводисперсии:

/>

/>

Т. о. />

Характеристикигенеральной совокупности:

математическое ожиданиеМ(Х)

дисперсия D(X)

Несмещенная оценкадисперсии:

/>

Для простоты, мы будемиспользовать смещенную оценку – выборочную дисперсию – при достаточно больших nони практически равны.

Этап 2. Постановказадачи: предположим, что значение каждого отклика yi как бы состоитиз двух частей:

— во-первых, закономерныйрезультат того, что фактор х принял конкретное значение хi;

— во-вторых, некотораяслучайная компонента ei, котораяникак не зависит от значения хi.

Таким образом, для любого i = 1,…,n

yi = f(xi) + ei

Смысл случайной величины(ошибки) e:

а) внутренне присущаяотклику у изменчивость;

б) влияние прочих, неучитываемых в модели факторов;

в) ошибка в измерениях

Этап 3. Предположения охарактере регрессионной функции

Возможный вид функции f(xi)

— линейная: />

— полиномиальная />

— степенная: />

— экспоненциальная: />

— логистическая: />

Методы подбора видафункции:

— графический

— аналитический

Этап 4. Оценка параметровлинейной регрессионной модели

1. Имея два наборазначений: x1, x2, …, xn и y1, y2,…, yn, предполагаем, что между ними существует взаимосвязь вида:

yi = a + bxi + ei

т. н. функция регрессии

Истинные значенияпараметров функции регрессии мы не знаем, и узнать не можем.

Задача: построитьлинейную функцию:

ŷi = a + bxi

так, чтобы вычисленныезначения ŷi(xi) были максимально близки кэкспериментальным уi (иначе говоря, чтобы остатки (ŷi — yi) были минимальны).

Экономическаяинтерпретация коэффициентов:

a – «постояннаясоставляющая» отклика, независимая от фактора

b – степень влиянияфактора на отклик (случаи отрицательного)

2. Метод наименьшихквадратов (МНК):

/>

подставим в задачу формулу (2.2):

/>

/>

/> 

В данном случае у нас a иb – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмемчастные производные по a и b и приравняем их к нулю.

/>

/>

Получили систему из двухлинейных уравнений. Разделим оба на 2n:

 />

/>

Из первого уравнениявыразим неизвестную а:

/>

и подставим это выражениево второе уравнение:

 />

/>

/>

/>

/>

/>

Построив оценки a и bкоэффициентов a и b, мы можем рассчитать т. н.«предсказанные», или «смоделированные» значения ŷi = a + bxiи их вероятностные характеристики – среднее арифметическое и дисперсию.

Несложно заметить, чтооказалось/>.Так должно быть всегда:

/>

Кроме того, вычислим т.н. случайные остатки />и рассчитаем их вероятностныехарактеристики.

Оказалось, />. Это также закономерно:

/>

Таким образом, дисперсияслучайных остатков будет равна:

/>

Мы произвели вычисления,и построили регрессионное уравнение, позволяющее нам построить некую оценкупеременной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другиеданные, по другим областям (или за другой период времени), то исходные,экспериментальные значения х и у у нас были бы другими и, соответственно, а иb, скорее всего, получились бы иными.

Вопрос: насколько хорошиоценки, полученные МНК, иначе говоря, насколько они близки к «истинным»значениям a и b?

Этап 5. Исследованиерегрессионной модели

1. Теснота связи междуфактором и откликом

Мерой тесноты связислужит линейный коэффициент корреляции:

/>                      (2.13)

-1 £ rxy £ 1                              (2.14)

Отрицательное значение ККозначает, что увеличение фактора приводит к уменьшению отклика и наоборот:

/>

/>

2. Доля вариации откликау, объясненная полученным уравнением регрессии характеризуется коэффициентомдетерминации R2. Путем математических преобразований можно выразить:

/>

где – оценка дисперсиислучайных остатков в модели,

Таким образом, R2– это доля дисперсии у, объясненной с помощью регрессионного уравнения вдисперсии фактически наблюденного у.

Очевидно:

0 £ R2 £ 1

3. Проверкастатистической значимости уравнения регрессии

Мы получили МНК-оценкикоэффициентов уравнения регрессии и рассчитали коэффициент детерминации.Однако, осталось неясным, достаточно ли он велик, чтобы говорить осуществовании значимой связи между величинами х и у. Иначе говоря, достаточноли сильна эта связь, чтобы на основании построенной нами модели можно было быделать выводы?

Для ответа на этот вопросможно провести т. н. F-тест.

Формулируется гипотеза Н0:предположим, что yi ¹ a + bxi + ei

Обратить внимание:выписаны не а, а a,т. е., не оценки коэффициентов регрессии, а их истинные значения.

Альтернатива – гипотеза Н1:yi = a + bxi + ei

Мы не можем однозначноподтвердить или опровергнуть гипотезу Н0, мы можем лишь принять илиотвергнуть ее с определенной вероятностью.

Выберем некоторый уровеньзначимости g, такой что 0 £ g £ 1 – вероятность того, что мы сделаем неправильный вывод, приняв илиотклонив гипотезу Н0.

Соответственно, величинаР = 1 — g — доверительная вероятность –вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинностигипотезы Н0, с заданным уровнем значимости g, рассчитывается F-статистика:

Значение F-статистики вслучае парной регресии подчиняется т. н.

F-распределению Фишера с1 степенью свободы числителя и (n — 2) степенями свободы знаменателя.

Для проверки Н0величина F-статистики сравнивается с табличным значением Fg(1, n-2).

Если F > Fg(1, n-2) – гипотеза Н0отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что регрессияимеет место и:

yi = a + bxi + ei

В противном случаегипотеза Н0не отвергается, принимаем:

yi ¹ a + bxi+ ei

Вопрос: почему бы нам невзять g поменьше? Чем меньше g, тем больше соответствующеетабличное значение F-статистики, т. е., тем меньше шансов, что появятсяоснования отвергнуть гипотезу Н0.

Ошибки первого и второго рода

Ошибка первого рода:отвергается Н0, которая на самом деле верна.

Ошибка второго рода:принимается H0, которая на самом деле не верна.

Очевидно, чем меньше g, тем меньше наши шансы отвергнутьгипотезу Н0, т. е., совершить ошибку первого рода. Соответственно,шансы совершить ошибку второго рода увеличиваются.

4.Характеристика оценок коэффициентов уравнения регрессии

1) математическоеожидание

Теорема: М(а) = a, M(b) = b — несмещенность оценок

Это означает, что приувеличении количества наблюдений значения МНК-оценок a и b будут приближаться кистинным значениям a и b;

2) дисперсия

Теорема:

/>;   />

Благодаря этой теореме,мы можем получить представление о том, как далеко, в среднем, наши оценки a и bнаходятся от истинных значений a и b.

Необходимо иметь в виду,что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобыперейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

/>;      />

Будем называть этивеличины стандартными ошибками a и b соответственно.

5. Построениедоверительных интервалов

Пусть мы имеем оценку а.Реальное значение коэффициента уравнения регрессии a лежит где-то рядом, но где точно, мыузнать не можем. Однако, мы можем построить интервал, в который это реальноезначение попадет с некоторой вероятностью. Доказано, что:

/>

с вероятностью Р = 1 — g

где tg/2(n-1) — g/2-процентная точка распределенияСтьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровеньзначимостиgустанавливается произвольно.

Неравенство можнопреобразовать следующим образом:

/>

/>

/>,

или, что то же самое:

/>

Аналогично, свероятностью Р = 1 — g:

/>

откуда следует:

/>,

или:

/>

Уровень значимости g — это вероятность того, что на самомделе истинные значения a и b лежат за пределами построенныхдоверительных интервалов. Чем меньше его значение, тем больше величина tg/2(n-1), соответственно, тем шире будетдоверительный интервал.

6. Проверкастатистической значимости коэффициентов регрессии

Мы получили МНК-оценкикоэффициентов, рассчитали для них доверительные интервалы. Однако мы не можемсудить, не слишком ли широки эти интервалы, можно ли вообще говорить означимости коэффициентов регрессии.

Гипотеза Н0:предположим, что a=0,т. е. на самом деле независимой постоянной составляющей в отклике нет(альтернатива – гипотеза Н1: a ¹ 0).

Для проверки этойгипотезы, с заданным уровнем значимости g, рассчитывается t-статистика, для парной регрессии:

/>

Значение t-статистикисравнивается с табличным значением tg/2(n-1) — g/2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если |t| < tg/2(n-1) – гипотеза Н0не отвергается (обратить внимание: не «верна»,а «не отвергается»), т. е. мы считаем, что с вероятностью 1-g можно утверждать, что a = 0.

В противном случаегипотеза Н0отвергается, принимается гипотеза Н1.

Аналогично длякоэффициента b формулируем гипотезу Н0: b = 0, т. е. переменная, выбраннаянами в качестве фактора, на самом деле никакого влияния на отклик не оказывае.

Для проверки этойгипотезы, с заданным уровнем значимости g, рассчитывается t-статистика:

/>

и сравнивается стабличным значением tg/2(n-1).

Если |t| < tg/2(n-1) – гипотеза Н0не отвергается, т. е. мы считаем, что свероятностью 1-gможно утверждать, что b =0.

В противном случае гипотезаН0отвергается, принимается гипотеза Н1.

7. Автокорреляцияостатков.

1. Примерыавтокорреляции.

Возможные причины:

1) неверно выбранафункция регрессии;

2) имеется неучтеннаяобъясняющая переменная (переменные)

2. СтатистикаДарбина-Уотсона

/>

Очевидно:

0 £ DW £ 4

Если DW близко к нулю, это позволяет предполагатьналичие положительной автокорреляции, если близко к 4 – отрицательной.

Распределение DW зависит от наблюденных значений,поэтому получить однозначный критерий, при выполнении которого DW считается«хорошим», а при невыполнении — «плохим», нельзя. Однако, для различных величинn и g найдены верхние и нижние границы, DWL и DWU,которые в ряде случаев позволяют с уверенностью судить о наличии (отсутствии)автокорреляции в модели. Правило:

1) При DW < 2:

а) если DW < DWL – делаем вывод оналичии положительной автокорреляции (с вероятностью 1-g);

б) если DW > DWU – делаем вывод оботсутствии автокорреляции (с вероятностью 1-g);

в) если DWL £ DW £ DWU – нельзя сделать никакого вывода;

2) При DW > 2:

а) если (4 – DW) < DWL – делаем вывод оналичии отрицательной автокорреляции (с вероятностью 1-g);

б) если (4 – DW) > DWU – делаем вывод оботсутствии автокорреляции (с вероятностью 1-g);

в) если DWL £ (4 – DW)£ DWU – нельзя сделать никакого вывода;

8. Гетероскедастичностьостатков.

Возможные причины:

— ошибки в исходныхданных;

— наличие закономерностей;

Обнаружение – возможныразличные тесты. Наиболее простой:

(упрощенный тестГолдфелда – Куандта)

1) упорядочиваем выборкупо возрастанию одной из объясняющих переменных;

2) формулируем гипотезу Н0:остатки гомоскедастичны

3) делим выборку приблизительнона три части, выделяя k остатков, соответствующих «маленьким» х и k остатков,соответствующих «большим» х (k»n/3);

4) строим модели парнойлинейной регрессии отдельно для «меньшей» и «большей» частей

5) оцениваем дисперсииостатков в «меньшей» (s21) и «большей» (s21)частях;

6) рассчитываемдисперсионное соотношение:

/>

7) определяем табличноезначение F-статистики Фишера с (k–m–1) степенями свободы числителя и (k — m — 1) степенями свободы знаменателя при заданном уровне значимости g

8) если дисперсионноесоотношение не превышает табличное значение F-статистики (т. е., оноподчиняется F-распределению Фишера с (k–m–1) степенями свободы числителя и (k — m — 1) степенями свободы знаменателя), то гипотеза Н0не отвергается- делаем вывод о гомоскедастичности остатков. Иначе – предполагаем ихгетероскедатичность.

Метод устранения:взвешенный МНК.

Идея: если значения хоказывают какое-то воздействие на величину остатков, то можно ввести в модельнекие «весовые коэффициенты», чтобы свести это влияние к нулю.

Например, еслипредположить, что величина остатка eiпропорциональна значению xi (т. е., дисперсия остатковпропорциональна xi2), то можно перестроить модельследующим образом:

/>

т. е. перейдем к моделинаблюдений

/>

где

/>

Таким образом, задачаоценки параметров уравнения регрессии методом наименьших квадратов сводится кминимизации функции:

/>

или

/>

где /> — весовой коэффициент.

еще рефераты
Еще работы по экономико-математическому моделированию