Реферат: Нелинейные регрессии
Рег. № _________________
"___"_______________2008г.
МОСКОВСКИЙ НОВЫЙ ЮРИДИЧЕСКИЙ ИНСТИТУТ
Факультет: Финансово-экономический
Реферат
По дисциплине: " Эконометрика "
_____________________________________________________________
На тему: _____" Нелинейные регрессии "
Студента
Кулешовой Юлии Вячеславовны
Группа_____М07ФЗВС-2/04 сп____
Курc _____второй______
Форма обучения__ _заочная______
Преподаватель_______________
Дата сдачи___________________
Результат проверки_____________
Работа защищена с оценкой
2008/2009 уч. год
Содержание
Введение. 3
1. Линейная регрессия. 5
2. Полиномиальная регрессия. 6
3. Нелинейная регрессия. 8
4. Сглаживание данных. 12
5. Предсказание зависимостей. 14
Литература. 15
Введение
Аппроксимация данных с учетом ихстатистических параметров относится к задачам регрессии. Они обычно возникаютпри обработке экспериментальных данных, полученных в результате измеренийпроцессов или физических явлений, статистических по своей природе (как,например, измерения в радиометрии и ядерной геофизике), или на высоком уровнепомех (шумов). Задачей регрессионного анализа является подбор математическихформул, наилучшим образом описывающих экспериментальные данные.
Математическая постановка задачирегрессии заключается в следующем. Зависимость величины (числового значения) определенногосвойства случайного процесса или физического явления Y от другого переменногосвойства или параметра Х, которое в общем случае также может относиться кслучайной величине, зарегистрирована на множестве точек xk множеством значенийyk, при этом в каждой точке зарегистрированные значения yk и xk отображаютдействительные значения Y(хk) со случайной погрешностью k,распределенной, как правило, по нормальному закону. По совокупности значений ykтребуется подобрать такую функцию f(xk, a0, a1, …, an), которой зависимость Y(x)отображалась бы с минимальной погрешностью. Отсюда следует условие приближения:
yk = f(xk, a0, a1, …, an) + k.
Функцию f(xk, a0, a1, …, an) называютрегрессией величины y на величину х. Регрессионный анализ предусматриваетзадание вида функции f(xk, a0, a1, …, an) и определение численных значений еепараметров a0, a1, …, an, обеспечивающих наименьшую погрешность приближения кмножеству значений yk. Как правило, при регрессионном анализе погрешностьприближения вычисляется методом наименьших квадратов (МНК). Для этоговыполняется минимизация функции квадратов остаточных ошибок:
a0, a1, …, an) =/>[f(xk, a0, a1,…, an) — yk] 2.
Для определения параметров a0,a1, …, an функция остаточных ошибок дифференцируется по всем параметрам,полученные уравнения частных производных приравниваются нулю и решаются всовокупности относительно всех значений параметров. Виды регрессии обычноназываются по типу аппроксимирующих функций: полиномиальная, экспоненциальная,логарифмическая и т.п.
1. Линейная регрессия
Общий принцип. Простейший способаппроксимации по МНК произвольных данных sk — с помощью полинома первойстепени, т.е. функции вида y(t) = a+bt. С учетом дискретности данных по точкамtk, для функции остаточных ошибок имеем:
(a,b) = /> [(a+b·tk) — sk] 2.
Дифференцируем функциюостаточных ошибок по аргументам a, b, приравниваем полученные уравнения нулю иформируем 2 нормальных уравнения системы:
/>(a+b·tk) — sk º a/>1 + b/>tk –/>sk = 0,
/>((a+b·tk) — sk) ·tk º a/>tk + b/>tk2 – />sk·tk = 0,
Решение данной системы уравненийв явной форме для К-отсчетов:
b = [K/>tk·sk –/>tk/>sk] / [K/>tk2 – (/>tk)2],
a = [/>sk – b/>tk] /K.
Полученные значениякоэффициентов используем в уравнении регрессии y(t) = a+bt. По аналогичнойметодике вычисляются коэффициенты и любых других видов регрессии, отличаясьтолько громоздкостью соответствующих выражений.
Реализация в Mathcad. Линейнаярегрессия в системе Mathcad выполняется по векторам аргумента Х и отсчетов Yфункциями:
intercept(X,Y) – вычисляетпараметр а, смещение линии регрессии по вертикали;
slope(X,Y) – вычисляет параметрb, угловой коэффициент линии регрессии.
Расположение отсчетов поаргументу Х произвольное. Функцией corr(X,Y) дополнительно можно вычислитькоэффициент корреляции Пирсона. Чем он ближе к 1, тем точнее обрабатываемыеданные соответствуют линейной зависимости.
Пример выполнения линейнойрегрессии приведен на рис.2.1.1
/>
Рис.2.1.1
2. Полиномиальная регрессияОдномерная полиномиальнаярегрессия с произвольной степенью n полинома и с произвольными координатамиотсчетов в Mathcad выполняется функциями:
regress(X,Y,n) – вычисляетвектор S для функции interp(…), в составе которого находятся коэффициенты kiполинома n-й степени;
interp(S,X,Y,x) – возвращаетзначения функции аппроксимации по координатам х.
Функция interp(…) реализуетвычисления по формуле:
f(x) = k0 + k1·x1 + k2·x2 +… + kn·xn ≡/>ki·xi.
Значения коэффициентов ki могутбыть извлечены из вектора S функцией submatrix(S, 3, length(S), 0, 0).
На рис.2.2.1 приведен примерполиномиальной регрессии с использованием полиномов 2, 3 и 8-й степени. Степеньполинома обычно устанавливают не более 4-6 с последовательным повышениемстепени, контролируя среднеквадратическое отклонение функции аппроксимации отфактических данных. Нетрудно заметить, что по мере повышения степени полиномафункция аппроксимации приближается к фактическим данным, а при степениполинома, равной количеству отсчетов данных минус 1, вообще превращается вфункцию интерполяции данных, что не соответствует задачам регрессии.
/>
Рис.2.2.1 Одномернаяполиномиальная регрессия.
Зональная регрессия. Функцияregress по всей совокупности точек создает один аппроксимирующий полином. При большихкоординатных интервалах с большим количеством отсчетов и достаточно сложнойдинамике изменения данных рекомендуется применять последовательную локальнуюрегрессию отрезками полиномов малых степеней. В Mathcad это выполняетсяотрезками полиномов второй степени функцией loess(X, Y, span), котораяформирует специальный вектор S для функции interp(S,X,Y,x). Аргумент span >0 в этой функции (порядка 0.1-2) определяет размер локальной области иподбирается с учетом характера данных и необходимой степени их сглаживания (чембольше span, тем больше степень сглаживания данных).
/>
Рис.2.2.2
На рис.2.2.2 приведен примервычисления регрессии модельной кривой (отрезка синусоиды) в сумме с шумами. Вычислениявыполнены для двух значений span с определением среднеквадратическогоприближения к базовой кривой. При моделировании каких-либо случайных процессови сигналов на высоком уровне шумов по минимуму среднеквадратическогоприближения может определяться оптимальное значение параметра span.
3. Нелинейная регрессияЛинейное суммированиепроизвольных функций. В Mathcad имеется возможность выполнения регрессии сприближением к функции общего вида в виде весовой суммы функций fn(x):
f(x, Kn) = K1·f1(x)+ K2·f2(x) + … + KN·fN(x),
при этом сами функции fn(x) могутбыть любого, в том числе нелинейного типа. С одной стороны, это резко повышаетвозможности аналитического отображения функций регрессии. Но, с другой стороны,это требует от пользователя определенных навыков аппроксимацииэкспериментальных данных комбинациями достаточно простых функций.
Реализуется обобщенная регрессияпо векторам X, Y и f функцией linfit(X,Y,f), которая вычисляет значениякоэффициентов Kn. Вектор f должен содержать символьную запись функций fn(x). Координатыxk в векторе Х могут быть любыми, но расположенными в порядке возрастаниязначений х (с соответствующими отсчетами значений yk в векторе Y). Примервыполнения регрессии приведен на рис.2.3.1 Числовые параметры функций f1-f3подбирались по минимуму среднеквадратического отклонения.
/>
Рис.2.3.1 Обобщенная регрессия.
Регрессия общего типа. Второйвид нелинейной регрессии реализуется путем подбора параметров ki к заданнойфункции аппроксимации с использованием функции genfit(X,Y,S,F), которая возвращает коэффициенты ki, обеспечивающиеминимальную среднеквадратическую погрешность приближения функции регрессии квходным данным (векторы Х и Y координат и отсчетов). Символьное выражениефункции регрессии и символьные выражения ее производных по параметрам kiзаписываются в вектор F. Вектор S содержит начальные значения коэффициентов kiдля решения системы нелинейных уравнений итерационным методом. Примериспользования метода приведен на рис.2.3.2.
/>
Рис.2.3.2
Типовые функции регрессииMathcad. Для простых типовых формул аппроксимации предусмотрен ряд функцийрегрессии, в которых параметры функций подбираются программой Mathcadсамостоятельно. К ним относятся следующие функции:
èèè/>
expfit(X,Y,S) – возвращаетвектор, содержащий коэффициенты a, b и c экспоненциальной функции y(x) =a·exp(b·x) +c. В вектор S вводятся начальные значения коэффициентов a, b и cпервого приближения. Для ориентировки по форме аппроксимационных функций изадания соответствующих начальных значений коэффициентов на рисунках слеваприводится вид функций при постоянных значениях коэффициентов a и c.
/>
èèè
/>
lgsfit(X,Y,S) – то же, для выражения y(x) = a/(1+c·exp(b·x)).
/>
èèè pwrfit(X,Y,S)– то же, для выражения y(x) = a·xb+c.
§§è sinfit(X,Y,S) – то же, длявыражения y(x) = a·sin(x+b) +c. Подбирает коэффициенты для синусоидальнойфункции регрессии. Рисунок синусоиды общеизвестен.
èèèlogfit(X,Y) – то же, для выражения y(x) =a·ln(x+b) +c. Задания начальногоприближения не требуется.
§§è medfit(X,Y) – то же, длявыражения y(x) = a+b·x, т.е. для функции линейной регрессии. Задания начальногоприближения также не требуется. График – прямая линия.
На рис.2.3.3 приведен примерреализации синусоидальной регрессии модельного массива данных по базовойсинусоиде в сопоставлении с зональной регрессией полиномом второй степени. Какможно видеть из сопоставления методов по среднеквадратическим приближения кбазовой кривой и к исходным данным, известность функции математическогоожидания для статистических данных с ее использованием в качестве базовой дляфункции регрессии дает возможность с более высокой точностью определятьпараметры регрессии в целом по всей совокупности данных, хотя при этом криваярегрессии не отражает локальных особенностей фактических отсчетов даннойреализации. Это имеет место и для всех других методов с заданием функцийрегрессии.
/>
Рис.2.3.3
4. Сглаживание данныхСглаживание данных, какискаженных помехами, так и статистических по своей природе, также можно считатьчастным случаем регрессии без определения символьной формы ее функции, а потомуможет выполняться более простыми методами. В Mathcad для сглаживанияприменяются следующие функции:
supsmooth(X,Y) – возвращаетвектор сглаженных данных Y с использованием линейного сглаживания методомнаименьших квадратов по k-ближайших отсчетов с адаптивным выбором значения k сучетом динамики изменения данных. Значения вектора Х должны идти в порядкевозрастания.
ksmooth(X,Y,b) – вычисляетвектор сглаженных данных на основе распределения Гаусса. Параметр b задаетширину окна сглаживания и должен быть в несколько раз больше интервала междуотсчетами по оси х.
medsmooth(Y,b) — вычисляетвектор сглаженных данных по методу скользящей медианы с шириной окна b, котороедолжно быть нечетным числом.
Сопоставление методовсглаживания приведено на рис.2.4.1 Как можно видеть на этом рисунке, качествосглаживания функциями supsmooth(X,Y) и ksmooth(X,Y,b) практически идентично(при соответствующем выборе параметра b). Медианный способ уступает по своимвозможностям двум другим. Можно заметить также, что на концевых точкахинтервала задания данных качество сглаживания ухудшается, особенно в медианномспособе, который вообще не может выполнять свои функции на концевых интервалахдлиной b/2.
/>
Рис.2.4.1
5. Предсказание зависимостей
Функция Mathcad
predict(Y,n,K), где n – степень полинома аппроксимации вектора равномернораспределенных данных Y, позволяет вычислить вектор Кточек предсказания (экстраполяции) поведения произвольного сигнала за пределамиего задания (по возрастанию координат х). Предсказание тем точнее, чем болеегладкую форму имеет заданный сигнал. Пример использования функции приведен на рис.2.51 для гладкой и статистически зашумленной сигнальной кривой. Степеньаппроксимирующего полинома определяет глубину использования входных данных иможет быть достаточно небольшой для гладких и монотонных сигналов. Ошибкапрогнозирования увеличивается по мере удаления от заданных данных.
/>
Рис.2.5 1.
Литература
1. Дьяконов В.П.Вейвлеты. От теории к практике. – М.: СОЛОН-Р, 2002. – 448 с.
2. Корн Г., КорнЕ. Справочник по математике для научных работников и инженеров. – М.: Наука,1984.
3. ЭконометрикаПод ред.И. И. Елисеевой 2002г.
4.А. А. Цыплаков,«Некоторые эконометрические методы. Метод максимального правдоподобия вэконометрии», ЭФ НГУ, 1997.
5. Суслов В.И., ИбрагимовН.М., Талышева Л.П., Цыплаков А. А.
Эконометрия. — Новосибирск:Издательство СО РАН, 2005. — 744с.
6.В.П. Носко«Эконометрика» (Введение в регрессионный анализ временных рядов) Москва2002
7. Лекции«Анализ временных рядов» Г.Г. Канторовича (Высшая школа экономики,ГУ-ВШЭ) Опубликовано в «Экономическом журнале ВШЭ» Том.6 (2002),№1,2,3,4 и Том.7 (2003), №1