Реферат: Мультиколлинеарность
Федеральное агентство по образованию и науке РФ
Костромской государственный технологическийуниверситет.
Кафедра высшей математики
Реферат
по эконометрике на тему:
Мультиколлинеарность
Выполнила
студент1 курса
заочногофакультета
сп-ть«Бухгалтерский учёт,
анализи аудит».
Проверила
КатержинаС.Ф.
Кострома 2008 г
Мультиколлинеарность
Под мультиколлинеарностьюпонимается высокая взаимная коррелированность объясняющих переменных.Мультиколлинеарность может проявляться в функциональной (явной) истохастической (скрытой) формах.
При функциональной формемультиколлинеарности по крайней мере одна из парных связей между объясняющимипеременными является линейной функциональной зависимостью. В этом случаематрица X`Xособенная, так как содержит линейно зависимые векторы-столбцы, и еёопределитель равен нулю, т.е. нарушается предпосылка регрессионного анализа,это приводит к невозможности решения соответствующей системы нормальныхуравнений и получения оценок параметров регрессионной модели.
Однако в экономическихисследованиях мультиколлинеарность чаще проявляется в стохастической форме,когда между хотя бы двумя объясняющими переменными существует теснаякорреляционная связь. Матрица X`Xв этом случае является неособенной, но её определитель очень мал.
В то же время вектор оценок bи его ковариционная матрица ∑b<sub/>пропорциональныобратной матрице (X`X)-1,а значит, их элементы обратно пропорциональны величине определителя |X`X|.В результате получаются значительные средние квадратические отклонения(стандартные ошибки) коэффициентов регрессии b0,b1,…,bpи оценка их значимости по t-критериюне имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.
Оценки становятся оченьчувствительными к незначительному изменению результатов наблюдений и объёмавыборки. Уравнения регрессии в этом случае, как правило, не имеют реальногосмысла, так как некоторые из его коэффициентов могут иметь неправильные с точкизрения экономической теории знаки и неоправданно большие значения.
Точных количественных критериев дляопределения наличия или отсутствия мультиколлинеарности не существует. Тем не менее,имеются некоторые эвристические подходы по её выявлению.
Один из таких подходов заключаетсяв анализе корреляционной матрицы между объясняющими переменными X1,X2,…,Xp<sub/>ивыявлении пар переменных, имеющих высокие переменные корреляции (обычно больше0,8). Если такие переменные существуют, говорят о мультиколлинеарности междуними. Полезно также находить множественные коэффициенты детерминации междуодной из объясняющих переменных и некоторой группой из них. Наличие высокогомножественного коэффициента детерминации (обычно больше 0,6) свидетельствует омультиколлинеарности.
Другой подход состоит висследовании матрицы X`X.Если определитель матрицы X`Xлибо её минимальное собственное значение λminблизки к нулю ( например одного порядка с накапливающимися ошибкамивычислений), то это говорит о наличии мультиколлинеарности. о том же можетсвидетельствовать и значительное отклонение максимального собственного значенияλmax матрицы X`Xот её минимального собственного значения λmin.
Для устранения или уменьшениямультиколлинеарности используется ряд методов. Самый простой из них (но далеконе всегда возможный) состоит в том, что из двух объясняющих переменных, имеющихвысокий коэффициент корреляции (больше 0,8), одну переменную исключают израссмотрения. При этом, какую переменную оставить, а какую удалить из анализа,решают в первую очередь на основании экономических соображений. Если сэкономической точки зрения ни одной из переменных нельзя отдать предпочтение,то оставляют ту из двух переменных, которая имеет больший коэффициенткорреляции с зависимой переменной.
Другой метод устранения илиуменьшения мультиколлинеарности заключается в переходе от несмещённых оценок,определённых по методу наименьших квадратов, к смещённым оценкам, обладающим,однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшимматематическим ожиданием квадрата отклонения оценки bjот параметра βjили M (bj<sub/>-βj)2.
/>
Оценки, определяемые вектором,обладают в соответствии с теоремой Гаусса-Маркова минимальными дисперсиями вклассе всех линейных несмещённых оценок, но при наличии мультиколлинеарности этидисперсии могут оказаться слишком большими, и обращение к соответствующимсмещённым оценкам может повысить точность оценивания параметров регрессии. Нарисунке показан случай, когда смещённая оценка βj^,выборочное распределение которой задаётся плотностью φ ( βj^).
Действительно, пусть максимальнодопустимый по величине доверительный интервал для оцениваемого параметра βj<sub/>есть(βj-Δ, βj+Δ).Тогда доверительная вероятность, или надёжность оценки, определяемая площадьюпод кривой распределения на интервале (βj-Δ,βj+Δ), какнетрудно видеть из рисунка, будет в данном случае больше для оценки βj<sub/>посравнению с bj( на рисунке эти площади заштрихованы). Соответственно средний квадратотклонения оценки от оцениваемого параметра будет меньше для смещённой оценки,т.е.:
M( βj^-βj<sub/>)2< M ( bj — βj<sub/>)2
При использовании «ридж-регрессии»(или «гребневой регрессии») вместо несмещённых оценок рассматривают смещённыеоценки, задаваемые вектором
βτ^=(X`X+τEp+1)-1X`Y,
где τ – некотороеположительное число, называемое «гребнем» или «хребтом»,
Ep+1– единичная матрица (р+1) –го порядка.
Добавление τ кдиагональным элементам матрицы X`Xделает оценки параметров модели смещёнными, но при этом увеличиваетсяопределитель матрицы системы нормальных уравнений – вместо (X`X)от будет равен
|X`X+τEp+1|
Таким образом, становится возможнымисключение мультиколлинеарности в случае, когда определитель |X`X|близок к нулю.
Для устранения мультиколлинеарностиможет быть использован переход от исходных объясняющих переменных X1,X2,…,Xn,связанных между собой достаточно тесной корреляционной зависимостью, к новымпеременным, представляющим линейные комбинации исходных. При этом новыепеременные должны быть слабо коррелированными либо вообще некоррелированными. Вкачестве таких переменных берут, например, так называемые главные компонентывектора исходных объясняющих переменных, изучаемые в компонентном анализе, ирассматривают регрессию на главных компонентах, в которой последние выступают вкачестве обобщённых объясняющих переменных, подлежащих в дальнейшем содержательной(экономической) интерпритации.
Ортогональность главных компонентпредотвращает проявление эффекта мультиколлинеарности. Кроме того, применяемыйметод позволяет ограничиться малым числом главных компонент при сранительнобольшом количестве исходных объясняющих переменных.
Мультиколлинеарность— этопонятие, которое используется для описания проблемы, когда нестрогая линейнаязависимость между объясняющими переменными приводит к получению ненадежныхоценок регрессии. Разумеется, такая зависимость совсем необязательно даетнеудовлетворительные оценки. Если все другие условия благоприятствуют, т. е.если число наблюдений и выборочные дисперсии объясняющих переменных велики, адисперсия случайного члена —мала, то в итоге можно получить вполне хорошие оценки.
Итак,мультиколлинеарность должна вызываться сочетанием нестрогой зависимости иодного (или более) неблагоприятного условия, и это — вопрос
степенивыраженности явления, а не его вида. Оценка любой регрессии будет страдать отнее в определенной степени, если только все независимые переменные не окажутсяабсолютно некоррелированными. Рассмотрение данной проблемы начинается толькотогда, когда это серьезно влияет на результаты оценки регрессии.
Этапроблема является обычной для регрессий временных рядов, т. е. когда данныесостоят из ряда наблюдений в течение какого-то периода времени. Если две илиболее независимые переменные имеют ярко выраженный временной тренд, то онибудут тесно коррелированы, и это может привести к мультиколлинеарности.
Чтоможно предпринять в этом случае?
Различныеметоды, которые могут быть использованы для смягчения мультиколлинеарности,делятся на две категории: к первой категории относятся попытки повысить степеньвыполнения четырех условий, обеспечивающих надежность оценок регрессии; ковторой категории относится использование внешней информации. Если сначалаиспользовать возможные непосредственно получаемые данные, то, очевидно, было быполезным увеличить число наблюдений.
Есливы применяете данные временных рядов, то это можно сделать путем сокращенияпродолжительности каждого периода времени. Например, при оценивании уравненийфункции спроса в упражнениях 5.3 и 5.6 можно перейти с использования ежегодныхданных на поквартальные данные.
Послеэтого вместо 25 наблюдений их станет 100. Это настолько очевидно и так простосделать, что большинство исследователей, использующих временные ряды, почтиавтоматически применяют поквартальные данные, если они имеются, вместоежегодных данных, даже если проблема мультиколлинеарности не стоит, просто длясведения к минимуму теоретических дисперсий коэффициентов регрессии. В такомподходе существуют, однако, и потенциальные проблемы. Можно привнести илиусилить автокорреляцию, но она может быть нейтрализована. Кроме того, можнопривнести (или усилить) смещение, вызванное ошибками измерения, если поквартальныеданные измерены с меньшей точностью, чем соответствующие ежегодные данные. Этупроблему не так просто решить, но она может оказаться несущественной.
Есливы используете данные перекрестной выборки и находитесь на стадии планированияисследования, то можно увеличить точность оценок регрессии и ослабить проблемумультиколлинеарности просто за счет большего расхода средств на увеличениеразмера выборки. Однако такой подход имеет уменьшающуюся предельную отдачу,поскольку стандартные отклонения коэффициентов регрессии обратнопропорциональны величине 7л > в то время как расходы прямо пропорциональны п.
Стольже важно, если вы используете данные перекрестной выборки и находитесь настадии планирования исследования, максимизировать дисперсию наблюденийнезависимых переменных в выборке, например путем расслоения выборки.
Далее,можно сократить величину а^. Случайный член включает в себя объединенный эффектвсех переменных, оказывающих влияние на величину уу которые не включеныявно в уравнение регрессии. Если вы допускаете мысль о том, что важнаяпеременная могла быть опущена и, следовательно, оказывает влияние на и, томожно сократить величину а^, если добавить эту переменную в уравнение регрессии.
Если,однако, новая переменная линейно связана с одной или несколькими переменными,уже включенными в уравнение, то ее введение может еще больше усугубить проблемумультиколлинеарности. Мы вернемся к обсуждению этого вопроса, которыйпредставляет большую практическую важность, в конце следующей главы послерассмотрения ошибок спецификации.
Наконец,об использовании самого простого метода. Если вы действительно имеетевозможность собрать дополнительные данные, то нужно постараться получитьвыборку, в которой независимые переменные слабо связаны между собой.
Существуютдва типа внешней информации, которая может оказаться полезной: теоретическиеограничения и внешние эмпирические оценки. Теоретическое ограничениепредставляет собой допущение, касающееся величины коэффициента или некоторойсвязи между коэффициентами. Поясним это на примере.
Припостроении производственной функции с использованием данных временных рядов(как это было сделано в разделе 5.3) следует иметь в виду, что на выпускпродукции, наряду с изменениями в капитальных и трудовых затратах, вероятно,будет оказывать влияние технический прогресс. Если вы имеете дело сагрегированными данными, то невозможно количественно оценить технический прогресс,и проще всего включить экспоненциальный временной тренд в уравнение, записавфункцию Кобба—Дугласа, например, в виде:
Г=AK«Lte«v, (5.47)
гдеY, К и L имеют те же определения, что и в разделе 5.3; / — время;г — темп
прироставыпуска благодаря техническому прогрессу. Оценив это соотношение по даннымтабл. 5.1, получим (стандартные ошибки указаны в скобках):
logУ=2,81 — 0,53 log K+ 0,91 log L + 0,047/; R2 = 0,97; (5.48)
(1,38)(0,34) (0,14) (0,021) F= 189,8.
Совсей очевидностью этот результат показывает, что эластичность выпуска продукциипо затратам капитала отрицательна, что означает снижение выпуска при увеличениизатрат капитала. Уравнение также показывает темп прироста выпуска продукции засчет технического прогресса порядка 4,7% в год, что является неправдоподобновысокой оценкой для рассматриваемого периода.
Здесьможно предположить, что по крайней мере отчасти проблема связана смультиколлинеарностью, так как коэффициент корреляции между log К и t составляет0,997, а стандартная ошибка коэффициента при log Къ 5 раз больше, чем вуравнении без величины / (5.32).
Отсюдапоявляется желание ввести ограничения на эффект от масштаба, рассматривая егокак постоянную величину, что позволит переписать уравнение только с двумянезависимыми переменными, имеющими временной тренд, вместо трех и с капиталовооруженностьютруда в качестве объясняющей переменной вместо затрат капитала. Этот показательпо-прежнему тесно коррелирован с временем (коэффициент корреляции составляет0,96), но степень коррелированности уже не так предельно высока. Оценивуравнение (5.28) с экспоненциальным временным трендом, мы получим (стандартныеошибки указаны в скобках):
logY/L = -0,11 + 0,11 log K/L + 0,006f; R2 = 0,65; (5.49)
(0,03)(0,15) (0,006) F=19,5.
Оценкивеличин а и г, хотя и незначимо отличаются от нуля, теперь более реалистичны,чем раньше, а стандартные ошибки — намного меньше, чем в уравнении (5.48). Тотфакт, что величина г незначимо отличается от нуля, подтверждает вывод Ч. Коббаи П. Дугласа о том, что темп увеличения общей производительности факторов врассматриваемый период был очень низким. Очевидно, что обоснованность этойпроцедуры зависит от правильности введенного ограничения, поэтому сначала нужностатистически проверить ограничение, что рассматривается в следующей главе.
Наконец,можно использовать внешние оценки. Предположим, что вы решили воспользоватьсяуравнением (5.24) в качестве формулы для функции спроса, но имеется проблемамультиколлинеарности, так как располагаемый личный доход и цена имеют ярковыраженные временные тренды, а следовательно, тесно коррелированы. Предположим,однако, что вы также имеете перекрестные статистические данные для у их, полученные из другой выборки. Если допустить, что все домохозяйства впроводимом анализе платили за данный товар одинаковую цену, то модель примет вид:
log/=loga'+ p*logx' + w'. (5.50)
Получивоценку Ь\ для р\ при оценивании регрессионной зависимости у от х\вы можете подставить ее в уравнение (5.24). Теперь определяется новая переменнаяlogy, равная (log у — 6',log х), описывающая спрос, скорректированный наизменения дохода. После этого уравнение (5.25) принимает вид:
logy= log a+ p2 log/J +w. (5.51)
Рассчитавlogy для каждого наблюдения, вы оцениваете его регрессионную зависимость от logp, и, так как здесь имеется только одна независимая переменная, мультиколлинеарностьавтоматически исключается.
Прииспользовании этого метода могут возникнуть две проблемы, которые необходимоучитывать. Во-первых, оценка величины Р2 зависит от точности оценки величиныР'р которая, безусловно, подвержена влиянию ошибки выборки.
Во-вторых,вы допускаете, что коэффициент при доходе имеет одинаковый смысл для случаеввременных рядов и перекрестных выборок, что, конечно, может быть и не так. Длябольшинства товаров краткосрочная и долгосрочная эластичность спроса по доходуможет значительно различаться. Одна из причин этого состоит в том, что характеррасходов подвержен влиянию инерции, которое в краткосрочном периоде можетпревзойти эффекты дохода.
Другаяпричина заключается в том, что изменение уровня дохода может оказать на расходыкак непосредственное (в виде изменения бюджетного ограничения), так и косвенноевлияние (за счет изменения образа жизни), причем косвенное влияние происходитнамного медленнее, чем прямое. В качестве первого приближения обычно считается,что регрессии для временных рядов, особенно с небольшими периодами выборки,дают показатели краткосрочной эластичности, в то времякак регрессии с использованием данных перекрестных выборок дают показателидолгосрочной эластичности.
Списокиспользуемой литературы:
1. Н.Ш. Кремер, Б.А. Путко «Эконометрика», Москва,2005
2. К. Доугерти «Введение в эконометрику», Москва,1999