Немного о компьютере

Определение мультиколлинеарности. Определение наличия мультиколлинеарности. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

Федеральное агентство по образованию и науке РФ

Костромской государственный технологический университет.

Кафедра высшей математики

по эконометрике на тему:

Мультиколлинеарность

Выполнила

студент 1 курса

заочного факультета

сп-ть «Бухгалтерский учёт,

анализ и аудит».

Проверила

Катержина С.Ф.

Кострома 2008 г


Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X`X особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица X`X в этом случае является неособенной, но её определитель очень мал.

В то же время вектор оценок b и его ковариционная матрица ∑ b пропорциональны обратной матрице (X`X) -1 , а значит, их элементы обратно пропорциональны величине определителя |X`X|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b 0 , b 1 ,…,b p и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.

Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объёма выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.

Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее, имеются некоторые эвристические подходы по её выявлению.

Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными X 1 ,X 2 ,…,X p и выявлении пар переменных, имеющих высокие переменные корреляции (обычно больше 0,8). Если такие переменные существуют, говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) свидетельствует о мультиколлинеарности.

Другой подход состоит в исследовании матрицы X`X. Если определитель матрицы X`X либо её минимальное собственное значение λ min близки к нулю (например одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. о том же может свидетельствовать и значительное отклонение максимального собственного значения λ max матрицы X`X от её минимального собственного значения λ min .

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них (но далеко не всегда возможный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещённых оценок, определённых по методу наименьших квадратов, к смещённым оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшим математическим ожиданием квадрата отклонения оценки b j от параметра β j или M (b j - β j) 2 .

Оценки, определяемые вектором, обладают в соответствии с теоремой Гаусса-Маркова минимальными дисперсиями в классе всех линейных несмещённых оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещённым оценкам может повысить точность оценивания параметров регрессии. На рисунке показан случай, когда смещённая оценка β j ^ , выборочное распределение которой задаётся плотностью φ (β j ^).

Действительно, пусть максимально допустимый по величине доверительный интервал для оцениваемого параметра β j есть (β j -Δ, β j +Δ). Тогда доверительная вероятность, или надёжность оценки, определяемая площадью под кривой распределения на интервале (β j -Δ, β j +Δ), как нетрудно видеть из рисунка, будет в данном случае больше для оценки β j по сравнению с b j (на рисунке эти площади заштрихованы). Соответственно средний квадрат отклонения оценки от оцениваемого параметра будет меньше для смещённой оценки, т.е.:

M (β j ^ - β j) 2 < M (b j - β j) 2

При использовании «ридж-регрессии» (или «гребневой регрессии») вместо несмещённых оценок рассматривают смещённые оценки, задаваемые вектором

β τ ^ =(X`X+τ E p +1) -1 X`Y,

где τ – некоторое положительное число, называемое «гребнем» или «хребтом»,

E p +1 – единичная матрица (р+1) –го порядка.

Добавление τ к диагональным элементам матрицы X`X делает оценки параметров модели смещёнными, но при этом увеличивается определитель матрицы системы нормальных уравнений – вместо (X`X) от будет равен

|X`X+τ E p +1 |

Таким образом, становится возможным исключение мультиколлинеарности в случае, когда определитель |X`X| близок к нулю.

Для устранения мультиколлинеарности может быть использован переход от исходных объясняющих переменных X 1 ,X 2 ,…,X n , связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабо коррелированными либо вообще некоррелированными. В качестве таких переменных берут, например, так называемые главные компоненты вектора исходных объясняющих переменных, изучаемые в компонентном анализе, и рассматривают регрессию на главных компонентах, в которой последние выступают в качестве обобщённых объясняющих переменных, подлежащих в дальнейшем содержательной (экономической) интерпритации.

Ортогональность главных компонент предотвращает проявление эффекта мультиколлинеарности. Кроме того, применяемый метод позволяет ограничиться малым числом главных компонент при сранительно большом количестве исходных объясняющих переменных.

Мультиколлинеарность - это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена -мала, то в итоге можно получить вполне хорошие оценки.

Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это - вопрос

степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.

Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.


Что можно предпринять в этом случае?

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, делятся на две категории: к первой категории относятся попытки повысить степень выполнения четырех условий, обеспечивающих надежность оценок регрессии; ко второй категории относится использование внешней информации. Если сначала использовать возможные непосредственно получаемые данные, то, очевидно, было бы полезным увеличить число наблюдений.

Если вы применяете данные временных рядов, то это можно сделать путем сокращения продолжительности каждого периода времени. Например, при оценивании уравнений функции спроса в упражнениях 5.3 и 5.6 можно перейти с использования ежегодных данных на поквартальные данные.

После этого вместо 25 наблюдений их станет 100. Это настолько очевидно и так просто сделать, что большинство исследователей, использующих временные ряды, почти автоматически применяют поквартальные данные, если они имеются, вместо ежегодных данных, даже если проблема мультиколлинеарности не стоит, просто для сведения к минимуму теоретических дисперсий коэффициентов регрессии. В таком подходе существуют, однако, и потенциальные проблемы. Можно привнести или усилить автокорреляцию, но она может быть нейтрализована. Кроме того, можно привнести (или усилить) смещение, вызванное ошибками измерения, если поквартальные данные измерены с меньшей точностью, чем соответствующие ежегодные данные. Эту проблему не так просто решить, но она может оказаться несущественной.

Под полной мультиколлинеарностью понимается существование между некоторыми из факторов линейной функциональной связи. Количественным выражением этого служит то обстоятельство, ранг матрицы Х меньше, чем (р +1), а матрица (Х’Х ) будет вырожденной, т.е. её определитель равен нулю, а обратной матрицы к ней не существует. В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, т.к. её несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных.

Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия или отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности.

В первую очередь анализируют матрицу парных коэффициентов корреляции:

точнее, ту её часть, которая относится к объясняющим переменным. Считается, что две переменные явно коллинеарны, если . В этом случае факторы дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдаётся фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

Очевидно, что факторы х 1 и х 2 дублируют друг друга (). Однако в модель следует включить фактор х 2 , а не х 1 , поскольку корреляция фактора х 2 с у достаточно высокая (), а с фактором х 3 слабая ().

Другим методом оценки мультиколлинеарности факторов может служить определитель матрицы парных коэффициентов корреляции между факторами (37). Обоснованием данного подхода служат такие рассуждения. Если бы факторы не коррелировали между собой, то в определителе (37) все внедиагональные элементы равнялись бы нулю, а на диагонали стояли бы единицы. Такой определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты межфакторной корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель (37), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице величина (37), тем меньше мультиколлинеарность факторов.

Для оценки значимости мультиколлинеарности факторов выдвигается гипотеза Н 0:Δr 11 =1. Доказано, что величина имеет приближенное распределение χ 2 с степенями свободы. Если , то гипотеза Н 0 отклоняется, мультиколлинеарность считается доказанной.

Другим методом выявления мультиколлинеарности является анализ коэффициентов множественной детерминации факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Например, коэффициент рассчитывается по следующей регрессии:

где первый фактор взят в качестве результативного признака, а остальные факторы – как независимые переменные, влияющие на первый фактор. Чем ближе такой R 2 к единице, тем сильнее проявляется мультиколлинеарность факторов. Оставляя в уравнении регрессии факторы с минимальной R 2 , можно решить проблему отбора факторов.

При этом рассчитывается статистика:

(39)

Если коэффициент статистически значим, то . В этом случае x j является линейной комбинацией других факторов, и его можно исключить из регрессии.

Основные последствия мультиколлинеарности:

1. Большие дисперсии оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующего фактора на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии.

Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага).

Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода.

В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов.

В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

Например, пусть эмпирическое уравнение регрессии имеет вид:

где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин:

Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать.

Частная корреляция

С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой-либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

Коэффициенты частной корреляции определяются различными способами. Рассмотрим некоторые из них.

Для простоты предположим, что имеется двухфакторная регрессионная модель:

и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х 1 после исключения влияния х 2 определяется по следующему алгоритму:

1. Осуществим регрессию у на х 2 .

2. Осуществим регрессию х 1 на х 2 и константу и получим прогнозные значения .

3. Удалим влияние х 2 , взяв остатки и .

4. Определим выборочный коэффициент частной корреляции между у и х 1 при исключении х 2 как выборочный коэффициент корреляции между e y и e 1 :

(42)

Значения частных коэффициентов корреляции лежат в интервале [-1,1], как у обычных коэффициентов корреляции. Равенство нулю означает отсутствие линейного влияния переменной х 1 на у .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

(43)

где - обычный коэффициент корреляции.

Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х 2 заменить на набор переменных Х 2 , сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у , определяя частную корреляцию между факторами).

Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х 0 , запишем определитель матрицы парных коэффициентов корреляции в виде:

(44)

Тогда частный коэффициент корреляции определяется по формуле:

, (45)

где R ii - алгебраическое дополнение для элемента r ii в определителе (44).

Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле:

(46)

Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу:

(47)

При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции, с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k , а не n .

Пример . По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х 1 – среднемесячное количество профилактических наладок автоматической линии; х 2 – среднемесячное количество обрывов нити.

По исходным данным были подсчитаны выборочные парные коэффициенты корреляции:

Проверка статистической значимости этих величин показала отсутствие значимой статистической связи между результативным признаком и каждым из факторов, что не согласуется с профессиональными представлениями технолога. Однако расчет частных коэффициентов корреляции дал значения:

которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями.

Для оценки значимости фактора, дополнительно вводимого в модель, используется частный F- критерий . Не каждый фактор, вошедший в модель, существенно увеличивает долю объясненной дисперсии в общей дисперсии результата. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Для частного F – критерия используется формула:

, (50)

которая является частным случаем формулы (32). Здесь в числителе – разность между коэффициентом детерминации модели с полным набором факторов и коэффициентом детерминации модели до введения в неё фактора x j .

С помощью частного F – критерия можно проверить значимость всех коэффициентов регрессии в предположении, что соответствующий фактор x j вводился в уравнение регрессии последним. Процедура проверки не отличается от таковой для статистики (32).

Зная величину , можно определить и t – критерий для коэффициента регрессии при x j :

Существует взаимосвязь между квадратом частного коэффициента корреляции и частным F – критерием:

Частный F – критерий широко используется при построении модели методом включения переменных.

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).

На практике при количественной оценке параметров эконометрической модели довольно часто сталкиваются с проблемой взаимосвязи между объясняющими переменными. Если взаимосвязь довольно тесная, то оценка параметров модели может иметь большую погрешность. Такая взаимосвязь между объясняющими переменными называется мультиколлинеарностью . Проблема мультиколлинеарности возникает только для случая множественной регрессии, поскольку в парной регрессии одна объясняющая переменная. Оценка коэффициента регрессии может оказаться незначимой не только из-за несущественности данного фактора, но и из-за трудностей, возникающих при разграничении воздействия на зависимую переменную двух или нескольких факторов. Это проявляется, когда факторы изменяются синхронно. Связь зависимой переменной с изменениями каждого из них можно определить, только если в число объясняющих переменных включается только один из этих факторов.

Природа мультиколлинеарности нагляднее всего проявляется, когда между объясняющими переменными существует строгая линейная связь. Это строгая мультиколлинеарность, когда невозможно разделить вклад каждой переменной в объяснение поведения результативного показателя. Чаще встречается нестрогая, или стохастическая мультиколлинеарность, когда объясняющие переменные коррелированы между собой. В этом случае проблема возникает только тогда, когда взаимосвязь переменных влияет на результаты оценки регрессии.

Основные последствия мультиколлинеарности:

· понижается точность оценки параметров регрессии, что проявляется в трех аспектах:

Ошибки некоторых оценок становятся очень большими;

Эти ошибки сильно коррелированными друг с другом;

Выборочные дисперсии сильно возрастают;

· коэффициенты некоторых введенных в регрессию переменных оказываются незначимыми, но в силу экономических соображений именно эти переменные должны оказывать заметное влияние объясняемую переменную;

· оценки коэффициентов становятся очень чувствительными к выборочным наблюдениям (небольшое увеличение объема выборки приводит к очень сильным сдвигам в значениях оценок).

Причины возникновения мультиколлинеарности:

· в модель включены факторные признаки, характеризующие одну и ту же сторону явления;

· уравнение регрессии содержит в качестве факторных признаков такие показатели, суммарное значение которые представляет собой постоянную величину;

· в модели использованы факторные признаки, являющиеся составными элементами друг друга;

· в моделирующую функцию включены факторные признаки, по смыслу дублирующие друг друга.

Проблема мультиколлинеарности является обычной для регрессии временных рядов, т.е. когда данные состоят из ряда наблюдений в течение некоторого периода времени. Если две или более объясняющие переменные имеют ярко выраженной временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

Если среди парных коэффициентов корреляции независимых переменных существуют такие, значение которых приближается или равно множественному коэффициенту корреляции, то это говорит о возможности существования мультиколлинеарности.

Если в эконометрической модели получено малое значение параметра при большом коэффициенте детерминации и при этом -критерий существенно отличается от нуля, то это говорит о наличии мультиколлинеарности.

Методы исследования мультиколлинеарности

· нахождение и анализ корреляционной матрицы

Стохастическая связь между переменными характеризуется величиной коэффициента корреляции между ними. Чем ближе по абсолютной величине значение коэффициента корреляции к единице, тем сильнее мультиколлинеарность. В общем случае, если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить нет ли среди них коррелированных между собой. Для этого формируется матрица коэффициентов парной корреляции, которая является симметричной и называется корреляционной матрицей. Она имеет вид:

где - коэффициенты парной корреляции между переменной у и одним из факторов, - коэффициенты парной корреляции между факторами, которые вычисляются по формуле

Анализ корреляционной матрицы позволяет оценить, во-первых, степень влияния отдельных факторов на результативный показатель, во-вторых, взаимосвязь факторов между собой.

Если коэффициенты парной корреляции между некоторыми факторами близки к единице, это указывает на тесную взаимосвязь между ними, т.е. на наличие мультиколлинеарности. В этом случае один из факторов необходимо исключить из дальнейшего рассмотрения. Встает вопрос, какой именно. Это зависит от конкретной ситуации. Чаще всего для моделирования оставляют тот фактор, который с экономической точки зрения более весом для изучаемого процесса. Можно также оставить фактор, который имеет большее влияние на результативный показатель (т.е. коэффициент корреляции которого с результативным показателем больше). Такого рода анализ проводится для каждой пары факторов. Результатом анализа корреляционной матрицы является установление группы факторов, мало зависимых между собой – они и должны входить в модель.

· вычисление определителя корреляционной матрицы

Если в модели больше двух факторов, вопрос о мультиколлинеарности не может ограничиваться информацией, которую дает корреляционная матрица. Более широкая проверка предусматривает вычисление определителя матрицы , . Если , то существует полная мультиколлинеарность. Если , то мультиколлинеарности нет. Чем ближе к нулю, тем увереннее можно утверждать о существовании между переменными мультиколлинеарности.

· метод Феррара-Глаубера

Для исследования общей мультиколлинеарности и мультиколлинеар-ности между отдельными факторами используется корреляционная матрица , вычисляемая по формуле (3.3.2).

Для исследования общей мультиколлинеарности используется критерий . Рассчитывается величина

имеющая - распределение с степенями свободы.

По данной надёжности и числу степеней свободы находят табличное значение (приложение А). Если , то можно считать, что мультиколлинеарность между объясняющими переменными отсутствует.

Для выяснения вопроса, между какими факторами существует мультиколлинеарность, используется -статистика или -статистика. Для этой цели используют частные коэффициенты парной корреляции между объясняющими переменными, которые вычисляют по формуле

где – элементы обратной матрицы .

В качестве критерия используется величина

имеющая распределение Стьюдента с степенями свободы.

По таблицам Стьюдента (приложение Д) находят критическое значение . Сравнивают критическое значение с расчетным :

· если , то между объясняющими переменными и коллинеарности нет.

· если , то между объясняющими переменными и существует значительная коллинеарность..

Методы устранения мультиколлинеарности

Если мультиколлинеарность выявлена, необходимо предпринять ряд мер по ее уменьшению и возможному устранению. Необходимо знать, что безошибочных и абсолютно правильных рекомендаций нет, это процесс творческого поиска. Все зависит от степени мультиколлинеарности, от набора факторов, от характера данных.

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, связаны с информационной базой и делятся на две категории. К первой относятся попытки повысить степень надежности оценок регрессии – увеличить число наблюдений в выборке, за счет сокращения временного периода увеличить дисперсию объясняющих переменных и снизить вариацию случайного числа, уточнить набор объясняющих переменных, включаемых в модель. Ко второй категории относится использование внешней информации, т.е. сбор дополнительных данных и оценок.

· метод исключения переменных

Этот метод заключается в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов корреляции. Для этого производится оценка значимости коэффициентов парной корреляции между объясняющими переменными и . Если , то одну из переменных можно исключить. Но какую переменную удалить из анализа, решают исходя из экономических соображений.

· метод линейного преобразования переменных

Этот метод устранения мультиколлинеарности заключается в переходе к регрессии приведенной формы путем замены переменных, которым присуща коллинеарность, их линейной комбинацией. Если между двумя факторами и существует мультиколлинеарность, то заменяют фактор после чего проверяют наличие мультиколлинеарности между факторами и . При отсутствии мультиколлинеарности вместо фактора рассматривается фактор .

· метод пошаговой регрессии

Процедура применения пошаговой регрессии начинается с построения простой регрессии. В анализ последовательно включают по одной объясняющей переменной. На каждом шаге проверяется значимость коэффициентов регрессии и оценивается мультиколлинеарность переменных. Если оценка коэффициента получается незначимой, то переменная исключается и рассматривают другую объясняющую переменную. Если оценка коэффициента регрессии значима, а мультиколлинеарность отсутствует, то в анализ включают следующую переменную. Таким образом, постепенно определяются все составляющие регрессии без нарушения положения об отсутствии мультиколлинеарности.

Меры по устранению мультиколлинеарности:

· необходимо изменить спецификацию модели так, чтобы коллинеарность переменных снизилась до допустимого уровня;

· необходимо применить методы оценки, которые, несмотря на существенную коллинеарность, позволяют избежать ее отрицательных последствий. К этим методам оценивания относятся: методы с ограничениями на параметры (смешанный оценщик и минимальный оценщик), метод главных компонент, двухшаговый МНК, метод инструментальных переменных, метод наибольшего правдоподобия.

Как уже было показано, устранение мультиколлинеарности может достигаться путем исключения одного или нескольких линейно-связанных факторных признаков. Вопрос о том, какой из факторов следует отбросить, решается на основании экономического, логического, качественного анализа явления. Иногда удается уменьшить мультиколлинеарность путем агрегирования или преобразования исходных факторных признаков. В частности, это может быть объединение межотраслевых показателей с рядами динамики или, например, можно перейти к первым разностям и находить уравнение регрессии для разностей.

Хотя надежных методов выявления коллинеарности не существует, есть несколько признаков, ее выявляющих:

· характерным признаком мультиколлинеарности является высокое значение коэффициента детерминации при незначимости параметров уравнения (по t -статистикам);

· в модели с двумя переменными наилучшим признаком мультиколлинеарности является значение коэффициента корреляции;

· в модели с большим числом (чем два) факторов коэффициент корреляции может быть низким из-за наличия мультиколлинеарности, следует брать во внимание частные коэффициенты корреляции;

· если коэффициент детерминации велик, а частные коэффициенты малы, то мультиколлинеарность возможна

Пример 3.6. Исследовать данные на мультиколлинеарность; если обнаружена мультиколлинеарность объясняющих переменных, то исключить из рассмотрения переменную, которая коррелирует с остальными объясняющими переменными.

Y 17,44 17,28 17,92 18,88 17,12 21,12 20,64 19,68 18,4
Х 1 22,95 24,84 29,97 28,08 24,3 32,4 29,97 33,48 29,7 26,73
Х 2 1,56 2,88 2,28 1,2 2,64 3,48 2,28 2,52 2,4
Х 3 2,8 1,148 2,66 1,96 0,77 2,38 3,36 2,17 2,24 2,03

Решение. Для исследования общей мультиколлинеарности применим метод Фаррара-Глаубера.

Для нахождения корреляционной матрицы R построим вспомогательную таблицу 3.13.

Таблица 3.13

Расчет элементов корреляционной матрицы

17,44 22,95 2,8 526,70 9,00 7,84 68,85 64,26 8,40 22,95 2,8 304,15
17,28 24,84 1,56 1,14 617,03 2,43 1,32 38,75 28,52 1,79 24,84 1,56 1,14 298,60
17,92 29,97 2,88 2,66 898,20 8,29 7,08 86,31 79,72 7,66 29,97 2,88 2,66 321,13
18,88 28,08 2,28 1,96 788,49 5,20 3,84 64,02 55,04 4,47 28,08 2,28 1,96 356,45
17,12 24,3 1,2 0,77 590,49 1,44 0,59 29,16 18,71 0,92 24,3 1,2 0,77 293,09
21,12 32,4 2,64 2,38 1049,76 6,97 5,66 85,54 77,11 6,28 32,4 2,64 2,38 446,05
29,97 3,48 3,36 898,20 12,11 11,29 104,3 100,7 11,69 29,97 3,48 3,36 400,00
20,64 33,48 2,28 2,17 1120,91 5,20 4,71 76,33 72,65 4,95 33,48 2,28 2,17 426,01
19,68 29,7 2,52 2,24 882,09 6,35 5,02 74,84 66,53 5,64 29,7 2,52 2,24 387,30
18,4 26,73 2,4 2,03 714,49 5,76 4,12 64,15 54,26 4,87 26,73 2,4 2,03 338,56
188,48 282,42 24,24 21,52 8086,36 62,76 51,47 692,26 617,5 56,68 282,42 24,24 21,5 3571,35
18,848 28,24 2,42 2,15 808,64 6,28 5,15 69,23 61,75 5,67 28,24 2,424 2,15 357,13

В предпоследней строке таблицы 3.12 указаны суммы по столбцам, а в последней – средние значения по столбцам.

Найдем средние квадратические отклонения:

Аналогично имеем , , .

Найденные значения средних квадратических отклонений подставим в формулы (3.3.3) для вычисления парных коэффициентов корреляции:

Аналогично , , , , .

Можно сделать вывод о наличии определенной связи между каждой парой факторов. Для данной задачи корреляционная матрица (3.3.1) имеет вид:

Замечание. Если команда Анализ данных отсутствует в менюСервис, то необходимо запустить программу установки Microsoft Excel и установить Пакет анализа. После установки Пакета анализа его необходимо выбрать и активизировать с помощью команды Надстройки.

Найдем определитель корреляционной матрицы :

Значение определителя корреляционной матрицы близко к нулю, что свидетельствует о наличии значительной мультиколлинеарности.

. и существует мультиколлинеарность и одна из переменных должна быть исключена. Исключим из рассмотрения переменную , поскольку .
  • 2.3 Самостоятельная работа обучающегося под руководством преподавателя (сроп)
  • 2.4Самостоятельная работа студента (срс)
  • 3. Расписание модульно-рейтинговой проверки знаний обучающихся (график выполнения и сдачи заданий по дисциплине)
  • 3. Карта учебно-методической обеспеченности дисциплины
  • 3.1. Список литературы
  • 3.2 Методическое обеспечение дисциплины
  • 3.3 Перечень специализированных средств
  • 4. Методические рекомендации по дисциплин
  • 5. Лекционный комплекс.
  • Тема 1. «Сведения из теории вероятностей и математической статистики».
  • Вопрос 1. Введение в эконометрику.
  • Вопрос 3. Выборка и генеральная совокупность.
  • Вопрос 4. Проверка (тестирование) статистических гипотез.
  • Вопрос 5. Точечные и интервальные оценки параметров.
  • Тема 2. Метод наименьших квадратов
  • Вопрос 1. Функция регрессии и основные задачи статистического анализа парной регрессии. Причины включения случайного члена в уравнение регрессии.
  • Лз 3. Метод наименьших квадратов
  • Лз 4 Метод наименьших квадратов.
  • Вопрос 2. Метод наименьших квадратов.
  • Тема 3. Модель множественной линейной регрессии
  • Вопрос 1. Множественная линейная регрессия.
  • Вопрос 2. Матричная форма записи модели множественной регрессии.
  • Тема 4. Классическая модель множественной линейной регрессии.
  • Вопрос 1. Классическая модель множественной регрессии.
  • Вопрос 2. Проверка статистической значимости коэффициентов линейной регрессии. T-статистика Стьюдента.
  • Лз 7. Классическая модель множественной линейной регрессии.
  • Тема 5. Коэффициент детерминации.
  • Вопрос 1. Коэффициент детерминации.
  • Вопрос 2. Проверка общего качества уравнения регрессии.
  • Вопрос 3. Проверка значимости коэффициента детерминации.
  • Тема 6. Спецификация переменных. Частная корреляция.
  • Вопрос 1. Спецификация переменных.
  • Вопрос 2. Последствия невключения в модель существенных переменных.
  • Вопрос 3. Включение в модель несущественных переменных.
  • Вопрос 4. Частная корреляция в модели множественной линейной регрессии.
  • Тема 7. Нелинейные эконометрические модели.
  • Вопрос 1. Нелинейные модели регрессии. Нелинейность по переменным и нелинейность по параметрам. Логарифмирование.
  • Вопрос 2. Эластичность и ее моделирование.
  • Тема 8. Мультиколлинеарность.
  • Вопрос 1. Явление мультиколлинеарности.
  • Определение наличия мультиколлинеарности.
  • Вопрос 2. Последствия мультиколлинеарности для оценок коэффициентов регрессии.
  • Вопрос 3. Методы устранения мультиколлинеарности
  • Вопрос 4. Фиктивные переменные.
  • Тема 9. Гетероскедастичность.
  • Вопрос 1. Сущность и причины возникновения гетероскедастичности.
  • Вопрос 2. Способы корректировки гетероскедастичности.
  • Тема 10. Динамический ряд.
  • Вопрос 1. Общие сведения о временных рядах и задачах их анализа.
  • Лз 14. Динамический ряд.
  • Вопрос 2. Автокорреляция.
  • Вопрос 3. Прогнозирование на основе моделей временных рядов.
  • Другую группу методов представляют методы статистического модели­рования, наиболее распространенными из которых являются статические и динамические.
  • Лз 15 Динамический ряд.
  • Вопрос 3. Прогнозирование на основе моделей временных рядов.
  • Вопрос 4. Система одновременных уравнений.
  • 6. План лабораторных занятий
  • 7. Материалы для срс срс №1 Основные аспекты эконометрического моделирования
  • Срс №2 Парный регрессионный анализ
  • Срс № 3 Множественный регрессионный анализ
  • Условие задачи
  • Алгоритм решения задания
  • Срс №4 Временные ряды и прогнозирование.
  • Срс №5 Регрессионные динамические модели.
  • 3) Произвести теоретическое описание модели с распределенным лагом.
  • Срс № 6
  • Срс № 7 Системы одновременных уравнений.
  • 8. Материалы по контролю и оценке учебных достижений обучающихся Вопросы для подготовки к экзамену по дисциплине
  • Определение наличия мультиколлинеарности.

    Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

    1. Совокупный коэффициент множественной детерминации (R 2 ) достаточно вы­сок, но некоторые из коэффициентов регрессии статистически незначимы, то есть они имеют низ­киеt -статистики .

    2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока (в случае двух объясняющих переменных).

    3. Высокие частные коэффициенты корреляции (в случае большего количества малозначимых объясняющих переменных).

    Вопрос 2. Последствия мультиколлинеарности для оценок коэффициентов регрессии.

    1. Большие дисперсии оце­нок (стандартные ошибки). Это затрудняет нахождение истинных зна­чений определяемых величин и расширяет ин­тервальные оценки, ухудшая их точность.

    2. Уменьшаются t -статистики коэффициентов, что может привести к неоправданному выводу о су­щественности влияния соответствующей объяс­няющей переменной на зависимую.

    3. Оценки коэффициентов по МНК и их стандарт­ные ошибки становятся очень чувствительными к малейшим изменениям данных, то есть они ста­новятся неустойчивыми.

    4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую урав­нением регрессии дисперсию зависимой перемен­ной.

    5. Возможно получение неверного знака у коэффи­циента регрессии.

    Вопрос 3. Методы устранения мультиколлинеарности

    Рассмотрим ос­новные методы.

    1. Исключение переменной(ых) из модели. Простейшим методом устранения мультиколлинеарности является ис­ключение из модели одной или ряда коррелированных переменных.

    Однако в этой ситуации возможны ошибки специфика­ции. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно исполь­зовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом.

    Исключив из модели цены заменителей, скорее всего, будет допущена ошибка спецификации. Вследствие это­го можно получить смещенные оценки и сделать необос­нованные выводы. Поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

    2. Получение дополнительных данных или новой вы­борки. Поскольку мультиколлинеарность напрямую за­висит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет, либо она не будет столь серьезной.

    Иногда для уменьшения мультиколлинеарности дос­таточно увеличить объем выборки. Увеличение количе­ства данных сокращает дисперсии коэффициентов рег­рессии и, тем самым, увеличивает их статистическую зна­чимость.

    Однако получение новой выборки или расширение ста­рой не всегда возможно или связано с серьезными издер­жками.

    3. Изменение спецификации модели. В ряде случаев про­блема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется фор­ма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

    Если данный метод имеет основания, то его использо­вание уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

    4. Использование предварительной информации о некото­рых параметрах. Иногда при построении модели множе­ственной регрессии можно воспользоваться предваритель­ной информацией, в частности известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

    Ограниченность использования данного метода обус­ловлена тем, что, во-первых, получение предварительной информации зачастую затруднительно, а, во-вторых, ве­роятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, невысока.

    Преобразование переменных. В ряде случаев миними­зировать либо вообще устранить проблему мультиколли­неарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет следующий вид:

    При этом х 1 и х 2 – это коррелированные переменные.

    В этой ситуации можно попытаться определять следующие рег­рессионные зависимости относительных величин:

    (2)

    (3)

    Вполне вероятно, что в этих моделях проблема муль­тиколлинеарности будет отсутствовать. Возможны и дру­гие преобразования, близкие по своей сути к опи­санным выше. Например, если в уравнении рассматриваются взаимосвязи номинальных экономических показателей, то для снижения мультиколлинеарности можно попытать­ся перейти к реальным показателям и т.п.

    Похожие публикации