Реферат: Статистический анализ банковской деятельности Исследование моделей оценки кредитных рисков






--PAGE_BREAK--

    продолжение
--PAGE_BREAK--Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Цели ДА – интерпретация межгрупповых различий — дискриминация и методы классификации наблюдений по группам.
При интерпретации мы отвечаем на вопросы: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию, и какие из них наиболее информативны.
Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими.
Реализуем метод дискриминантного анализа в SPSS. Существует 2 алгоритма классификации:
1. Одновременный учет всех независимых переменных. Результаты представлены в таблице 8

Таблица 8. Classification Results(a)
a 73,0% of original grouped cases correctly classified.
В таблице 9 приведены коэффициенты дискриминантной функции
Таблица 9. Canonical Discriminant Function Coefficients
Лямбда Уилкса показывает на значимое различие групп (p < 0,001).
Таблица 10. Wilks' Lambda
2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных.
Таблица 11. Classification Results(a)
a 71,6% of original grouped cases correctly classified.
Лямбда Уилкса показывает на значимое различие групп (p < 0,001).
Таблица 12. Wilks' Lambda
В таблице 13 приведены коэффициенты дискриминантной функции

Таблица 13. Canonical Discriminant Function Coefficients
Точность распознавания дискриминантным анализом выше, чем кластерным. Но результаты по-прежнему остаются неудовлетворительными.
2.4. Дерево классификаций Дерево классификаций является более общим алгоритмом сегмен­тации обучающей выборки прецедентов. В методе дерева клас­сификаций сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис .1).
<imagedata src=«34354.files/image021.emz» o:><img width=«343» height=«185» src=«dopb160340.zip» v:shapes="_x0000_i1036">
Рис.1. Дерево классификации
На первом шаге разделение выборки прецедентов на сегменты произво­дится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура по­вторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положи­тельных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) выбирается автоматически.
В рассмотренной методике также не дается ответ, насколько кредит хорош или плох. Метод не позволяют получить точную количествен­ную оценку риска и установить допустимый риск.
2.5. Нейронные сети Нейронные сети NN используются при определении кредитоспо­собности юридических лиц, где анализируются выборки меньшего раз­мера, чем в потребительском кредите. Наиболее успешной областью их применения стало выявление мошенничества с кредитными карточка­ми. Нейронные сети выявляют нелинейные связи между переменными, которые могут привести к ошибке в линейных моделях. NN позволяют обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2). Форма сегментов зависит от внутренней структуры NN Формулы и коэффициенты модели риска на основе NN лишены физического и логического смысла.
<imagedata src=«34354.files/image023.emz» o:><img width=«343» height=«194» src=«dopb160341.zip» v:shapes="_x0000_i1037">
Рис.2. Сегменты разделения «хороших» и «плохих» объектов в NN
Нейросеть — это «черный ящик», внутреннее содержание которого (так называемые веса нейронов) не имеет смысла в терминах оценки риска. Такие методики не позволяют объяснить, почему данному заемщику следует отказать в кредите. NN-модели классификации обладают низкой стабильностью (робастностью).
2.6. Технологии Data mining В основе технологии data mining лежат алгоритмы поиска закономерностей между различными факторами в больших объемах данных. При этом анализируются зависимости меж­ду всеми факторами; но, поскольку даже при небольшом числе фак­торов количество их всевозможных комбинаций растет экспоненци­ально, в data mining применяются алгоритмы априорного отсечения слабых зависимостей [1]. Говоря терминами анализа кредитоспособности, data mining на основе данных о выданных кредитах выявляет те фак­торы, которые существенно влияют на кредитоспособность заемщика, и вычисляет силу этого влияния. Соответственно, чем сильнее опреде­ленный фактор влияет на кредитоспособность, тем больший балл ему присваивается в методике скоринга. Чем больше данные держателя кредитной карты похожи на данные «кредитоспособного гражданина», тем больший лимит по кредиту он может получить, тем лучшие усло­вия ему могут быть предоставлены
          Главное преимущество методик на основе data mining заключается в том, что они могут работать на малых выборках. При больших вы­борках их точность, робастность и прозрачность недостаточны В них также не дается ответ, насколько кредит хорош или плох Метод не позволяет получить количественную оценку риска, установить допу­стимый риск, назначить цену за риск и выявить вклады факторов и их градаций в риск

2.7. Линейная вероятностная регрессионная модель Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:
Y=B0+B1X1+…+BpXp+e
где e — случайная ошибка. Здесь Xk означает не «икс в степени k», а переменная X с индексом k. Традиционные названия «зависимая» для Y и «независимые» для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию. Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,σ2), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Для получения оценок <shape id="_x0000_i1038" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image025.wmz» o:><img width=«19» height=«24» src=«dopb160342.zip» v:shapes="_x0000_i1038"> коэффициентов <shape id="_x0000_i1039" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image027.wmz» o:><img width=«23» height=«24» src=«dopb160343.zip» v:shapes="_x0000_i1039"> регрессии минимизируется сумма квадратов ошибок регрессии:
<shape id="_x0000_i1040" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image029.wmz» o:><img width=«307» height=«39» src=«dopb160344.zip» v:shapes="_x0000_i1040">
Решение задачи сводится к решению системы линейных уравнений относительно <shape id="_x0000_i1041" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image031.wmz» o:><img width=«19» height=«24» src=«dopb160342.zip» v:shapes="_x0000_i1041">. На основании оценок регрессионных коэффициентов рассчитываются значения Y:
<shape id="_x0000_i1042" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image032.wmz» o:><img width=«219» height=«27» src=«dopb160345.zip» v:shapes="_x0000_i1042">
О качестве полученного уравнения регрессии можно судить, исследовав <shape id="_x0000_i1043" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image034.wmz» o:><img width=«80» height=«24» src=«dopb160346.zip» v:shapes="_x0000_i1043"> - оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле
<shape id="_x0000_i1044" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image036.wmz» o:><img width=«205» height=«25» src=«dopb160347.zip» v:shapes="_x0000_i1044">.
Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.
Так как мы ищем оценки <shape id="_x0000_i1045" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image038.wmz» o:><img width=«19» height=«24» src=«dopb160342.zip» v:shapes="_x0000_i1045">, используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:
1.    Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?
2.    Существенно ли влияние на зависимую отдельных независимых переменных?
В пакете SPSS вычисляются статистики, позволяющие решить эти задачи.
Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:
<shape id="_x0000_i1046" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image039.wmz» o:><img width=«253» height=«36» src=«dopb160348.zip» v:shapes="_x0000_i1046">
В этом разложении обычно обозначают
<shape id="_x0000_i1047" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image041.wmz» o:><img width=«121» height=«27» src=«dopb160349.zip» v:shapes="_x0000_i1047"> - общую сумму квадратов отклонений;
<shape id="_x0000_i1048" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image043.wmz» o:><img width=«137» height=«27» src=«dopb160350.zip» v:shapes="_x0000_i1048"> - сумму квадратов регрессионных отклонений;
<shape id="_x0000_i1049" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image045.wmz» o:><img width=«131» height=«28» src=«dopb160351.zip» v:shapes="_x0000_i1049"> - разброс по линии регрессии.
Статистика <shape id="_x0000_i1050" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image047.wmz» o:><img width=«149» height=«48» src=«dopb160352.zip» v:shapes="_x0000_i1050"> в условиях гипотезы равенства нулю регрессионных коэффициентов имеет распределение Фишера и, естественно, по этой статистике проверяют, являются ли коэффициенты B1,…,Bp одновременно нулевыми. Если наблюдаемая значимость статистики Фишера мала (например, sig F=0.003), то это означает, что данные распределены вдоль линии регрессии; если велика (например, Sign F=0.5), то, следовательно, данные не связаны такой линейной связью.
При сравнении качества регрессии, оцененной по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg/SSt представляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной <shape id="_x0000_i1051" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image049.wmz» o:><img width=«72» height=«27» src=«dopb160353.zip» v:shapes="_x0000_i1051">, объясненной уравнением регрессии, называется коэффициентом детерминации. В двумерном случае коэффициент детерминации совпадает с квадратом коэффициента корреляции.
Корень из коэффициента детерминации называется КОЭФФИЦИЕНТОМ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ (он является коэффициентом корреляции между y и <shape id="_x0000_i1052" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image051.wmz» o:><img width=«15» height=«19» src=«dopb160354.zip» v:shapes="_x0000_i1052">). Оценкой коэффициента детерминации (<shape id="_x0000_i1053" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image053.wmz» o:><img width=«72» height=«27» src=«dopb160353.zip» v:shapes="_x0000_i1053">) является <shape id="_x0000_i1054" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image054.wmz» o:><img width=«129» height=«25» src=«dopb160355.zip» v:shapes="_x0000_i1054">. Соответственно, величина R является оценкой коэффициента множественной корреляции. Следует иметь в виду, что <shape id="_x0000_i1055" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image056.wmz» o:><img width=«23» height=«20» src=«dopb160356.zip» v:shapes="_x0000_i1055"> является смещенной оценкой. Корректированная оценка коэффициента детерминации получается по формуле:
<shape id="_x0000_i1056" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image058.wmz» o:><img width=«285» height=«25» src=«dopb160357.zip» v:shapes="_x0000_i1056">
В этой формуле используются несмещенные оценки дисперсий регрессионного остатка и зависимой переменной.
Если переменные X независимы между собой, то величина коэффициента bi интерпретируется как прирост y, если Xi увеличить на единицу.
Можно ли по абсолютной величине коэффициента судить о роли соответствующего ему фактора в формировании зависимой переменной? То есть, если b1>b2, будет ли X1 важнее X2?
Абсолютные значения коэффициентов не позволяют сделать такой вывод. Однако при небольшой взаимосвязи между переменными X, если стандартизовать переменные и рассчитать уравнение регрессии для стандартизованных переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию.
Дисперсия коэффициента позволяет получить статистику для проверки его значимости <shape id="_x0000_i1057" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image060.wmz» o:><img width=«52» height=«49» src=«dopb160358.zip» v:shapes="_x0000_i1057">. Эта статистика имеет распределение Стьюдента. В выдаче пакета печатается наблюдаемая ее двусторонняя значимость — вероятность случайно при нулевом регрессионном коэффициенте Bk получить значение статистики, большее по абсолютной величине, чем выборочное.
Построим регрессию Y на факторы Z1-Z20 по методу линейной регрессии (табл.14.)

Таблица 14. Оценка линейной вероятностной модели
<imagedata src=«34354.files/image062.emz» o:><img width=«385» height=«480» src=«dopb160359.zip» v:shapes="_x0000_i1058">
В нашем случае прогнозные значения Yf указывают на вероятность возврата (невозврата) кредита. Построим график прогнозных значений (рис.3.)
<imagedata src=«34354.files/image064.emz» o:><img width=«318» height=«254» src=«dopb160360.zip» v:shapes="_x0000_i1059">
Рис.3. график прогнозных значений
Можно видеть, что прогнозные значения могут находиться вне интервала [0,1] – это главный недостаток LP модели. Поэтому приступим к построению моделей, лишенных этих недостатков.
2.8. Логистическая регрессия Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 — произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, что Y — непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp. Иначе эта связь может быть выражена в виде зависимости P{Y=1|X}=f(X)
Логистическая регрессия выражает эту связь в виде формулы
<shape id="_x0000_i1060" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image066.wmz» o:><img width=«192» height=«44» src=«dopb160361.zip» v:shapes="_x0000_i1060">, где Z=B0+B1X1+…+BpXp
Название «логистическая регрессия» происходит от названия логистического распределения, имеющего функцию распределения <shape id="_x0000_i1061" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image068.wmz» o:><img width=«127» height=«44» src=«dopb160362.zip» v:shapes="_x0000_i1061"> . Таким образом, модель, представленная этим видом регрессии, по сути, является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных [3].
Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет P/(1-P) называется отношением шансов.
С этим отношением связано еще одно представление логистической регрессии, получаемое за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), где P=P{Y=1|X1,…,Xp}. Переменная Z называется логитом. По сути дела, логистическая регрессия определяется уравнением регрессии Z=B0+B1X1+…+BpXp.
В связи с этим отношение шансов может быть записано в следующем виде
P/(1-P)= <shape id="_x0000_i1062" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image070.wmz» o:><img width=«431» height=«28» src=«dopb160363.zip» v:shapes="_x0000_i1062">.
Отсюда получается, что, если модель верна, при независимых X1,…,Xp изменение Xk на единицу вызывает изменение отношения шансов в<shape id="_x0000_i1063" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image072.wmz» o:><img width=«25» height=«21» src=«dopb160364.zip» v:shapes="_x0000_i1063">раз.
Механизм решения такого уравнения можно представить следующим образом
1.                 Получаются агрегированные данные по переменным X, в которых для каждой группы, характеризуемой значениями Xj=<shape id="_x0000_i1064" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image074.wmz» o:><img width=«83» height=«27» src=«dopb160365.zip» v:shapes="_x0000_i1064">подсчитывается доля объектов, соответствующих событию {Y=1}. Эта доля является оценкой вероятности <shape id="_x0000_i1065" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image076.wmz» o:><img width=«167» height=«27» src=«dopb160366.zip» v:shapes="_x0000_i1065">. В соответствии с этим, для каждой группы получается значение логита Zj.
2.                 На агрегированных данных оцениваются коэффициенты уравнения Z=B0+B1X1+…+BpXp. К сожалению, дисперсия Z здесь зависит от значений X, поэтому при использовании логита применяется специальная техника оценки коэффициентов — взвешенной регрессии.
Еще одна особенность состоит в том, что в реальных данных очень часто группы по X оказываются однородными по Y, поэтому оценки <shape id="_x0000_i1066" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image078.wmz» o:><img width=«20» height=«25» src=«dopb160367.zip» v:shapes="_x0000_i1066"> оказываются равными нулю или единице. Таким образом, оценка логита для них не определена (для этих значений <shape id="_x0000_i1067" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«34354.files/image080.wmz» o:><img width=«309» height=«21» src=«dopb160368.zip» v:shapes="_x0000_i1067">).
    продолжение
--PAGE_BREAK--


еще рефераты
Еще работы по математике