Реферат: Анализ данных в линейной регрессионной модели

Государственное образовательное учреждение высшего профессиональногообразования

«Московский государственный институт электронной технки

(технический универститет)»


 

Курсовая работа

по дисциплине

«Теория вероятности и математическая статистика»

Тема работы

«Анализ данных в линейной регрессионной модели»

Выполнил:

Студентгруппы ЭКТ-21

РыжовС.А.        

Проверил:

Преподаватель

БардушкинаИ. В.

Москва — 2010


Вариант20.

Задание1

 

Выполнитьпредварительную обработку результатов наблюдений, включающую:

1 построениедиаграммы рассеивания (корреляционного поля);

2 группировкуданных и построение корреляционной таблицы;

3 оценку числовыххарактеристик для негруппированных и группированных данных.

Оценка числовыххарактеристик для негруппированных данных:

X Y X Y 4,19 9,19 4,44 9,13 3,04 11,94 11,31 4,58 4,6 8,09 7,57 3,14 9,83 10,33 1,62 14,61 8,66 7,15 5,71 6,48 1,3 12,34 11,06 6,78 4,22 16,35 10,35 2,15 5,11 7,7 2,46 9,66 9,85 5,64 1,02 11,19 8,8 4,52 5,77 7,77 12,17 4,52 8,63 4,05 11,25 2,06 6,91 4,76 5,73 7,41 3,56 8,54 4,05 10,51 9,47 2,22 5,41 9,97 6,16 3,72 1,28 14,68 8,26 3,57 1,67 9,67 6,7 14,32 11,99 3,31 4,95 10,64 7,66 5,93 3,37 10,73 5,17 9,87 1,53 10,13 3,26 11,52 9,54 4,95 12,58 2,88 3,11 5,38 8,34 3,57 5,09 5,79 5,79 4,39 11,08 3,87 3,42 9,71 8,74 -2,23 Сумма X 317.78 Сумма Y 369,18

MX

6,3556

MY

7,3836

s2X

11,02005

s2Y

15,31479

KXY

-9,1594

ρXY

-0,7194

Числовые характеристикидля негруппированной выборки находятся по следующим формулам:

/>, />;

/>;

/>;

/>;

/>;


Построениекорреляционного поля:

/>

Построение корреляционнойтаблицы:

Таблица 1.1

Y

X

-1.5 1.5 4.5 7.5 10.5 13.5 16.5

ni.

2.5 1 1 8 3 13 5.5 4 5 6 1 1 17 8.5 1 1 8 1 1 12 11.5 3 4 1 8

nj.

1 4 17 8 15 4 1 50

Оценка числовых характеристикдля группированных данных:

/>, />;

/>,        />;

/>;

/>;

/>,   />;

/>;

/>

/>;

/> = — 0.87

Задание 2

 

Для негруппированныхданных проверить гипотезу /> об отсуствии линейной статистическойсвязи между компонентами X и Y при альтернативной гипотезе />( уровень значимости α = 0,05);

Выборочное значениестатистики равно

/>,

 

/>

Используя средства Matlab, найдем

/>

/>


Так как выборочноезначение статистики больше квантили распределения Стьюдента, гипотеза Hотклоняется в сторону гипотезы H1. Корреляция значима.

Задание 3

Для негруппированыхданных получить интервальную оценку для истинного значения коэффициентакорреляции ρX,Y, при уровне значимости α = 0,05.

Используя средства Matlab, найдем

/>

/>,     />

/>,     />

/>

 

Задание 4

 

Для негруппированных игруппированных данных составить уравнения регрессии Y на x и X на Y.

Рассмотрим вначале случайнегруппированных данных.

/>

Этот интервал не содержитнуля, т.е. с доверительной вероятностью 1 – ЫВА = 0,95 существует корреляциямежду X и Y и имеет смысл построение уравнений регрессии.


/>,  />

y(x) = 12,77 – 0,848*x;

x(y) = 10,86 – 0,6*y;

Проверка.

/>, />.

/>, />;

/>, />

/>, />;

/>

Случай группированныхданных.

Подставим найденныезначения /> вуравнеиня линейной регрессии Yна x и X на y. Получим:

 

y(x) = 17,14 – 1,4*x;

x(y) = 10,83 – 0,54*y;

Проверка: />

 

Задание 5

 

Для негруппированныхданных нанести графики выборочных регрессионных прямых на диаграммурассеивания.


/>

Задание 6

 

Для негруппированныхданных по найденным оценкам параметров линейной регрессии Y на x получить оценку s2 для дисперсии ошибок наблюдений σ2, найти коэффициент детерминации R2, построить доверительные интервалыдля параметров регрессии a и b, дисперсии ошибок наблюдений σ2 и среднего значения Y при x = x0 .

Для негруппированныхданных были получены следующие оценки числовых характеристик и коэффициентоврегрессии: />, />, />, />, />, />, />, />.

Используя соотношение />, вычислимостаточную сумму />

/>;

/>;

/>;

/>.

/>;

Тогда оценка дисперсииошибок наблюдений равна

/>.

Коэффициент детерминацииравен

 

/>.

Поскольку />(знак />)/>, то сделаем проверкуправильности расчетов:

/>(верно).

Полученный результат длякоэффициента детерминации означает, что уравнение регрессии /> на 49,7% объясняетобщий разброс результатов наблюдений относительно горизонтальной прямой />.

Построим доверительныеинтервалы для параметров линейной регрессии и дисперсии ошибок наблюдений.

С помощью Matlab найдем квантили распределенийСтьюдента и />:

/>, />, />;

– доверительный интервалдля параметра />:


/>;

/>;

– доверительный интервалдля параметра />:

/>;

/>;

– доверительный интервалдля дисперсии ошибок наблюдений />:

/>;

/>.

-Найдем границыдоверительных интервалов для среднего значения /> при />:

 

/>;

/>.

Задание 7. Для негруппированных данныхпроверить значимость линейной регрессии Y на x(уровень значимости α= 0,05).

Гипотеза />: /> отклоняется на уровнезначимости />,так как доверительный интервал /> не накрывает нуль сдоверительной вероятностью 0,95.

Этот же результат можнополучить, используя для проверки гипотезу />: /> и статистику />.

С помощью Matlab найдем квантили распределенияФишера:

/>,                   />.

Выборочное значениестатистики /> равно:

/>.

Поскольку />/>, то гипотеза />: /> отклоняется на уровнезначимости />.Таким образом, линейная регрессия /> на /> статистически значима.

Задание №8

 

Для данных,сгруппированных только по />, проверить адекватность линейнойрегрессии /> на/> (уровеньзначимости />).

Для проверки адекватностивоспользуемся корреляционной таблицей. Будем считать, что середины интерваловгруппировки />,/>, являютсязначениями компоненты />. Тогда число /> повторных наблюденийравно 4. Запишем результаты этих наблюдений в виде таблицы

 


Таблица 1.2

/>

2,5 5,5 8,5 11,5

/>

11,94

12,34

14,68

9,87

11,52

9,71

14,61

9,66

11,19

8,54

10,73

10,13

5,38

9,19

8,09

16,35

7,70

7,41

10,51

9,97

9,87

4,39

6,48

7,77

4,76

3,72

14,32

10,64

5,79

9,13

10,33

7,15

5,64

4,52

4,52

3,57

3,14

4,05

2,22

3,57

4,95

-2,23

4,52

2,06

3,11

2,88

4,58

6,78

2,15

3,87

/>

13 17 12 8

/>

10,79 8,59 9,65 3,74

Для удобства расчетов впоследней строке таблицы приведены средние значения />, />.

/>.

Получим уравнениевыборочной линейной регрессии /> на /> для данных, сгруппированных по />:

/>;

/>, />, />, />, />;

y(x) = 8,29 – 0,9x.

/>;

/>.

Выборочное значениестатистики /> равно

/>.

Так как квантильраспределения Фишера, вычисленный с помощью Matlab, равен

/>3,19,

то />, а значит, линейнаярегрессия /> на/> дляданных, сгруппированных по />, адекватна результатамнаблюдений.

Задание 9. Для негруппированных данных проверитьгипотезу />:/>приальтернативной гипотезе />:/>(уровень значимости />)

Имеются следующиевеличины: />, />,, />, />.

Сначала проверяетсягипотеза />:/>,альтернативная гипотеза />:/>.

Статистика равна

/> = 1,931

С помощью средств Matlab, найдем:


F0,975 (n-1; n-1)=F0,975(49,49) = 1.7622

z > F0,975 (n-1;n-1),

 

следовательно/>отклоняется, азначит что />

Теперь можно проверитьгипотезу, />:/>, приальтернативной гипотезе />:/>.

Т.к. />, статистика имеет вид

/> = 1,418

Найдем количество степенейсвободы

/>≈3,625

С помощью средств Matlab, найдем:

/>

z < />, значит нет оснований отклонятьгипотезу />:/>.


Приложение

A = [4.19 3.04 4.60 9.83 8.66 1.30 4.22 5.11 9.85 8.80 12.17 11.25 5.73 4.05 5.411.28 1.67 11.99 7.66 5.17 3.26 12.58 8.34 5.79 3.42 4.44 11.31 7.57 1.62 5.7111.06 10.35 2.46 1.02 5.77 8.63 6.91 3.56 9.47 6.16 8.26 6.70 4.95 3.37 1.539.54 3.11 5.09 11.08 8.74;

 9.19 11.94 8.0910.33 7.15 12.34 16.35 7.70 5.64 4.52 4.52 2.06 7.41 10.51 9.97 14.68 9.67 3.315.93 9.87 11.52 2.88 3.57 4.39 9.71 9.13 4.58 3.14 14.61 6.48 6.78 2.15 9.6611.19 7.77 4.05 4.76 8.54 2.22 3.72 3.57 14.32 10.64 10.73 10.13 4.95 5.38 5.793.87 -2.23]

 x =A(1,:);

 y =A(2,:);

 Mx = mean(x)

 Dx = var(x,1)

 My = mean(y)

 Dy = var(y,1)

 plot(x,y,'g*')

 grid on

 hold on

 axis([1 13 -3 18]);

 

 gca1 = gca;

 set(gca1,'xtick',[1 4 7 10 13],'ytick',[-3 0 3 6 9 12 15 18]);

 

 xlabel('X');

 ylabel('Y');

 

 z =12.77 — 0.848*x; %построение регрессии Y на x

 Zplot = plot(z,x);

 set(Zplot,'Color','Red','LineWidth',[2])

 hold on

 

 text(12, -1,'x(y)');

 text(11.8,2,'y(x)');

 

 t =10.86 — 0.6*y; %построение регрессии X на y

 Tplot = plot(t,y);

 set(Tplot,'Color','Red','LineWidth',[2])

 

 hp =line([1 6.36],[7.38 7.38]); %эти прямые показывают положение

 set(hp,'Color','blue','LineWidth',[1.5])%среднего выборочного

 hp = line([6.36 6.36],[-37.38]);

 set(hp,'Color','blue','LineWidth',[1.5])

 

 K =cov(x,y) %находим ковариацию

 DEtK= det(K)

 

 M =corrcoef(x,y) %коэффициент корреляции

 detM= det(M)

еще рефераты
Еще работы по экономике