Реферат: Елементи дисперсійного аналізу і теорії кореляції

ЕЛЕМЕНТИ ДИСПЕРСІЙНОГО АНАЛІЗУ

І ТЕОРІЇ КОРЕЛЯЦІЇ


Вступ

У більшості розділів математичної статистики передбачається, що кожний ізусіх численних компонентів (факторів), які визначають характер поведінкивипадкової величини, вносить у формування її значення дуже малий неконтрольованийвнесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійномуаналізі та у теорії кореляції досліджуються випадки наявності серед цихфакторів величин, що є домінуючими у тій чи у іншій ступені аж впритул донеобхідності їх інтерпретації як також випадкових величин і з'ясування їхньоговзаємозв'язку з основною випадковою величиною.


1 Сутність і задачі дисперсійного аналізу. Однофакторний дисперсійнийаналіз

Нехай є /> груп сукупностей, кожна з якиххарактеризується випадковою величиною />. Це можуть бути підмножини однієїгенеральної сукупності чи різні генеральні сукупності. При цьому кожна групасукупностей відповідає визначеному рівню досліджуваного фактора /> (/>, />, />,…, />), який якось впливає навипадкову величину />. Рівні фактора /> можуть бути фіксованими(обраними і визначеними заздалегідь) чи випадковими, тобто такими, коликількісний рівень фактора визначається випадковим чином. Крім того, рівні фактораможуть не мати кількісної міри, а розрізнятися між собою тільки якісно.

Введемо наступні основні обмеження, що накладаються на розглянуту модель:

– випадкові величини />, />, />,…, /> у кожній групі розподілені нормальноз математичними сподіваннями />, />, />,, /> і дисперсіями />, />, />,, />;

– дисперсії у групах є рівними між собою, тобто />;

– вибірки, що організовані з /> груп сукупностей, є незалежними.

Будь-яке значення випадкової величини /> (кількісної характеристикирозглянутих сукупностей) може бути поданим у вигляді наступної лінійної моделі

/>                                                                                 (1)

де:

/> – />-е значення угрупі /> (прирівні фактора />);

/> –компонента, що обумовлена рівнем /> фактора /> (факторна компонента);

/> –постійний компонент, що залежить тільки від природи випадкової величини і є незалежнимвід рівня фактора />;

/> –«похибка» лінійної моделі, що подає собою залишок, який утворитьсяпісля вирахування /> і /> з усього результату випробування,тобто випадкова компонента, що враховує вплив усіх інших факторів, крімрозглянутого чинника />.

Модель (1) відображає те, що у формуванні значення /> беруть участь двікомпоненти: факторна і випадкова. Якщо припустити, що випадкова компонентавідсутня і для різних рівнів фактора /> отримано по одному невипадковомузначенню />,/>, />,…, />, то якпоказник впливу фактора можна застосувати нормовану суму квадратів відхилень /> від їхсереднього значення

/>                                                                             (2)

де

/>

Цю величину, подібну до (2), можна назвати дисперсією фактора /> (факторноюдисперсією), хоча вона не є характеристикою випадкової величини.

Порівнюючи цю факторну дисперсію з дисперсією випадкової компоненти, що називаютьдисперсією відтворюваності />, можна зробити висновок прозначущість (чи незначущість) їхньої відмінності.

Якщо факторна дисперсія і дисперсія відтворюваності розрізняютьсязначущо, то слід визнати вплив досліджуваного фактора на результати випробування,а якщо вони розрізняються суттєво, то роблять статистичний висновок про те, щовплив фактора є несуттєвим.

При цьому вивчати вплив фактора /> на наслідки випробувань слід нена результатах окремих дослідів, а на середніх значеннях, отриманих при фіксованихрівнях фактора, тому що дисперсії середніх менше дисперсії самої випадкової величиниі вплив фактора (якщо він є) проявиться більш наочно.

Таким чином, за нульову гіпотезу, що буде перевірятися за допомогоюдисперсійного аналізу, висувається статистична гіпотеза про рівність математичнихсподівань по рівнях фактора />

/>: />                                                                (3)

проти альтернативної гіпотези />: «не менш двох математичнихсподівань є різними».

Припустимо, що для кожного з /> рівнів фактора /> (/>, />, />,…, />) отримано /> значеньвипадкової величини />, що характеризує досліджуванусукупність (усього /> значень). Результати випробуваньподані в таблиці 1.

Обчислимо середнє /> по /> вимірах окремо для кожного рівняфактора, а також загальну середню /> за всіма /> спостереженнями

/>, />                                                                           (4)


Таблиця 1

Номер випробування Рівень фактора

/>

/>

...

/>

...

/>

1

/>

/>

...

/>

/>

2

/>

/>

...

/>

/>

/>

/>/>/>

/>/>/>

...

/>

/>

/>

...

/>

...

/>

/>

/>/>/>

/>/>/>

...

/>

/>

/>

...

/>

...

/>

/>

/>

/>

...

/>

...

/>

Повну суму квадратів відхилень усіхзначень від загальної середньої, при обчисленні якої спільно врахуютьсяфакторна та випадкова компоненти, можна розкласти на суму двох складових, щоподають ці фактори роздільно

/>                                   (5)

Для перетворення цих сум у відповіднідисперсії необхідно їх поділити на відповідні кількості ступенів волі,результати чого представлено в табл. 2, яку називають таблицею однофакторногодисперсійного аналізу.

Таблица 2

Компонента Сума квадратів Число ступенів волі

Дисперсія />

Факторна

/>

/>

/> (6)

Залишкова

/>

/>

/> (7)

Повна

/>

/>

/>

Для того, щоб перевірити тепер нульову гіпотезу про рівність математичнихсподівань за рівнями фактора /> (3), необхідно за критеріємФішера порівняти факторну /> (6) і залишкову дисперсії /> (7).

Для цього проведемо розрахунок статистики критерію

/>

і порівняємо її з критичною точкою при рівні значущості /> і таких ступенях волі

/>, />

/>

Якщо

/>

то нульову гіпотезу приймають, тобто при заданому рівні значущості /> приймаютьрішення про те, що вплив фактора /> можна вважати несуттєвим.

Якщо

/>


то вплив фактора /> визнають значимим.

Отже, метод дисперсійного аналізу складається в перевірці нульової гіпотезипро рівність групових середніх нормальних сукупностей з однаковими дисперсіями.Для цього досить перевірити за критерієм /> нульову гіпотезу про рівністьфакторної і залишкової дисперсій.


2 Поняття про кореляцію і регресію

Оцінка залежності між випадковими величинами та поява можливостіпрогнозувати при цьому значення однієї випадкової величини за значеннями іншоївипадкової величини є важливою проблемою статистичного аналізу.

2.1 Функціональна, статистична і кореляційна залежності

Дві випадкові величини можуть бути незалежними або пов'язаними між собоювизначеною функціональною залежністю, або залежністю особливого типу, щоназивається статистичною (стохастичною).

Статистичною називають залежність, при якій зміна однієї з випадковихвеличин спричиняє зміну розподілу іншої випадкової величини. Статистичназалежність виявляється зокрема в тому, що при зміні однієї з величин змінюєтьсясереднє значення іншої; при цьому статистичну залежність називають кореляційною.

Прикладом такої кореляційної залежності є зв'язок між внесеними в землюдобривами і отриманим врожаєм зерна. Відомо, що твердого функціональногозв'язку між цими величинами немає у зв'язку з впливом безлічі випадковихфакторів (опади, температура повітря й ін.). Однак досвід свідчить, що змінакількості внесених добрив змінює середню врожайність.

2.2 Умовне математичне сподівання,коефіцієнт кореляції і регресія двовимірної випадкової величини в теоріїймовірностей

У теорії ймовірностей при описісистеми двох випадкових величин /> і /> було введено поняття умовногоматематичного сподівання (регресії) для дискретних і для неперервних випадковихвеличин, відповідно


/>

/>

де /> – визначене можливе значеннявипадкової величини />; /> (/>) – можливі значення величини />; /> – відповідніумовні ймовірності; /> – умовна щільність ймовірностівипадкової величини /> при />; /> – функція регресії /> на />

/>                                                                                (8)

– рівняння регресії /> на />.

Аналогічно визначаються умовнематематичне сподівання випадкової величини /> і функція, а також рівняннярегресії /> на/>:

/>                                                                               (9)

Функції /> і /> (рівняння регресії), що уявляютьінтерес, у загальному випадку невідомі, тому їх шукають у наближеному вигляді,причому звичайно обмежуються лінійним наближенням:

/>                                                                            (10)

де /> і /> – параметри, що підлягаютьвизначенню. Найчастіше для цього вживають метод найменших квадратів.

Функцію /> називають «найкращимнаближенням» /> у сенсі методу найменшихквадратів, якщо математичне сподівання

/>                                           (11)

приймає найменше можливе значення.При цьому функцію /> називають середньоквадратичноюрегресією /> на/>.

У теорії ймовірностей доведено, щолінійна середня квадратична регресія /> на /> має вигляд

/>

де

/>, />,

/>, />,

/> – коефіцієнт кореляції величин /> і />,

/> – кореляційний момент цихвеличин.

Можна показати, що кореляційниймомент /> характеризуєзв'язок між величинами /> і />, зокрема, якщо вони незалежні, то

/>

Коефіцієнт

/>

називають коефіцієнтом регресії /> на />, а пряму


/>                                                                       (12)

називають прямою середньоквадратичноїрегресії /> на/>.

При підстановці знайдених значень /> і /> у формулу (11)отримуємо мінімальне значення функції />, що дорівнює

/>

Цю величину називають залишковоюдисперсією випадкової величини /> щодо випадкової величини />. Вонахарактеризує похибку, що виникає під час заміни /> лінійною функцією (10). При /> залишковадисперсія дорівнює нулю, тобто в цих випадках лінійна функція (10) точно подаєвипадкову величину />. Це означає, що при цьому /> та /> пов'язанілінійною функціональною залежністю.

Аналогічний вигляд має і прямасередньоквадратичної регресії /> на />

/>                                                                       (13)

Очевидно, що обидві прямі регресії(12) і (13) проходять через спільну точку />, яка називається центромспільного розподілу величин /> і />. Якщо коефіцієнт кореляції /> дорівнює нулю,то пряма регресії /> на /> (12) є паралельною осі />, а прямарегресії /> на/> (13) –паралельна осі />, тобто вони є взаємноортогональні. Крім того, при /> обидві прямі регресії співпадають.

Таким чином, значення кута міжпрямими регресії (12) і (13) характеризує тісноту зв’язку між випадковимивеличинами: чим менше кут, тим більш тісною є зв’язок.

2.3 Умовне середнє і вибірковарегресія

У математичній статистиці вводятьвибіркові оцінки умовного математичного сподівання і регресії. У якості оцінкиумовного математичного сподівання /> беруть умовне середнє />, яке знаходятьза вибірковими даними спостережень.

Умовним середнім /> називається середнє арифметичнезначень випадкової величини />, що спостерігаються за умови, якавипадкова величина /> при цьому має значення />. Аналогічновизначається і умовне середнє />, однак надалі для стислостівикладення обмежимося в основному розглядом тільки /> і пов'язаними з ним питаннями.

Також як і умовне математичне сподівання />, його вибіркова оцінка є функцієювід змінної />,що позначимо через /> і будемо називати вибірковоюрегресією /> на/>, а їїграфік – вибірковою лінією регресії /> на />. Крім того, за аналогією зрівняннями (8) і (9) вводяться вибіркові рівняння регресії /> на /> і /> на />, відповідно

/>                                                                                       (14)

/>                                                                                       (15)

2.4 Визначення параметрів вибіркового рівняння прямої лінії середньоквадратичноїрегресії за незгрупованих даних

Нехай під час дослідження кількісних ознак (/>, />) у результаті /> незалежних випробуваньотримано /> парчисел: />,/>,...,/>. Будемо шукатифункцію /> влінійному наближенні (все аналогічно проводиться і для функції /> у випадку регресії /> на />). Крім того, уприпущенні незгрупованих даних спостережень (різні значення /> ознаки /> і відповідні їмзначення /> ознаки/> спостерігалисяпо одному разу) /> і /> можна замінити на /> і />. Під час цього рівнянняпрямої лінії регресії /> на /> можна подати у вигляді

/>                                                                                        (16)

Кутовий коефіцієнт /> прямої (16) називається вибірковимкоефіцієнтом регресії /> на /> і позначається />. Він є оцінкоюкоефіцієнта регресії /> в рівнянні (10). Тепер рівняння (16)можна переписати

/>                                                                                      (17)

Підберемо параметри /> і /> так, щоб сума квадратів відхиленьпрямої (17) від точок />,/>,...,/>, побудованих за даними спостережень,була б мінімальною

/>                                                                         (18)

де

/> –ордината, що спостерігається, і є відповідною до />,

/> –ордината точки, що лежить на прямій (17) і має абсцису />,

/>.

Підставивши значення /> з рівняння (17) у формулу (18),одержимо

/>                                                                       (19)

Дорівнявши нулю частинні похідні /> і /> функції (19) одержимо системудвох лінійних алгебраїчних рівнянь щодо параметрів /> і /> для знаходження точки її мінімуму

/>                                                                                  (20)

де

/> , />, />, />

звідкіля остаточно знаходимо

/>

Аналогічно визначається вибіркове рівняння прямої лінії регресії /> на />.


2.5 Знаходження параметрів вибіркового рівняння прямої лінії середньоквадратичноїрегресії за згрупованими даними

При великій кількості спостережень одне й те ж саме значення /> можезустрітися /> раз,значення /> –/> раз, однай та ж пара чисел /> може спостерігатися /> раз. Тому даніспостережень групують, тобто підраховують відповідні частоти />, />, />. Усі згруповані данізаписують у вигляді таблиці, що називають кореляційною.

Приклад такої таблиці приведено нижче (табл. 3).

Таблиця 3

/>

/>

10 20 30 40

/>

0,4 5 – 7 14 26 0,6 – 2 6 4 12 0,8 3 19 – – 22

/>

8 21 13 18

/>

У першому рядку цієї таблиці дано перелік значень (10; 20; 30; 40) ознаки/>, щоспостерігаються, а в першому стовпці – спостерігаємі значення (0,4; 0,6; 0,8)ознаки />.На перетинанні рядків і стовпчиків знаходяться частоти /> пар значень ознак. Наприклад,частота 5 вказує, що пара чисел (10; 0,4) спостерігається 5 разів. Рискаозначає, що відповідна пара чисел, наприклад (20; 0,4), не спостерігається.

В останньому стовпчикові записані суми частот рядків. В останньому рядкузаписані суми частот стовпчиків. У нижньому правому куті таблиці, поміщена сумавсіх частот (загальна кількість всіх спостережень />).

У випадку згрупованих даних з урахуванням очевидних співвідношень


/> , />, />, />

систему рівнянь (20) можна переписати у виправленому вигляді

/>

З рішення цієї системи (/>, />) знаходимо рівняння прямоїрегресії

/>

Шляхом нескладних перетворень його можна переписати у вигляді

/>

де /> ,/>– вибірковісередні квадратичні відхилення величин /> і />

/>                                                                          (21)

– вибірковий коефіцієнт кореляції.

Вибірковий коефіцієнт кореляції. Як відомо з теорії ймовірностей, якщовеличини /> і/> незалежні,коефіцієнт їхньої кореляції />, якщо /> – величини /> і /> пов'язані лінійноюфункціональною залежністю. Тобто коефіцієнт кореляції /> характеризує ступінь лінійногозв'язку між /> і/>.

Вибірковий коефіцієнт кореляції /> є оцінкою коефіцієнта кореляції /> генеральноїсукупності, тому він також характеризує міру лінійного зв'язку між величинами /> і />.


3 Поняття про криволінійну кореляцію

Раніше ми обмежилися лінійним наближенням функцій регресії, рівняньрегресії, відповідно і кореляційного зв'язку. Однак теорію можна узагальнити іна наступні наближення.

Нехай дані спостережень над кількісними ознаками /> і /> зведено до кореляційної таблиці.Тим самим значення />, що спостерігаються, розбито нагрупи; кожна група містить ті значення />, що відповідають визначеному значенню/>. Для прикладарозглянемо кореляційну таблицю 4.

Таблиця4

/>

/>

10 20 30

/>

15 4 28 6 38 25 6 – 6 12

/>

10 28 12

/>

/>

21 15 20

До першої групи відносяться ті 10 значень /> (4 рази спостерігалося значення /> і 6 разів />), щовідповідають />. До другої групи – ті 28 значень /> (28 разівспостерігалося /> і 0 разів />), що відповідають />. До третьоїгрупи відносяться 12 значень /> (6 разів спостерігалося /> і 6 разів />).

Умовні середні тепер можна назвати груповими середніми: групова середняпершої групи

/>

групова середня другої групи

/>

для третьої групи

/>

Оскільки всі значення ознаки /> розбито на групи, можна уявитизагальну дисперсію ознаки у вигляді суми внутрішньо групової і міжгруповоїдисперсій

/>

Можна показати, що, якщо між величинами /> і /> є функціональна залежність, то

/>

якщо ж вони пов'язані кореляційною залежністю, то

/>

Вибіркове кореляційне відношення. Для оцінки ступені тісноти лінійногокореляційного зв'язку між ознаками у вибірці застосовується вибірковий коефіцієнткореляції (21). У разі нелінійного кореляційного зв'язку з тою ж метоювводяться нові узагальнені характеристики:

/> –вибіркове кореляційне відношення /> до />;

/> –вибіркове кореляційне відношення /> к./>

Вони визначаються за формулами:

/> , />

еще рефераты
Еще работы по экономико-математическому моделированию