Реферат: Доверительный интервал. Проверка статистических гипотез

Доверительный интервал.

Проверка статистических гипотез


1. Доверительныйинтервал

 

Точечные оценкиявляются приближенными, так как они указывают точку на числовой оси, в которойдолжно находиться значение неизвестного параметра. Однако оценка являетсяприближенным значением параметра генеральной совокупности, которая при разныхвыборках одного и того же объема будет принимать разные значения, поэтому вряде задач требуется найти не только подходящее значение параметра а, но и определитьего точность и надежность.

Для этого в математическойстатистике используется два понятия – доверительный интервал и доверительнаявероятность. Пусть для параметра а из опытных данных получена несмещеннаяоценка /> Требуется определитьвозможную при этом величину ошибки и вероятность того, что оценка не выскочитза пределы этой ошибки (надежность).

Зададимся некоторойвероятностью b (например, b = 0,99) и найдем такое значение e > 0, для которого

/>

Представим это выражение ввиде

/>

Это значит, что свероятностью b точноезначение параметра а находится в интервале  le<sub/>/>

/>                                                                               le

 

                                                         />

Здесь параметр а –неслучайная величина, а интервал  le  является случайным, так как /> -случайная величина.  Поэтому вероятность b лучше толковать, как вероятность того, что случайныйинтервал le накроет точку а. Интервал le  называют доверительным интервалом, а вероятность b — доверительной вероятностью(надежностью).

Пример.  Если приизмерении какой-то величины Х указывается абсолютная погрешность Dх, то это, по существу, означает, чтопогрешность измерения, являясь случайной величиной, равномерно распределена винтервале (-Dх, Dх) и /> гдеХ* — измеренная величина, а х – ее точное значение.  Здесь b = 1, e = Dх и  le = (x*- Dх, x* + Dх).

1.1 Доверительныйинтервал для математического ожидания

В качестве еще одногопримера рассмотрим задачу о доверительном интервале  для математическогоожидания.  Пусть проведено n независимыхопытов измерения случайной величины Х с неизвестным математическим ожиданием mx и дисперсией s2.  На основании опытных данных Х1, Х2,…, Хn построим выборочные оценки

/>

Требуется построить(найти) доверительный интервал le, соответствующий доверительной вероятности b, для среднего генерального mx.

Так как среднеевыборочное /> представляет сумму n независимых одинаково распределенныхслучайных величин /> то придостаточно большом  объеме выборки согласно центральной предельной теоремы еезакон близок к нормальному.  Существует эмпирическое правило, по которому приобъеме выборки   n ³ 30 выборочное распределение можемсчитать нормальным.

Ранее было показано, что />  Найдем теперь такуювеличину e(b) > 0,  для которой выполняетсяравенство

/>

Считая случайную величину/> нормально распределенной,имеем

/>

После замены   /> имеем

/>

По табличным значениямфункции Лапласа Ф*(z) находимаргумент, при котором она равна b.  Если этот аргумент обозначить Zb, то тогда

/>

Среднее квадратичноезначение /> приближенно можно заменить

/>  />  где />

Таким образом,доверительный интервал для среднего генерального равен:


le = /> 

Если пользоватьсятабличными значениями интеграла вероятностей

/>

то доверительный интервалпринимает вид

le = />

 

1.2 РаспределениеСтьюдента

При малом объеме выборки(n < 30) полученный доверительныйинтервал для среднего генерального, использующий нормальное распределениеслучайной величины />, может бытьочень грубым.

Для более точногополучения доверительного интервала необходимо знать закон распределенияслучайной величины /> при малом объемевыборки.  Для этого воспользуемся следующим результатом.  Пусть Х1,Х2,…, Хn– выборка нормально распределенной случайной величины Х, тогда, как доказано,случайная величина

/>

подчиняется распределениюСтьюдента c  n – 1 степенью свободы, плотность распределения которого имеетвид

/>

где /> - гамма функция.  Этаплотность, как видно из формулы, зависит только от числа опытов n.  Ниже представлены графикиплотностей нормированной (mx = 0,  s =1) нормально распределенной и с распределением Стьюдента (n = 4) случайных величин.

/>


нормальное распределение

                                                         f

/>                                                      

/>

 распределение  Стьдента

                                                         0,4

                                                       0,3

                                                       0,2

                                                       0,1

                     -4  -3   -2   -1           1     2     3    4            t

На основании найденных />  можно, пользуясьраспределением Стьюдента, найти доверительный интервал для mx, соответствующий доверительнойвероятности b. Действительно, так как /> то

/>

/>


Пользуясь таблицейзначений интеграла

/>

по значению  b  найдем величину  />  а следовательно, и самдоверительный интервал  le = />


2. Проверкастатистических гипотез

 

Принятие решения опараметрах генеральной совокупности играет исключительно важную роль напрактике. Рассмотрим вопрос о принятии решения на примере. Пусть фирма,выпускающая конденсаторы, утверждает, что среднее пробивное напряжениеконденсаторов равно или превышает 300 В. Испытав 100 конденсаторов, мыполучили, что среднее выборочное пробивное напряжение равно 290 В, анесмещенное выборочное среднее квадратичное отклонение sn = 40 В. Можно ли с доверительнойвероятностью 0,99 утверждать, что среднее пробивное напряжение превышает 300 В.

Здесь нас интересуетодносторонняя оценка – среднее пробивное напряжение должно превышать 300 В.

Выскажем статистическуюгипотезу – генеральное среднее mx = 300 В, а затем проверим, соответствует ли она результатам наблюдения. Поскольку объем выборки больше 30, то выборочное среднее можно считатьгауссовской случайной величиной с генеральной дисперсией  s2 » sn2.  Введем центрированную и нормированную величину

/>

Утверждение о том, чтосреднее выборочное напряжение /> эквивалентноутверждению, что случайная величина

/>

Найдем вероятность того,что гауссовская случайная величина Z с mz = 0 и  sz = 1 принимает значения больше zo:

/>

Эта величина должнаравняться доверительной вероятности  0,99. Тогда /> ипо таблицам значений функции  /> находимаргумент zo<sub/>= -2,33.  Вычислим теперь наблюдаемое значение случайной величины Z:

/>

Мы видим, что наблюдаемоезначение z = — 2,5  нe принадлежит интервалу [-2,33;¥), поэтому гипотезу нужно отвергнуть.

Приведем пример гипотезыс двухсторонней оценкой.  Пусть фирма, выпускающая стабилитроны определенноготипа, утверждает, что номинальное напряжение стабилизации стабилитронов равно10 В.  Естественно, что отклонение напряжения стабилизации в меньшую илибольшую стороны одинаково нежелательно.  Выдвинем гипотезу, что генеральноесреднее напряжение стабилизации равно 10 В, а затем проверим эту статистическуюгипотезу по результатам наблюдения.

Пусть при испытании 100стабилитронов среднее выборочное равно 10,3 В, а несмещенное выборочное среднееквадратичное отклонение равно 1,2 В. Можно ли с доверительной вероятностью 0,95считать выдвинутую  гипотезу справедливой?  Так как объем выборки больше 30, томожно, как и в предыдущем примере, ввести гауссовскую случайную величину Z.  Найдем

/>

и приравняем правую частьполученного соотношения 0,95.  Тогда /> и zo=1,96.  Это значит, что наблюдаемое значение  z должно принадлежать интервалу(-1,96; 1,96).  Поскольку  />/> не попадает в указанныйинтервал, то гипотеза отвергается.

Если объем выборки n < 30, то случайная величина /> cчитается стьюденской  случайной величиной T.  Поэтому повторяя все указанныевыше выкладки для проверки статистических гипотез, значения аргумента ищутсядля распределения Стьюдента.  При этом, так как «хвосты» стьюденскогораспределения по отношению к гауссовским удлиняются, доверительные интервалырасширяются, а возможности принятия гипотез улучшаются.


3. Функцияриска

доверительныйинтервал вероятность статистическая гипотеза

Пусть имеются  двепротивоположные гипотезы Но и Н1 и некоторая связанная сними случайная величина Y.  Ипусть у — значение случайной величины Y, полученное в результате испытаний, которое принадлежит множеству D — множество всех значений случайнойвеличины Y. Требуется провести проверку гипотезыНо относительно конкурирующей гипотезы Н1 на основаниирезультатов испытания.

Разобьем множество D на две части — Dо и D1 с условиемпринятия гипотезы Но при попадании полученного значения у в Dо и  гипотезы Н1 — при попадании у в D1.  Выбор решающего правила, то естьразбиение множества D<sub/>на двечасти Dо и D1 в любойзадаче проверки гипотез возможен больше, чем одним способом. Возникает вопрос,какое из этих разбиений в каждой конкретной задаче считать наилучшим?  Чтобырешить поставленную задачу нужно обладать некоторой дополнительнойинформацией.  Такая информация носит название априорной.

Будем считать известнымидва условных распределения вероятностей случайной величины Y:

/> - плотность распределения случайнойвеличині Y при условии, что верна гипотеза Но;

/> - плотность распределения случайнойвеличині Y при условии, что верна гипотеза Н1;

Кроме того нампотребуется априорная вероятность р того, что гипотеза Но имеетместо.

Введем в рассмотрениесобытия:

А – верна гипотеза Но,тогда  р = р(А);

/> – верна конкурирующая гипотеза Н1,тогда   р(/>) = 1 — р;

В – в результатеэксперимента значение у  попало в интервал Dо;

/> – в результате эксперимента значениеу  попало в интервал D1.

Тогда по результатамэксперимента возможны только четыре события:

АВ – верна гипотеза Но и принято решение о ее истинности;

/>В – верна гипотеза Н1, апринято решение о истинности гипотезы Но;

А/> – верна гипотеза Но,а принято решение о истинности гипотезы Н1;

/>/> – верна гипотеза Н1 ипринято решение о ее истинности.

Ясно, что события  />В и А/> определяют ошибочныерешения.  Событию />В соответствуеттак называемая ошибка первого рода, а событию А/> -ошибка второго рода.

Для ответа на вопрос,какое из решающих правил следует считать лучшим, введем понятие функции потерьи функцию риска.

Функция потерь –дискретная случайная величина С, которая каждому из событий АВ, />В,  А/>, />/> ставит в соответствиепотери  />, выраженные в каких-тоединицах.  Правильному решению естественно положить нулевые потери, а ошибкампервого и второго ряда положить соответственно положительные потери (числа) С1и С2, которые нужно задать.

Пусть  ро =р(АВ или />/>),  р1 = р(/>В),  р2 = р(А/>).  Определение значенийэтих вероятностей будет проведено ниже.  Ряд распределения для случайнойвеличины С имеет вид

С

с1

с2

р

ро

р1

р2

Определение. Математическое ожидание М(С) случайной величины С называется функцией риска иобозначается буквой r. 

Таким образом,  r = М(С) = 0 ро + с1р1 + с2 р2 = с1 р1 + с2р2.

Введение функции рискаприводит к естественному выбору решающего правила. Из двух правил лучшимсчитается то, которое приводит к меньшему риску.  Для нахождения минимума функциириска найдем вероятности  р1 и  р2:

/>

/>

Тогда      

/>

/>

/>

Для того, чтобы интегралбыл минимальным, а значит и минимальное значение принимала функция риска r,  нужно в состав Dо включить только те у, в которых подыинтегральная функция 

С1 (1-р) f1(y) – p C2 fo(y) < 0,

а в состав D1 — остальные значения у.

Последнее неравенствоможно записать в виде

/>

Функция f1(y)/fo(y)  называется отношением правдоподобия.

Итак,оптимальное решающее правило заключается в следующем: полученное в результатеэксперимента значение у подставляется в отношение правдоподобия f1(y)/fo(y)  и сравнивается с числом

l = />

еслиполученное в результате вычисления число f1(y)/fo(y)  меньше l, принимается гипотеза Но;в противном случае – гипотеза Н1.

Величинаl носит название порога, а оптимальное решающее правилоносит название порогового критерия оптимальности.

еще рефераты
Еще работы по экономико-математическому моделированию