Реферат: Лекции по математической статистике

--PAGE_BREAK--Свойства среднего


1. Сумма всех n-отклонений от значения среднего должно быть равно нулю, то есть: <img width=«79» height=«47» src=«ref-1_291186994-342.coolpic» v:shapes="_x0000_i1035">

2. Если константу прибавить к каждому значению, то среднее увеличивается на ту же константу.
3. Если каждое значение умножить на константу, то среднее то же будет умножено на эту константу.
4. Сумма квадратов отклонений значений от их среднего меньше суммы квадратов отклонений от любой другой точки, то есть: <img width=«189» height=«47» src=«ref-1_291187336-475.coolpic» v:shapes="_x0000_i1036">
Средняя медиана и мода для объединенных групп
<img width=«21» height=«25» src=«ref-1_291187811-209.coolpic» v:shapes="_x0000_i1037">  — среднее для каждого класса, <img width=«21» height=«25» src=«ref-1_291188020-209.coolpic» v:shapes="_x0000_i1038">  — количество учащихся

Среднее общее группы:

<img width=«187» height=«52» src=«ref-1_291188229-522.coolpic» v:shapes="_x0000_i1039">

Для определения моды и медианы объединенной группы необходимы конкретные значения измерений.

Мода – это такое число в группе, с которым совпадает наибольшее количество значений в группе.

Медиана – это такая точка на числовой оси, для которой сумма абсолютных значений разности всех значений меньше суммы разностей для любой другой точки. Если именно так определять понятие ошибки, то медиана дает минимальную ошибку. Если же ошибка определяется как сумма квадратов разностей, то минимальную ошибку дает среднее.
Выбор меры центральной тенденции
·        В малых группах мода очень нестабильна;

·        На медиану не влияет величины очень больших и очень малых значений;

·        На величину среднего влияет каждое значение;

·        Некоторые множества данных не имеют меры центральной тенденции. Такая ситуация близка к бимодальной гистограмме или U-образной;

·        Центральная тенденция групп, содержащая крайние значения наилучшим образом представляется в том случае, если гистограмма унимодальна;

·        Если гистограмма симметрична и унимодальна, то средняя мода и медиана совпадают.
Другие меры центральной тенденции

Среднее геометрическое: <img width=«128» height=«31» src=«ref-1_291188751-339.coolpic» v:shapes="_x0000_i1040">;                 Среднегармоническое: <img width=«88» height=«76» src=«ref-1_291189090-381.coolpic» v:shapes="_x0000_i1041">

Меры изменчивости – второй момент характеризующий данные
          Для оценки меры неоднородности (разброса, изменчивости), в группе вводят специальные меры, с помощью которых после их исследования можно уменьшить изменчивость данных. Первая из мер изменчивости называется размахом.

          Размах – это разность максимального и минимального значений в группе.

          Включающий размах – это разность между естественной верхней границей интервала, включая наибольшее значение, и естественной нижней границей, включая наименьшее значение интервала. <img width=«184» height=«25» src=«ref-1_291189471-426.coolpic» v:shapes="_x0000_i1042">. Включающий размах отличается от исключающего на единицу.

          Размах от 90-го до 10-го процентеля: D
=
P
90

P
10
. Эта мера более стабильна, чем предыдущая, так как на нее влияет множество значений.

          Полу-междуквантильный размах: <img width=«95» height=«47» src=«ref-1_291189897-349.coolpic» v:shapes="_x0000_i1043">, Qиспользуется в распределениях, которые симметричны относительно медианы и среднего, для корректировки границ.

          Дисперсия. Каждая из предыдущих мер возрастает с ростом рассеяния и уменьшается однородностей. Дисперсию, в отличие от предыдущих мер, используют при вычислении каждого из полученных измерений. Вычисляются значения отклонений <img width=«48» height=«25» src=«ref-1_291190246-226.coolpic» v:shapes="_x0000_i1044"> и чтобы при суммировании <img width=«89» height=«51» src=«ref-1_291190472-394.coolpic» v:shapes="_x0000_i1045">не потерять величины этих отклонений, разница возводится в квадрат, поскольку мы оцениваем отклонение каждого измерения, делим на количество измерений. Обозначается дисперсия как <img width=«23» height=«27» src=«ref-1_291190866-228.coolpic» v:shapes="_x0000_i1046">.

<img width=«680» height=«49» src=«ref-1_291191094-1253.coolpic» v:shapes="_x0000_i1047">

Для  вычисления дисперсии не нужно вычислять среднее.

Дисперсия при сгруппированных данных вычисляется по такой же формуле, но <img width=«44» height=«25» src=«ref-1_291192347-241.coolpic» v:shapes="_x0000_i1048">

<img width=«271» height=«57» src=«ref-1_291192588-725.coolpic» v:shapes="_x0000_i1049">

iизменяется от 1 до k, где k
– количество разных значений <img width=«67» height=«47» src=«ref-1_291193313-320.coolpic» v:shapes="_x0000_i1050">.

          Стандартное отклонение: <img width=«183» height=«72» src=«ref-1_291193633-556.coolpic» v:shapes="_x0000_i1051">

Для унимодальных симметричных распределений почти 70% значений лежит в интервале <img width=«49» height=«25» src=«ref-1_291194189-243.coolpic» v:shapes="_x0000_i1052">.
Свойства дисперсии:
1. Влияние на дисперсию увеличения каждого значения на какую либо константу:

<img width=«164» height=«52» src=«ref-1_291194432-464.coolpic» v:shapes="_x0000_i1053">, после выполнения математических операций убеждаемся, что дисперсия не изменяется.
2. Изменение дисперсии при умножении каждого исходного значения на константу:

<img width=«377» height=«48» src=«ref-1_291194896-690.coolpic» v:shapes="_x0000_i1054">, то есть дисперсия увеличивается на квадрат константы.

3. Дисперсия объединенной группы:

<img width=«477» height=«55» src=«ref-1_291195586-884.coolpic» v:shapes="_x0000_i1055">

где:

<img width=«133» height=«52» src=«ref-1_291196470-424.coolpic» v:shapes="_x0000_i1056">

<img width=«21» height=«25» src=«ref-1_291188020-209.coolpic» v:shapes="_x0000_i1057">  — количество значений группы А, для Б аналогично

<img width=«21» height=«25» src=«ref-1_291187811-209.coolpic» v:shapes="_x0000_i1058">  — среднее группы А, для Б аналогично
          Среднее отклонение – это совокупность отклонений каждого значения от среднего, взятого по модулю:

<img width=«120» height=«68» src=«ref-1_291197312-411.coolpic» v:shapes="_x0000_i1059">

          Очень проста в вычислениях, но редко используется, ввиду того, что нет теоретического обоснования.
Стандартизованные данные
          Часто появляется потребность оценить положение какого-либо конкретного значения по отношению к среднему в единицах стандартного отклонения

<img width=«87» height=«52» src=«ref-1_291197723-330.coolpic» v:shapes="_x0000_i1060">

          Любое множество данных можно преобразовать в такое множество, у которого среднее равно нулю, а стандартное отклонение равно единице.

<img width=«289» height=«53» src=«ref-1_291198053-626.coolpic» v:shapes="_x0000_i1061">

<img width=«373» height=«72» src=«ref-1_291198679-945.coolpic» v:shapes="_x0000_i1062">
          Значение стандартизованных данных Z
позволяют преобразовать множество x
в произвольную шкалу с удобными характеристиками среднего и стандартизованного отклонения. Сами оценки  Z  могут быть отрицательными или содержать дроби. Мы избавимся от этих шероховатостей, умножая стандартизованные данные на константу и прибавляем к ним константу.

с
z
– будет иметь стандартное отклонение

<img width=«52» height=«20» src=«ref-1_291199624-247.coolpic» v:shapes="_x0000_i1063">, где с, d– константы – будут иметь среднее равное d.
Третий момент

         

Асимметрия– это свойство распределения частот. На практике симметричные полигоны и гистограммы не встречаются и чтобы выявить и оценить степень асимметрии, вводят следующую меру:

<img width=«147» height=«56» src=«ref-1_291199871-460.coolpic» v:shapes="_x0000_i1064">

В единицах стандартного отклонения асимметрия равна:

<img width=«84» height=«49» src=«ref-1_291200331-339.coolpic» v:shapes="_x0000_i1065">

Асимметрия бывает положительной и отрицательной. Положительная сдвигается влево, а отрицательная – вправо.

Чтобы упростить вычисление Assможно использовать следующую формулу:

<img width=«123» height=«52» src=«ref-1_291200670-399.coolpic» v:shapes="_x0000_i1066">

          Асимметрия в этом уравнении принимает значения от –3 до +3
Четвертый момент

<img width=«145» height=«56» src=«ref-1_291201069-451.coolpic» v:shapes="_x0000_i1067">

          Эксцесс– это мера крутости кривой распределения. Унимодальная кривая распределения может быть островершинной, плосковершинной, средне вершинной.

          Эксцесс для стандартных данных:

<img width=«81» height=«49» src=«ref-1_291201520-334.coolpic» v:shapes="_x0000_i1068">

Характер распределения

Величина эксцесса

Нормальное

Островершинное

Плосковершинное

3

больше 3 и может быть очень большим

больше нуля, но меньше 3



          Эти четыре момента составляют набор особенностей распределения при анализе данных.
Нормальное распределение
          Нормальное распределение лучше всего описывается кривой созданной ДеМуавром по следующей формуле:

<img width=«131» height=«53» src=«ref-1_291201854-414.coolpic» v:shapes="_x0000_i1069">

где U– высота кривой над осью x, tи μ – числа, которые определяют положение кривой относительно числовой оси и регулируют ее размах. Для μ=0, t
=1
график принимает вид:

<img width=«253» height=«90» src=«ref-1_291202268-1499.coolpic» v:shapes="_x0000_s1026 _x0000_s1027 _x0000_s1028 _x0000_s1029 _x0000_s1030 _x0000_s1031 _x0000_s1032 _x0000_s1033 _x0000_s1034 _x0000_s1035 _x0000_s1036 _x0000_s1037 _x0000_s1038 _x0000_s1039 _x0000_s1040 _x0000_s1041 _x0000_s1042 _x0000_s1043 _x0000_s1044 _x0000_s1045 _x0000_s1046 _x0000_s1047">          Эта кривая при μ=0, t
=1
получила статус стандарта, ее называют единичной нормальной кривой, то есть любые собранные данные стремятся преобразовать так, чтобы кривая их распределения была максимально близка к этой стандартной кривой. Созданы статистические таблицы со значениями площади под единичной нормальной кривой влево от любой точки на оси zв (-3; 3). Общая площадь под кривой равна 1. И все остальные площади рассматривают как процент от целого.
Свойства нормальных кривых:

Семейство нормальных кривых включают в себе все кривые, которые можно получить по данной формуле, отличающиеся друг от друга только парой значений tи μ .

1. 68% площади лежит в интервале <img width=«45» height=«23» src=«ref-1_291203767-228.coolpic» v:shapes="_x0000_i1070">

2. 95% площади лежит в интервале <img width=«55» height=«24» src=«ref-1_291203995-248.coolpic» v:shapes="_x0000_i1071">

3. 99,7% площади лежит в интервале <img width=«53» height=«24» src=«ref-1_291204243-243.coolpic» v:shapes="_x0000_i1072">

          Если xимеет нормальное распределение со средним μ и стандартным отклонение t, то z
равное <img width=«85» height=«48» src=«ref-1_291204486-302.coolpic» v:shapes="_x0000_i1073"> характеризуется распределением со средним равным нулю и стандартным отклонением равным 1. Площадь между двумя значениями xв нормальном распределении равна площади между uxстандартизованными величинами в единичном нормальном распределении. Нормализованную кривую изобрели для решения задач теории вероятности, но оказалось на практике, что она отлично аппроксимирует распределение черт при большом числе наблюдений для множества переменных. Можно предположить, сто не имея материальных ограничений на количество объектов и время проведения эксперимента, статистическое исследование приводило к нормально кривой.
Двумерное нормальное распределение
          Если при исследовании появляется вопрос о связи между двумя переменными для одного и того же объекта (например, рост и интеллект) мы говорим о двумерных связях и результаты эксперимента находят свое отражение в двумерном распределении частот.

          Уравнение поверхности называется двумерным нормальным распределением (гладкая непрерывная колоколообразная поверхность)
Характеристики нормального распределения

·        Распределение значений xбез учета значений yесть нормальное распределение;

·        Распределение значений yбез учета значений x, тоже нормальное распределение;

·        Для каждого фиксированного значения xзначение yдают  нормальное распределение с дисперсией <img width=«28» height=«29» src=«ref-1_291204788-225.coolpic» v:shapes="_x0000_i1074">;

·        Для каждого фиксированного значения y
значение x
распределяется нормально с  дисперсией <img width=«27» height=«28» src=«ref-1_291205013-225.coolpic» v:shapes="_x0000_i1075">;

·        Среднее значения yдля каждого отдельного значения xложатся на переменную.
Меры изменчивости
          При решении вопроса о наличии взаимосвязи (корреляции) между двумя переменными, руководствуются несколькими коэффициентами. Связь, выраженная графически, называется диаграммной рассеивания, где x– оценка IQ, y– оценка теста по математике.

          Положение каждого объекта на диаграмме распределения определяется парой значений xi
,
yi
и выражаются по отношению к мере центральной тенденции величинами <img width=«59» height=«25» src=«ref-1_291205238-271.coolpic» v:shapes="_x0000_i1076">, <img width=«61» height=«25» src=«ref-1_291205509-270.coolpic» v:shapes="_x0000_i1077">. Если объект имеет высокие показатели по обеим переменным, то эти величины получаются большими и положительными, в противном случае, если xi
,
yi
 малы, то разность большой и отрицательной.

          В дальнейшем будем говорить о произведении этих разностей и в том случае когда наблюдается прямая связь между этими переменными, произведение будет большим и положительным, следовательно такой же будет и сумма этих произведений <img width=«135» height=«47» src=«ref-1_291205779-412.coolpic» v:shapes="_x0000_i1078">.

          В случае обратной связи, когда большим значениям yi
соответствуют малые значения xi
и наоборот, в этом случае произведение разностей будет большим и отрицательным и сумма разностей также будет большой и отрицательной.

          Если между переменными не наблюдается какой-либо связи, количество положительных и отрицательных произведений примерно рано и сумма их близка к нулю. Таким образом большая положительная сумма – жесткая прямая зависимость; большая отрицательная сумма – сильная обратная зависимость; близость к нулю – отсутствие зависимости.

          Недостатком этой меры является то, что ее величина зависит от числа пар переменных xучаствующих в расчетах.

          Чтобы избежать связь независимого состояния Vгрупп, мы усредняем эти значения:

<img width=«183» height=«49» src=«ref-1_291206191-480.coolpic» v:shapes="_x0000_i1079">  — ковариация

          Частный случай, ковариация переменной с самой сабой – дисперсия

          Чтобы избавить меру связи от отклонений двух групп значений:

<img width=«81» height=«56» src=«ref-1_291206671-350.coolpic» v:shapes="_x0000_i1080">  — коэффициент кореляции Пирсона или произведение моментов.

<img width=«311» height=«59» src=«ref-1_291207021-916.coolpic» v:shapes="_x0000_i1081">

          Значение коэффициента Пирсона не может выйти за границы интервала (-1; 1).
Влияние линейного преобразования переменных на коэффициент кореляции
          Вместо xiвводим в формулу bx
+
a, где a, b
– коэффициенты, для yiвводим в формулу dy
+
c, где c, d
– коэффициенты.

<img width=«596» height=«49» src=«ref-1_291207937-1055.coolpic» v:shapes="_x0000_i1082">

<img width=«405» height=«56» src=«ref-1_291208992-894.coolpic» v:shapes="_x0000_i1083">
<img width=«89» height=«29» src=«ref-1_291209886-306.coolpic» v:shapes="_x0000_i1084">

<img width=«155» height=«56» src=«ref-1_291210192-499.coolpic» v:shapes="_x0000_i1085">
          Вопрос о кореляции между переменными будучи решен положительно не означает наличия более общего вида связи (заработная плата учителям и количество поступивших в ВУЗы после окончания школы). Если мы проводим идентификацию групп с различным средним, наличие кореляции не исключено, но возможно другое объяснение взаимосвязи, чем вытекающее их эксперимента. Отсутствие связи при нулевом коэффициента Пирсона означает всего лишь отсутствие линейной связи.
Дисперсия суммы и разности переменных
<img width=«347» height=«52» src=«ref-1_291210691-697.coolpic» v:shapes="_x0000_i1086">

<img width=«157» height=«29» src=«ref-1_291211388-395.coolpic» v:shapes="_x0000_i1087">

<img width=«408» height=«29» src=«ref-1_291211783-694.coolpic» v:shapes="_x0000_i1088">
Предсказание и оценивание
          Переменная, которую мы хотим оценить называется зависимой переменной или откликом, обозначим ее через y.

          Переменная которую мы используем для оценки называется независимой переменной или фактором, ее обозначим через x.

          Конкретная характеристика (переменная x) имеющаяся в нашем распоряжении, позволяет получить до проведения эксперимента значение y, зависимой переменной. Мы получаем <img width=«93» height=«25» src=«ref-1_291212477-312.coolpic» v:shapes="_x0000_i1089"> используя xiи коэффициенты b
1
и b
.

          Даже при наилучшем линейном предсказании, предсказание <img width=«16» height=«25» src=«ref-1_291212789-215.coolpic» v:shapes="_x0000_i1090"> будет отличаться от реального yiна какую-то величину, которую мы назовем ошибкой оценки и обозначим ei:

<img width=«124» height=«25» src=«ref-1_291213004-344.coolpic» v:shapes="_x0000_i1091">

          Точность предсказания зависит от того, насколько удачно подобраны коэффициента b
1
и b
. Критерием успешности подбора коэффициентов является минимальная величина суммы квадратов всех ошибок оценки <img width=«40» height=«47» src=«ref-1_291213348-292.coolpic» v:shapes="_x0000_i1092">– критерий наименьших квадратов

Другой критерий: <img width=«43» height=«47» src=«ref-1_291213640-291.coolpic» v:shapes="_x0000_i1093">. Этот критерий приводит к медианой линии регрессии. Из уравнения <img width=«84» height=«25» src=«ref-1_291213931-293.coolpic» v:shapes="_x0000_i1094"> следует <img width=«165» height=«25» src=«ref-1_291214224-398.coolpic» v:shapes="_x0000_i1095">

Исходя из минимизации формулы наименьших квадратов найдем формулы:

<img width=«185» height=«55» src=«ref-1_291214622-630.coolpic» v:shapes="_x0000_i1096">;          <img width=«91» height=«25» src=«ref-1_291215252-292.coolpic» v:shapes="_x0000_i1097">

          Наше исследование получается наиболее результативным, если мы предполагаем, что фактор и отклик имеют двумерные нормальные распределения.
    продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по математике