Лекция: Критерии χ2 (хи квадрат), λ (лямбда).

Критерий χ2предложен Карлом Пирсоном и применяется во всех случаях, когда необходимо определить степень отличия фактического распределения частот от теоретического. Определяется величина χ2 по следующей формуле:

тде f – эмпирическая частота; – теоретическая частота.

Современные способы, использования критерия χ2 отличаются от тех, которые были предложены автором критерия, и тех его модификаций, которые были разработаны в первой половине двадцатого века.

Критерий χ2, или критерий согласия (подобия), используется для оценки степени соответствия эмпирических данных определенным теоретическим предпосылкам, нулевой гипотезе (Но).

Гипотеза опровергается, если χ2факт ≥ χ2теор, и не опровергается, если χ2факт < χ2теор. Когда фактические и теоретически ожидаемые частоты полностью совпадают, χ2 = 0.

Следует обратить внимание на то, что при определении различий между эмпирическим и теоретическим распределениями требуется обратный порядок планирования порогов вероятности безошибочных прогнозов.

В таких исследованиях чем выше ответственность, тем при меньшем расхождении распределений различие уже считается достоверным, и, наоборот, чем менее ответственно исследование, тем при большем расхождении распределений различие между ними все еще может считаться недостоверным.

Это различие в планировании порогов достоверности показано в таблице 8.2.

Таблица 8.2 – Три порога вероятности безошибочных прогнозов

Пороги Минимальная вероятность безошибочных прогнозов Ответственность исследований
В обычных биологических работах При анализе расхождений эмпирических и теоретических распределений
I β1=0,95 Обычная Повышенная
II β2=0,99 Повышенная Обычная
III β3=0,999 Высокая Пониженная

 

Таким образом, при оценке различий между эмпирическими и теоретическими распределениями в большинстве биологических работ следует устанавливать не первый, а второй порог вероятности.

Первый порог (β1 ≥ 0,95) будет излишне строгим для обычных биологических работ, но для очень ответственных исследований придется устанавливать эту пограничную вероятность и даже еще меньшую, например β ≥ 0,93, β ≥ 0,90.

Равнение на третий порог (β3 ≥ 0,999) можно допускать только в первых ориентировочных наблюдениях, так как при таком пороге нормальными распределениями будут считаться такие, которые уже сильно от него отличаются.

Еще одно важное отличие, касающееся минимально допустимых теоретических частот в крайних классах распределения, которые следует объединять в один общий крайний класс.

После того как будет найдено эмпирическое значение χ2, надо произвести его оценку путем сравнения со стандартными значениями этого критерия для числа степени свободы ν2 = r2 – 3 и трех порогов вероятности безошибочных прогнозов.

При определении числа степеней свободы в нормальном распределении данных по классам следует помнить, что в данном случае (нормальное распределение) имеются три ограничения: определенный объем всей группы (n), определенная средняя (μ), от которой берутся центральные отклонения, и определенная сигма (σ), по которой производится нормирование центральных отклонений средин классов.

Поэтому число степеней устанавливается следующим образом.

8 Определяется первое число степеней свободы, равное имеющемуся числу классов без трех: ν1 = r1 – 3

9 По первому числу степеней свободы устанавливается минимально допустимая теоретическая частота крайних классов.

10 Классы с малыми (меньше минимально допустимых) теоретическими частотами объединяются в один общий крайний класс; при этом получается второе, уменьшенное число классов: r2.

11 Устанавливается окончательное число степеней свободы, равное уменьшенному числу классов без трех: ν2 = r2 – 3.

 

Критерий λ предложен советскими учеными
А. Н. Колмогоровым и Н. В. Смирновым и может применяться для определения достоверности расхождения между фактическими и теоретическими распределениями, а также различий между любыми двумя распределениями частот одного и того же признака даже в том случае, когда число классов и число данных у этих распределений неодинаково. Для применения критерия лямбда не требуется определять число степеней свободы и не нужны таблицы для определения трех стандартных значений критерия, так для любого числа классов эти предельные значения одинаковы: 1,36 1,63; 1,95 и соответствуют обычным трем степеням вероятности достоверного различия: β1 = 0,95; β2 = 0,99; β2 = 0,999. Единственным условие применения критерия лямбда является достаточная численность сравниваемых распределений – не менее нескольких десятков данных.

Для сравнения эмпирического распределения с теоретическим при одинаковом числе классов и при одинаковой общей численности групп критерий лямбда определяется по формуле: где |d|max – максимальная разность (без учета ее знака) между накопленными частотами в эмпирическом и теоретическом распределениях для одного и того же класса;

n – общее число данных, образовавших эмпирическое распределение.

Для определения критерия лямбда требуется составить ряды накопленных частот для обоих сравниваемых распределений и, взять наибольшую разность (без учета ее знака) между этими величинами и полученную разность разделить на .

Эмпирический критерий оценивается по трем постоянным стандартным значениям: 1,36 – 1,63 – 1,95. При этом применяется такой же обратный порядок порогов достоверности расхождения, как и при использовании критерия χ2.

Для выяснения достоверности различия между двумя любыми распределениями частот одного и того же признака при неодинаковом числе данных и классов критерий лямбда вычисляется по формуле:– суммы накопленных частот по каждому классу первого распределения (начиная с меньшего), деленные на общее число данных;

– то же по второму распределению;

– максимальное абсолютное значение (без учета знака) разности частных от деления накопленных частот на численности групп по каждому классу, начиная с наименьшего;

n1, n2 – общее число данных по первому и второму распределениям.

Дискриминантный анализ. Постановка задачи, методы решения, ограничения. Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т.д.

Типичные области применения дискриминантного анализа – биология, медицина, управление производством, экономика, геология, контроль качества.

В медицине объектом исследования является пациент, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет, например, необходимо ли хирургическое вмешательство при лечении.

В управлении производством принимается решение по отнесению поступающего сырья или продукции к одному из нескольких типов.

В экономике важно решение по отнесению клиента к определенному классу при выдаче кредита.

Чрезвычайно интересно применение дискриминантного анализа в борьбе с терроризмом. Последствия действий против террористов могут привести к одному из двух результатов: успешное освобождение заложников и случаи, когда заложники пострадали. Здесь имеются следующие дискриминантные переменные: число террористов, степень поддержки, количество оружия и т.д.

Очевидно, лицам, ведущим переговоры, важно классифицировать возникшую ситуацию, с тем, чтобы определить свои действия.

Широкий круг задач, возникающих на практике и связанных с классификацией, можно решить методами дискриминантного анализа.

Постановка задачи, методы решения, ограничения

Предположим, имеется n объектов с m характеристиками. В результате измерений каждый объект характеризуется вектором x1xm, m >1. Задача состоит в том, чтобы по результатам измерений отнести объект к одной из нескольких групп (классов) G1,… Gk, k > = 2. Иными словами, нужно построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Число групп заранее известно, также известно, что объект заведомо принадлежит к определенной группе.

Пусть X – пространство значений вектора измерений. Решающее правило называется нерандомизированным, если пространство X разбито на k непересекающихся областей; при попадании измерения параметров объекта в k–ю область объект относится к k–й группе.

Решающее правило называется рандомизированным, если для каждого вектора наблюдений х задана вероятность pi(x), с которой объект принадлежит i-й группе, pi(x) ≥ 0; p1(x) +… + pk(x) = 1; i=1,...k.

Очевидно, при использовании решающего правила возникают потери, вызванные тем, что объект неправильно классифицирован – отнесен к классу i, когда в действительности он принадлежит классу j (i не равно j).

Если значение потерь трудно оценить численно, то при построении оптимального правила используют критерий минимальной вероятности ложной классификации.

В дискриминантном анализе можно задать априорные вероятности принадлежности объекта к определенному классу. На практике эти вероятности оцениваются из массива экспериментальных данных.

Так как массив экспериментальных данных накапливается, то эти оценки постепенно уточняются. При этом можно учесть различные факторы, влияющие на принадлежность объекта к определенному классу, например, если поступает мука в хлебное производство, то можно учесть сезонные факторы: вероятность того, что мука будет лучшего качества осенью выше той же вероятности весной.

В случае двух групп объектов дискриминантный анализ эквивалентен множественной регрессии (зависимой переменной является номер группы).

Независимые переменные с наибольшими стандартизированными коэффициентами регрессии дают наибольший вклад в предсказание принадлежности объекта к группе.

Для практических целейреализовано два общих метода дискриминантного анализа: стандартный и пошаговый (включения и исключения). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная – номер группы, все остальные переменные – независимые). Если групп несколько, то можно представить себе, что вначале строится дискриминация между группами 1 и 2, затем между 2 и 3, и так далее.

В пошаговом методе модель строится последовательно по шагам. Для метода включения на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называемый пошаговый метод исключения, то вначале в модель включаются все переменные, затем производится их последовательное исключение.

Близкими к методам дискриминантного анализа являются методы дисперсионного анализа, кластерного и факторного анализов, а также, как уже говорилось, методы множественной регрессии. Отличие кластерного анализа от дискриминантного в том, что в нем заранее не фиксировано число групп (кластеров).Предположения и ограничения

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины – измеряемые характеристики объекта – имеют нормальное распределение. Это предположение следует проверять. Следует заметить, что умеренные отклонения от этого предположения не являются фатальными.

Предположение об однородности дисперсий наблюдаемых переменных в разных классах (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Методы, реализуемые в практических расчетах, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Необхлдимо сделать важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и когда основные предположения не выполняются (предположение о нормальности и однородности дисперсий). Задача состоит в интерпретации результатов. В конечном счете, наиболее важным критерием правильности построенного классификатора является практика. И если окажется, что в результате построен классификатор, «работающий» на практике, то это будет достижением.

 

36.Критерий по асимметрии и эксцессу.Некоторые признаки растений, животных и микроорганизмов при объединении объектов в группы дают распределения, значительно отличающиеся от нормального.

В тех случаях, когда какие-нибудь причины благоприятствуют появлению значений признака, отличающихся от средней величины в сторону уменьшения или увеличения, образуются асимметричные распределения. При асимметрии эмпирическое распределение имеет увеличенные (против симметричного расположения) частоты в левой или правой части. В соответствии с этим различают или левую (положительная), или правую (отрицательная) асимметрию.

В тех случаях, когда какие-нибудь причины благоприятствуют преимущественному появлению и средних, и крайних значений признака, образуются положительные эксцессивные распределения, имеющие вид острой пирамиды с расширенным основанием. При отрицательном эксцессе в центре распределения имеется не вершина, а впадина, причем распределение становится двумодальным, а вариационная кривая – двувершинной.

В некоторых исследованиях требуется выяснить, действительно ли распределение изучаемого признака имеет асимметрию или эксцесс.

Например, при изучении ареалов распространения морских животных можно предположить, что распределение особей этого вида по глубине обитания должно быть, асимметричным, так как свободному распространению его водном из направлений – вверх – препятствует естественная граница: поверхность моря. Это предположение можно проверить, исследовав степень асимметричности распределений. Наличие эксцессивного распределения одного из жизненно важных признаков изучаемого вида животных или растений может указать на тенденцию этого вида образовывать не только обычные, типичные формы, также давать в повышенном количестве новые для него вариации, сильно отклоняющиеся от нормы.

Для выяснения достоверности того, что изучаемое распределение отличается от нормального именно в сторону асимметрии или эксцесса, применяют обычный в биометрии метод сравнения показателей с их ошибками репрезентативности.

Показатели асимметрии и эксцесса с их ошибками репрезентативности определяются по следующим формулам:

;;; ;

,

где А – показатель асимметрии;

– сумма кубов отклонений от средней арифметической (центральных отклонений);

s3 – стандартное отклонение, возведенное в третью степень;

Е – показатель эксцесса;

– сумма четвертых степеней центральных отклонений;

s4 – четвертая степень среднего квадратического отклонения;

n – общее число данных в эмпирическом распределении;

sA, sE – ошибки репрезентативности показателей асимметрии и эксцесса;

tA, tE – критерии достоверности выборочных показателей асимметрии и эксцесса.

Показатели асимметрии и эксцесса свидетельствуют о достоверном отличии эмпирических распределений от нормального в том случае, если они превышают свою ошибку репрезентативности в три и более раз.

Кластерный анализ. Методы кластерного анализа. Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы (классы) схожих между собой объектов. Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, формой (например, кластер может иметь очертания гиперсферы или эллипсоида), размером. Конечно, данное определение не является строгим (строгого определения не существует вообще). Если вы взглянете на географическую карту и увидите на ней горы или созвездия на звездном небе, то поймете, что такое кластеры.

Наиболее часто методы кластерного анализа используются в социологии, маркетинговых исследованиях, экономике, биологии, медицине, археологии.

Сложность задач кластерного анализа состоит в том, что реальные объекты являются многомерными, то есть описываются не одним, а несколькими параметрами (представьте, что объекты – это персональные компьютеры), и объединение объектов в группы проводится в пространстве многих измерений, что весьма нетривиально. Кроме того, данные могут носить нечисловой характер.

В целом методы кластеризации делятся на агломеративные (от слова агломерат – скопление) и итеративные дивизивные (от слова division –деление, разделение).

В агломеративных, или объединительных методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого последовательного объединения можно показать на графике в виде дендрограммы, или дерева объединения. Это удобное представление позволяет наглядно представить кластеризацию агломеративными алгоритмами.

Исходными данными для анализа могут быть собственно объекты и их параметры. Данные для анализа могут быть также представлены матрицей расстояний между объектами, в которой на пересечении строки с номером i и столбца с номером j записано расстояние между i-м и j-м объектом.

Если расстояния не даны сразу, то агломеративные алгоритмы начинаются с вычисления расстояний между объектами.

Переход от объектов к расстояниям между объектами – важный момент.

Расстояние между объектами – одна из мер сходства. Интуитивно понятно, что, чем меньше расстояние между объектами, тем они более схожи. Но как выбрать естественную метрику, то есть, как естественно для данной задачи измерить расстояние между объектами?

Часто используют обычную евклидову метрику, например, если объект описывается двумя параметрами, то он может быть изображен точкой на плоскости, а расстояние между объектами – это расстояние между точками, вычисленное по теореме Пифагора. Вы просто возводите в квадрат расстояния по каждой координате, суммируете их и из полученной суммы извлекаете квадратный корень. Если вы не будете возводить в квадрат покоординатные расстояния, а просто возьмете их абсолютные значения и просуммируете, то получите так называемое манхэттенское расстояние, или «расстояние городских кварталов». Такое расстояние связано с перемещением человека по улицам города, а не с движением по ровной местности.

Представьте, что вы находитесь в городе. Здесь существуют определенные правила перемещения и, соответственно, правила вычисления пройденного расстояния. Перемещаться можно только по улицам (нельзя, например, пересечь квартал или дом по диагонали). Аналогия в декартовой плоскости приводит к перемещениям только по линиям, параллельным осям координат, и, соответственно, к манхэттенскому расстоянию. Методы кластерного анализа

В практике обычно реализуются агломеративные методы кластеризации.

Обычно перед началом классификации данные стандартизуются (вычитается среднее и производится деление на корень квадратный из дисперсии). Полученные в результате стандартизации переменные имеют нулевое среднее и единичную дисперсию.

Можно выбрать следующие правила иерархического объединения кластеров:

— метод одиночной связи,

— метод полной связи,

— невзвешенный метод «средней связи»,

— взвешенный метод «средней связи»,

— взвешенный центроидный метод,

— метод Уорда.

Данные алгоритмы различаются правилами объединения объектов в кластеры.

В методе одиночной связи на первом шаге объединяются два объекта, имеющие между собой максимальную меру сходства. На следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера. Таким образом, процесс продолжается далее. Итак, для включения объекта в кластер требуется максимальное сходство лишь с одним членом кластера. Отсюда и название метода одиночной связи, нужна только одна связь, чтобы присоединить объект к кластеру: связь нового элемента с кластером определяется только по одному из элементов кластера. Недостатком этого метода является образование слишком больших «продолговатых» кластеров.

Метод полных связей позволяет устранить указанный недостаток. Здесь мера сходства между объектом – кандидатом на включение в кластер и всеми членами кластера не может быть меньше некоторого порогового значения. В методе средней связи мера сходства между кандидатом и членами кластера усредняется, например, берется просто среднее арифметическое мер сходства.

Идея еще одного агломеративного метода – метода Уорда состоит в том, чтобы проводить объединение, дающее минимальное приращение внутригрупповой суммы квадратов отклонений. Замечено, что метод Уорда приводит к образованию кластеров примерно равных размеров и имеющих форму гиперсфер.

Рассмотрим еще итеративный метод группировки k-средних. Данный метод работает непосредственно с объектами, а не с матрицей сходства.

В методе k-среднихобъект относится к тому классу, расстояние до которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства.

Как определить евклидово расстояние, мы уже знаем. Но как определить расстояние от объекта до совокупности объектов? Оказывается, это можно сделать следующим способом: каждый класс объектов имеет центр тяжести (рассмотрите, как и ранее, простейший случай – представьте, что объект имеет только два параметра, тогда его можно изобразить точкой на плоскости, а группа объектов – это просто группа точек).

Расстояние между объектом и классом есть расстояние между объектом и центром класса. Но как вычислить центр класса? Например, взять средние по каждому параметру. Тогда расстояние между объектом и группой объектов вполне определено и алгоритм может работать.

Представьте, что число объектов в группе равно 2. Соедините эти точки отрезком прямой и найдите его середину. Это и будет центр тяжести группы, состоящей из двух точек. Расстояние от этого центра до исходной точки будет искомым расстоянием.

Принципиально метод k-средних «работает» следующим образом:

12 вначале задается некоторое разбиение данных на кластеры (число кластеров определяется заранее); вычисляются центры тяжести кластеров;

13 происходит перемещение точек: каждая точка помещается в ближайший к ней кластер;

14 вычисляются центры тяжести новых кластеров;

15 шаги 2, 3 повторяются, пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем. Итоговая конфигурация и является искомой.

еще рефераты
Еще работы по биологии