Критерий согласия пирсона. Критерии согласия Проверка гипотезы о равномерном распределении

Проверяемую гипотезу обычно называют нулевой H 0 , правило, по которому гипотеза принимается или отвергается называется статистическим критерием.. Статистические критерии, служащие для проверки гипотез о виде законов распределения называются критериями согласия. Т.е. критерии согласия устанавливают, когда полученные в действительности расхождения между предполагаемыми теоретическим и опытным распределением:несущественно - случайные и когда существенно - неслучайные.

Рассмотрим случайную величину, которая характеризует вид или функцию расхождения между предполагаемым теоретическим и опытным распределением признака, тогда по имеющемуся опытному распределению, можно определить значение a , которое приняла случайная величина, если известен ее закон распределения, то не трудно найти вероятность того, что случайная величина примет значение не меньшее a . Если величина a получена как результат наблюдения случайной величины x , т.е. при распределении рассматриваемого признака, по предполагаемому теоретическому закону, то вероятность не должна быть малой. Если же вероятность оказалась малой, то это объясняется тем, что фактически полученному значение не случайной величины x , а какой-то другой с другим законом распределения, т.е. изучаемый признак распределен не по предполагаемому закону. Таким образом, в случае, когда не мала -расхождения между эмпирическими и теоретическими распределениями следует признать не существенным- случайным, а опытное и теоретическое распределение не противоречащими, т.е. согласующимися друг с другом.

Если вероятность мала, то расхождения между опытным и теоретическим распределениями существенны, объяснить их случайностью нельзя, а гипотезу о распределении признака по предполагаемому теоретическому закону следует считать не подтвердившейся, она не согласуется с опытными данными. Необходимо тщательно изучив опытные данные попытаться найти новый закон о качестве предполагаемого признака, который лучше, полнее бы отражал особенности опытного распределения, такие вероятности считаются малыми и их берут не превосходящими 0,1.

Критерии согласия Пирсона или критерии c 2 .

Пусть анализ опытных данных привел к выбору некоторого закона распределения, в качестве предполагаемого для рассматриваемого признака, а по опытным данным в результате n-наблюдений, найдены параметры (если они не были известны раннее). Обозначим через n i - эмпирические частоты случайной величины x.

n×P i -теоретические частоты, представляющие произведение числа наблюдений n на вероятности P i - рассчитанные по предполагаемому теоретическому распределению. Критерии согласия c 2 за меру расхождения теоретического и эмпирического рядов частот принимают величину


c 2 -величина, которую называют c 2 распределение или распределение Пирсона. Она равна 0 лишь при совпадении всех эмпирических и теоретических частот, в остальных случаях отлична от 0 и тем больше, чем больше расхождение между указанными частотами. Доказано, что выбранная характеристика c 2 или статистика при n®¥ имеет распределение Пирсона со степенями свободы

k=m-s- 1.

где m -число интервалов эмпирического распределения вариационного ряда или число групп.

s -число параметров теоретического распределения, определяемых по опытным данным, (например в случае нормального распределения число оцениваемых по выборке параметров равно 2).

Схема применения критерия сводится к следующему:

1. По опытным данным выбирают в качестве предполагаемого закон распределения признака и находят его параметры.

2. С помощью полученного распределения определяют теоретические частоты, соответствующие опытным частотам.

3. Малочисленные опытные частоты, если они есть, объединяют с соседними, затем по формуле определяют величину c 2 .

4. Определяют число степеней свободы k .

5. Из таблиц приложения для выбранного уровня значимости a находят критическое значение при числе степеней свободы равным k .

6. Формулируем вывод, руководствуясь общим принципом применения критериев согласия, а именно если вероятность >0,01, то имеющиеся расхождения между теоретическими и опытными частотами признаются не существенными.

Если фактически наблюдаемое значение больше критического, то H 0 отвергается, если то гипотеза не противоречит опытным данным. Критерий c 2 дает удовлетворительные результаты, если в каждом группировочном интервале достаточное число наблюдений n i .

Замечание: Если в каком-нибудь интервале число наблюдений <5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n i было не меньше 5. При этом при вычислении числа степеней свободы k в качестве m -берется соответственно уменьшенное число интервалов.

Получено следующее распределение 100 рабочих цеха по выработке в отчетном году

(в %-тах к предыдущему году).

Теоретические и эмпирические частоты. Проверка на нормальность распределения

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

    расхождение случайно и связано с ограниченным количеством наблюдений;

    расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

    Σƒ i- сумма накопленных (кумулятивных) эмпирических частот

    h - разность между двумя соседними вариантами

    σ - выборочное среднеквадратическое отклонение

    t–нормированное (стандартизированное) отклонение

    φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т) и эмпирическими (f) частотами к теоретическим частотам:

    k–число групп, на которые разбито эмпирическое распределение,

    f i –наблюдаемая частота признака в i-й группе,

    f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν). Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений. По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

    Сравнивают фактические и теоретические частоты.

    По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.

    Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:

По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ

Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения

Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.

Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

АЗОВСКИЙ РЕГИОНАЛЬНЫЙ ИНСТИТУТ УПРАВЛЕНИЯ

ЗАПОРОЖСКОГО НАЦИОНАЛЬНОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА

Кафедра математики

КУРСОВАЯ РАБОТА

З дисциплины «СТАТИСТИКА»

На тему: «КРИТЕРИИ СОГЛАСИЯ»

студентки 2-го курса

группы 207 факультета управления

Батуры Татьяны Олеговны

Научный руководитель

доцент Косенков О. И.

Бердянск – 2009г.


ВВЕДЕНИЕ

1.2 Критерии согласия χ 2 Пирсона для простой гипотезы

1.3 Критерии согласия для сложной гипотезы

1.4 Критерии согласия χ 2 Фишера для сложной гипотезы

1.5 Другие критерии согласия. Критерии согласия для распределения Пуассона

РАЗДЕЛ II. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ КРИТЕРИЯ СОГЛАСИЯ

ПРИЛОЖЕНИЯ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ


ВВЕДЕНИЕ

В данной курсовой работе рассказано о наиболее распространенных критериях согласия – омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова. Особенное внимание уделено случаю, когда необходимо проверить принадлежность распределения данных некоторому параметрическому семейству, например, нормальному. Эта весьма распространенная на практике ситуация из-за своей сложности исследована не до конца и не полностью отражена в учебной и справочной литературе.

Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Лучше всего этот вопрос разработан, если наблюдения представляют случайную выборку. Теоретическая модель в этом случае описывает закон распределения.

Теоретическое распределение – это то распределение вероятностей, которое управляет случайным выбором. Представления о нем может дать не только теория. Источниками знаний здесь могут быть и традиция, и прошлый опыт, и предыдущие наблюдения. Надо лишь подчеркнуть, что это распределение должно быть выбрано независимо от тех данных, по которым мы собираемся его проверять. Иначе говоря, недопустимо сначала «подогнать» по выборке некоторый закон распределения, а потом пытаться проверить согласие с полученным законом по этой же выборке.

Простые и сложные гипотезы. Говоря о теоретическом законе распределения, которому гипотетически должны бы следовать элементы данной выборки, надо различать простые и сложные гипотезы об этом законе:

· простая гипотеза прямо указывает некий определенный закон вероятностей (распределение вероятностей), по которому возникли выборочные значения;

· сложная гипотеза указывает на единственное распределение, а какое-то их множество (например, параметрическое семейство).

Критерии согласия основаны на использовании различных мер расстояний между анализируемым эмпирическим распределением и функцией распределения признака в генеральной совокупности.

Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.

Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.

Приступая к выполнению данной курсовой работы, я поставила себе за цель, узнать какие существуют критерии согласия, разобраться для чего же они нужны. Для осуществления этой цели необходимо выполнить следующие задания:

1. Раскрыть суть понятия “критерии согласия”;

2. Определить какие критерии согласия существуют, изучить их по отдельности;

3. Сделать выводы по проведенной работе.


РАЗДЕЛ I. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ КРИТЕРИЯ СОГЛАСИЯ

1.1 Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы

Простая гипотеза. Рассмотрим ситуацию, когда измеряемые данные являются числами, иначе говоря, одномерными случайными величинами. Распределение одномерных случайных величин может быть полностью описано указанием их функций распределения. И многие критерии согласия основаны на проверке близости теоретической и эмпирической (выборочной) функций распределения.

Предположим, что имеем выборку n. Обозначим истинную функцию распределения, которой подчиняются наблюдения, G(х), эмпирическую (выборочную) функцию распределения – F n (х), а гипотетическую функцию распределения – F(х). Тогда гипотеза Н о том, что истинная функция распределения есть F(х), записывается в виде Н: G(·) = F(·).

Как проверить гипотезу H? Если Н верна, то F n и F должны проявлять определенное сходство, и различие между ними должно убывать с увеличением n. Вследствие теоремы Бернулли F n (х) → F(х) при n → ∞. Для количественного выражения сходства функций F n иF используют различные способы.

Для выражения сходства функций можно использовать то или иное расстояние между этими функциями. Например, можно сравнить F n и F в равномерной метрике, т.е. рассмотреть величину:

(1.1)

Статистику D n называют статистикой Колмогорова.

Очевидно, что D n - случайная величина, поскольку ее значение зависит от случайного объекта F n . Если гипотеза Н 0 справедлива и n → ∞, то F n (x) → F(x) при всяком х. Поэтому естественно, что при этих условиях D n → 0. Если же гипотеза Н 0 неверна, то F n → G и G ≠ F, а потому sup -∞

Как всегда при проверке гипотезы, рассуждаем так, как если бы гипотеза была верна. Ясно, что Н 0 должна быть отвергнута, если полученное в эксперименте значение статистики D n кажется неправдоподобно большим. Но для этого надо знать, как распределена статистика D n при гипотезе Н: F= G при заданных n и G.

Замечательное свойство D n состоит в том, что если G = F, т.е. если гипотетическое распределение указано правильно, то закон распределения статистики D n оказывается одним и тем же для всех непрерывных функций G. Он зависит только от объема выборки n.

Доказательство этого факта основано на том, что статистика не изменяет своего значения при монотонных преобразованиях оси х. Таким преобразованием любое непрерывное распределение G можно превратить в равномерное на отрезке . При этом F n (x) перейдет в функцию распределения выборки из этого равномерного распределения.

При малых п для статистики D n при гипотезе Н 0 составлены таблицы процентных точек. При больших п распределение D n (при гипотезе Н 0) указывает найденная в 1933 г. А.Н.Колмогоровым предельная теорема. Она говорит о статистике

(поскольку сама величина D n → 0 при Н 0 , приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось). Теорема Колмогорова утверждает, что при справедливости Н 0 и если G непрерывна:
(1.2)

Эта сумма очень легко считается в Maple. Для проверки простой гипотезы Н 0: G = F требуется по исходной выборке вычислить значение статистики D n . Для этого годится простая формула:

(1.3)

Здесь через х k - элементы вариационного ряда, построенного по исходной выборке. Полученную величину D n затем надо сравнить с извлеченными из таблиц или рассчитанными по асимптотической формуле критическими значениями. Гипотезу Н 0 приходится отвергать (на выбранном уровне значимости), если полученное в опыте значение D n превосходит выбранное критическое значение, соответствующее принятому уровню значимости.

Другой популярный критерий согласия получим, измеряя расстояние между F n и F в интегральной метрике. Он основан на так называемой статистике омега-квадрат:

(1.4)

Для его вычисления по реальным данным можно использовать формулу:

(1.5)

При справедливости гипотезы Н 0 и непрерывности функции G распределение статистики омега-квадрат, так же, как распределение статистики D n , зависит только от n и не зависит от G.

Так же, как для D n , для

при малых n имеются таблицы процентных точек, а для больших значений n следует использовать предельное (при n → ∞) распределение статистики n . Здесь снова приходится умножать на неограниченно растущий множитель. Предельное распределение было найдено Н.В.Смирновым в 1939 г. Для него составлены подробные таблицы и вычислительные программы. Важное с теоретической точки зрения свойство критериев, основанных на D n и : они состоятельны против любой альтернативы G ≠ F.

Так как все предположения о характере того или иного распределения – это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия , которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Существует ряд критериев согласия. Чаще применяют критерии Пирсона, Романовского и Колмогорова.

Критерий согласия Пирсона – один из основных:

где k – число групп, на которые разбито эмпирическое распределение,
– наблюдаемая частота признака в i-й группе,
– теоретическая частота.
Для распределения составлены таблицы, где указано критическое значение критерия согласия для выбранного уровня значимости и степеней свободы df.(или )
Уровень значимости – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистике пользуются тремя уровнями:

  • a= 0,10, тогда Р=0,90 (в 10 случаях их 100 может быть отвергнута правильная гипотеза);
  • a= 0,05, тогда Р=0,95;
  • a= 0,01, тогда Р=0,99.

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты.
Например, при выравнивании по кривой нормального распределения имеется три связи:
; ; .
Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df = k –3.
Для оценки существенности расчетное значение сравнивается с табличным .
При полном совпадении теоретического и эмпирического распределений , в противном случае >0. Если >, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем.
В случае, если , заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью Р=(1-a) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно.
Критерий согласия Пирсона используется, если объем совокупности достаточно велик , при этом частота каждой группы должна быть не менее 5.

Критерий Романовского с основан на использовании критерия Пирсона, т.е. уже найденных значений , и числа степеней свободы df:

Он удобен при отсутствии таблиц для .
Если с<3, то расхождения распределений случайны, если же с>3, то не случайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.

Критерий Колмогорова l основан на определении максимального расхождения между накопленными частотами и частостями эмпирических и теоретических распределений:
или ,
где D и d – соответственно максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического рядов распределений;
N – число единиц совокупности.
Рассчитав значение l, по таблице Р(l) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность Р(l) может изменяться от 0 до 1. При Р(l)=1 происходит полное совпадение частот, Р(l)=0 – полное расхождение. Если l принимает значения до 0,3, то Р(l)=1.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения , являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

  • расхождение случайно и связано с ограниченным количеством наблюдений;
  • расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

  • Σƒ i - сумма накопленных (кумулятивных) эмпирических частот
  • h - разность между двумя соседними вариантами
  • σ - выборочное среднеквадратическое отклонение
  • t–нормированное (стандартизированное) отклонение
  • φ(t)–функция плотности вероятности нормального распределения (находят по для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т ) и эмпирическими (f) частотами к теоретическим частотам:

  • k–число групп, на которые разбито эмпирическое распределение,
  • f i –наблюдаемая частота признака в i-й группе,
  • f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

  1. Сравнивают фактические и теоретические частоты.
  2. По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
  3. Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы: