Задача 1.
Используя критерий Пирсона, при уровне значимости a = 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение.
1. Вычислим и выборочное среднее квадратическое отклонение .
2. Вычислим теоретические частоты учитывая, что n
= 200, h
= 2, = 4,695, по формуле
.
Составим расчетную таблицу (значения функции j (x ) приведены в приложении 1).
i |
||||
3. Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия :
i |
|||||
Сумма |
По таблице критических точек распределения (приложение 6), по уровню значимости a
= 0,05 и числу степеней свободы k
= s
– 3 = 9 – 3 = 6 находим критическую точку правосторонней критической области (0,05; 6) = 12,6.
Так как =22,2 > = 12,6, гипотезу о нормальном распределении генеральной совокупности отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо.
Задача2
Представлены статистические данные.
Результаты измерений диаметров n
= 200 валков после шлифовки обобщены в табл. (мм):
Таблица
Частотный вариационный ряд диаметров валков
i | ||||||||
xi , мм |
||||||||
xi , мм |
||||||||
Требуется:
1) составить дискретный вариационный ряд, при необходимости упорядочив его;
2) определить основные числовые характеристики ряда;
3) дать графическое представление ряда в виде полигона (гистограммы) распределения;
4) построить теоретическую кривую нормального распределения и проверить соответствие эмпирического и теоретического распределений по критерию Пирсона. При проверке статистической гипотезы о виде распределения принять уровень значимости a = 0,05
Решение:
Основные числовые характеристики данного вариационного ряда найдем по определению. Средний диаметр валков равен (мм):
x
ср = = 6,753;
исправленная дисперсия (мм2):
D
= = 0,0009166;
исправленное среднее квадратическое (стандартное) отклонение (мм):
s
= = 0,03028.
Рис.
Частотное распределение диаметров валков
Исходное («сырое») частотное распределение вариационного ряда, т.е. соответствие ni
(xi
), отличается довольное большим разбросом значений ni
относительно некоторой гипотетической «усредняющей» кривой (рис.). В этом случае предпочтительно построить и анализировать интервальный вариационный ряд, объединяя частоты для диаметров, попадающих в соответствующие интервалы.
Число интервальных групп K
определим по формуле Стерджесса:
K
= 1 + log2n
= 1 + 3,322lgn
,
где n
= 200 – объем выборки. В нашем случае
K
= 1 + 3,322×lg200 = 1 + 3,322×2,301 = 8,644 » 8.
Ширина интервала равна (6,83 – 6,68)/8 = 0,01875 » 0,02 мм.
Интервальный вариационный ряд представлен в табл.
Таблица Частотный интервальный вариационный ряд диаметров валков.
k | ||||||||
xk , мм |
||||||||
Интервальный ряд может быть наглядно представлен в виде гистограммы частотного распределения.
Рис
. Частотное распределение диаметров валков. Сплошная линия – сглаживающая нормальная кривая.
Вид гистограммы позволяет сделать предположение о том, что распределение диаметров валков подчиняется нормальному закону, согласно которому теоретические частоты могут быть найдены как
nk
, теор = n
×N
(a
; s; xk
)×Dxk
,
где, в свою очередь, сглаживающая гауссова кривая нормального распределения определяется выражением:
N
(a
; s; xk
) = .
В этих выражениях xk
– центры интервалов в частотном интервальном вариационном ряде.
Например, x
1 = (6,68 + 6,70)/2 = 6,69. В качестве оценок центра a
и параметра s гауссовой кривой можно принять:
a
= x
ср.
Из рис. видно, что гауссова кривая нормального распределения в целом соответствует эмпирическому интервальному распределению. Однако следует удостовериться в статистической значимости этого соответствия. Используем для проверки соответствия эмпирического распределения эмпирическому критерий согласия Пирсона c2 . Для этого следует вычислить эмпирическое значение критерия как сумму
= ,
где nk
и nk
,теор – эмпирические и теоретические (нормальные) частоты, соответственно. Результаты расчетов удобно представить в табличном виде:
Таблица
Вычисления критерия Пирсона
[xk , xk+ 1), мм |
xk , мм |
nk ,теор |
||
Критическое значение критерия найдем по таблице Пирсона для уровня значимости a = 0,05 и числа степеней свободы d .f . = K – 1 – r , где K = 8 – число интервалов интервального вариационного ряда; r = 2 – число параметров теоретического распределения, оцененных на основании данных выборки (в данном случае, – параметры a и s). Таким образом, d .f . = 5. Критическое значение критерия Пирсона есть крит(a; d .f .) = 11,1. Так как c2эмп < c2крит, заключаем, что согласие между эмпирическим и теоретическим нормальным распределением является статистическим значимым. Иными словами, теоретическое нормальное распределение удовлетворительно описывает эмпирические данные.
Задача3
Коробки с шоколадом упаковываются автоматически. По схеме собственно-случайной бесповторной выборки взято 130 из 2000 упаковок, содержащихся в партии, и получены следующие данные об их весе:
Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.
Решение
1012,5
= 615,3846
Примечание:
В принципе в качестве дисперсии нормального закона распределения следует взять исправленную выборочную дисперсию. Но т.к. количество наблюдений – 130 достаточно велико, то подойдет и “обычная” .
Таким образом, теоретическое нормальное распределение имеет вид:
[xi ; xi+1 ]
Эмпирические частоты
niВероятности
pi
Теоретические частоты
npi
(ni-npi)2
Критерий Пирсона для проверки гипотезы о виде закона распределения случайной величины. Проверка гипотез о нормальном, показательном и равномерном распреде-лениях по критерию Пирсона. Критерий Колмогорова . Приближенный метод проверки нормальности распределения, связанный с оценками коэффициентов асимметрии и эксцесса.
В предыдущей лекции рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия .
Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.
Пусть получена выборка достаточно большого объема п с большим количеством различ-ных значений вариант. Доя удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вари
ант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:
варианты х 1 х 2 х s
частоты п 1 п 2 п s ,
где х i - значения середин интервалов, а п i - число вариант, попавших в i -й интервал (эмпи-рические частоты).
По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интер-вале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:
,
где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n?p i . Наша цель - сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины
. (20.1)
Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупно-сти закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s - 1 - r , где r - число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s - 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием
(20.2)
где α - уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .
Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально - нужно вычислить по выборке наблюдаемое значение критерия:
, (20.1`)
а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s - 3. Если - нулевую гипотезу принимают, при ее отвергают.
При использовании критерия Пирсона для проверки гипотезы о равномерном распределе-нии генеральной совокупности с предполагаемой плотностью вероятности
необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:
где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (20.3).
Затем, предполагая, что , можно найти теоретические частоты по формулам
Здесь s - число интервалов, на которые разбита выборка.
Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое - по таблице с учетом того, что число степеней свободы k = s - 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.
В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i - й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i - й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле
Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s - 2.
Критерий Пирсона
Критерий Пирсона , или критерий χ 2 - наиболее часто употребляемый критерий для проверки гипотезы о законе распределения . Во многих практических задачах точный закон распределения неизвестен, то есть является гипотезой, которая требует статистической проверки.
Обозначим через X исследуемую случайную величину . Пусть требуется проверить гипотезу H 0 о том, что эта случайная величина подчиняется закону распределения F (x ) . Для проверки гипотезы произведём выборку, состоящую из n независимых наблюдений над случайной величиной X. По выборке можно построить эмпирическое распределение F * (x ) исследуемой случайной величины. Сравнение эмпирического F * (x ) и теоретического распределений производится с помощью специально подобранной случайной величины - критерия согласия . Одним из таких критериев и является критерий Пирсона.
Для проверки критерия вводится статистика:
где - предполагаемая вероятность попадения в i -й интервал, - соответствующее эмпирическое значение, n i - число элементов выборки из i -го интервала.
Эта величина в свою очередь является случайной (в силу случайности X) и должна подчиняться распределению χ 2 .
Перед тем, как сформулировать правило принятия или отвержения гипотезы необходимо учесть, что критерий Пирсона обладает правосторонней критической областью .
Правило.
Если полученная статистика превосходит квантиль закона распределения заданного уровня значимости с или с степенями свободы , где k - число наблюдений или число интервалов (для случая интервального вариационного ряда), а p - число оцениваемых параметров закона распределения , то гипотеза отвергается. В противном случае гипотеза принимается на заданном уровне значимости . |
Wikimedia Foundation . 2010 .
Критерий Пирсона, или критерий χ² (Хи квадрат) наиболее часто употребляемый критерий для проверки гипотезы о законе распределения. Во многих практических задачах точный закон распределения неизвестен, то есть является гипотезой, которая… … Википедия
Или Критерий согласия Колмогорова Смирнова статистический критерий, использующийся для определения того, подчиняются ли два эмпирических распределения одному закону, либо того, подчиняется ли полученное распределение предполагаемой модели.… … Википедия
- (максиминный критерий) один из критериев принятия решений в условиях неопределённости. Критерий крайнего пессимизма. История Критерий Вальда был предложен Абрахамом Вальдом в 1955 году для выборок равного объема, а затем распространен на … Википедия
Уоллиса предназначен для проверки равенства медиан нескольких выборок. Данный критерий является многомерным обобщением критерия Уилкоксона Манна Уитни. Критерий Краскела Уоллиса является ранговым, поэтому он инвариантен по отношению к любому… … Википедия
- (F критерий, φ* критерий, критерий наименьшей значимой разности) апостериорный статистический критерий, используемый для сравнения дисперсий двух вариационных рядов, то есть для определения значимых различий между групповыми средними в… … Википедия
Критерий Кохрена используют при сравнении трёх и более выборок одинакового объёма. Расхождение между дисперсиями считается случайным при выбранном уровне значимости, если: где квантиль случайной величины при числе суммируемых… … Википедия
Статистический критерий, названный по имени Хьюберта Лиллиефорса, профессора статистики Университета Джорджа Вашингтона, являющийся модификацией критерия Колмогорова–Смирнова. Используется для проверки нулевой гипотезы о том, что выборка… … Википедия
Для улучшения этой статьи желательно?: Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждающие написанное. Добавить иллюстрации. Т Крит … Википедия
В статистике критерий согласия Колмогорова (также известный, как критерий согласия Колмогорова Смирнова) используется для того, чтобы определить, подчиняются ли два эмпирических распределения одному закону, либо определить, подчиняется ли… … Википедия
критерий независимости - для таблиц сопряженности проверяет гипотезу о том, что переменные строки и столбца независимы. К таким критериям относится критерий независимости хи квадрат (Пирсона) и точный критерий Фишера … Словарь социологической статистики
Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .
Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .
Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.
Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.
Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.
В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.
Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.
Расчет коэффициента корреляции Пирсона производится по следующей формуле:
Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.
Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.
Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :
Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:
Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.
Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.
Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.
Имеется несколько критериев согласия: $\chi ^2$ { хи-квадрат } К. Пирсона, Колмогорова, Смирнова и др.
Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.
Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.
На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5 { \% } $ уровень значимости.
В качестве критерия проверки гипотезы примем величину \begin{equation} \label { eq1 } \chi ^2=\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } \qquad (1) \end{equation}
здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i" -$ теоретические частоты, найденные теоретическим путём.
Доказано, что при $n\to \infty $ закон распределения случайной величины { 1 } независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ { хи-квадрат } с $k$ степенями свободы.
Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.
1) равномерное распределение: $r=2, k=S-3 $
2) нормальное распределение: $r=2, k=S-3 $
3) показательное распределение: $r=1, k=S-2$.
Правило . Проверка гипотезы по критерию Пирсона.
Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } $
Проверка гипотезы о равномерном распределении
Функция плотности равномерного распределения величины $X$ имеет вид $f(x)=\frac { 1 } { b-a } x\in \left[ { a,b }\right]$.
Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:
1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины
$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $
2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $({ x_i ,x_ { i+1 } })$ по формуле $ P_i =P({ x_i 3) Найти теоретические { выравнивающие } частоты по формуле $n_i" =np_i $. 4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ({ \alpha ,k })$. 5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $. 6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу. Проверим гипотезу на нашем примере. 1) $\overline x _b =13,00\,\,\sigma _b =\sqrt { D_b } = 6,51$ 2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$ $b=13,00+1,732\cdot 6,51=24,27532$ $b-a=24,27532-1,72468=22,55064$ 3) $P_i =P({ x_i $ P_2 =({ 3 $ P_3 =({ 7 $ P_4 =({ 11 $ P_5 =({ 15 $ P_6 =({ 19 В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы. 4) Найдём $n_i" =np_i $. 5) Найдём $\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ и найдём $\chi _ { набл } ^2 $. Занесём все полученные значения в таблицу \begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i" =np_i & n_i -n_i" & ({ n_i -n_i" })^2& \frac { ({ n_i -n_i" })^2 } { n_i" } & Контроль~ \frac { n_i^2 } { n_i" } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } =3,63985 \\ \hline \end{array} $\chi _ { кр } ^2 ({ 0,05,3 })=7,8$ $\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$ Вывод
отвергать гипотезу нет оснований.