Медианная сумма. Как появилось понятие о среднем значении

22.09.2019

Для характеристики рядов распределения (структуры вариационных рядов), наряду со средней, используются т. н. структурные средние : мода и медиана . Мода и медиана наиболее часто используются в экономической практике.

Мода - варианта, которая наиболее часто встречается в ряду распределения (в данной совокупности).

В дискретных вариационных рядах мода определяется по наибольшей частоте. Предположим товар А реализуют в городе 9 фирм по следующим ценам в рублях:

44; 43; 44; 45; 43; 46; 42; 46;43. Так как чаще всего встречается цена 43 рубля, то она и будет модальной.

При характеристике социальных групп населения по уровню дохода следует использовать модальное значение, нежели среднее. Средняя будет занижать одни показатели и завышать другие - тем самым осредняя (уравнивания) доходы всех слоев населения.

В интервальных вариационных рядах моду определяют приближенно по формуле:

    ХМ0 - нижняя граница модального интервала;

    h Mo - величина (шаг, ширина) модального интервала;

    f 1 - локальная частота интервала, предшествующего модальному;

    f 2 - локальная частота модального интервала;

    f 3 - локальная частота интервала, следующего за модальным.

Распределение населения по уровню среднедушевого месячного дохода

Интервал 1000-3000 в данном распределении будет модальным, т.к. он имеет наибольшую частоту (f=35,5). Тогда по вышеуказанной формуле мода будет равна:

На графике (гистограмме распределения) моду определяют следующим образом: по оси ординат откладывают локальные частоты, а по оси абсцисс -интервалы либо центры интервалов. Выбирают самый высокий столбик, которому соответствует величина признака с наибольшей частотой в ряду распределения.

Мода применяется для решения некоторых практических задач. Так, например, при изучении товарооборота рынка берется модальная цена, для изучения спроса на обувь, одежду используют модальные размеры обуви и одежды.

Медиана - это численное значение признака у той единицы совокупности, которая находится в середине ранжированного ряда (построенного в порядке возрастания, либо убывания значений изучаемого признака). Медиану иногда называют серединной вариантой , т.к. она делит совокупность на две равные части таким образом, чтобы по обе ее стороны находилось одинаковое число единиц совокупности. Если всем единицам ряда присвоить порядковые номера, то порядковый номер медианы будет определяться по формуле (n+1):2 для рядов, где n - нечетное . Если же ряд с четным числом единиц, томедианой будет являться среднее значение между двумя соседними вариантами, определенными по формуле: n:2, (n+1):2, (n:2)+1.

В дискретных вариационных рядах с нечетным числом единиц совокупности - это конкретное численное значение в середине ряда.

Нахождение медианы в интервальных вариационных рядах требует предварительного определения интервала, в котором находится медиана, т.е. медианного интервала – этот интервал характеризуется тем, что его кумулятивная (накопленная) частота равна полусумме или превышает полусумму всех частот ряда.

    X Me -нижняя граница медианного интервала

    h Me -величина медианного интервала;

    S Me-1 -сумма накопленных частот интервала, предшествующего медианному интервалу;

    f Me -локальная частота медианного интервала.

По данным таблицы определим медианное значение среднедушевого дохода. Для этого необходимо определить какой интервал будет медианным. Используем формулу номера медианной единицы ряда, т.е. середины:

Дробное значение N (всегда при четном числе членов) равное 50,5% говорит о том, что середина ряда находится между 50% и 51%, т.е. в третьем интервале. Иными словами: медианным считается интервал, на который впервые приходится более половины суммы накопленных частот. Отсюда медиана:

Для того, чтобы определить графически интервал, в котором находится медиана, по оси ординат откладывают накопленные частоты, а по оси абсцисс - центры интервалов. Из точки на оси ординат, которой соответствует 50.5% суммы накопленных частот, проводят линию параллельно оси абсцисс до пересечения с кумулятой. Из точки пересечения опускают перпендикуляр на ось абсцисс.

Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. Если M 0

Из соотношения этих показателей следует сделать вывод о правосторонней асимметрии распределения населения по уровню среднедушевого денежного дохода:

Квартиль –это четвертая часть совокупности, определяется как и медиана, только сумму частот необходимо разделить на 4, а при определении квартильного интервала, кумулятивная частота должна быть больше или равна четверти суммы частот совокупности.

Дециль – делит совокупность на десять равных частей. Определяется аналогично как и квартиль, только сумму частот необходимо разделить на 10.

Для вычисления медианы в MS EXCEL существует специальная функция МЕДИАНА() . В этой статье дадим определение медианы и научимся вычислять ее для выборки и для заданного закона распределения случайной величины.

Начнем с медианы для выборок (т.е. для фиксированного набора значений).

Медиана выборки

Медиана (median) – это число, которое является серединой множества чисел: половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана .

Для вычисления медианы необходимо сначала (значения в выборке ). Например, медианой для выборки (2; 3; 3; 4 ; 5; 7; 10) будет 4. Т.к. всего в выборке 7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).

Если множество содержит четное количество чисел, то вычисляется для двух чисел, находящихся в середине множества. Например, медианой для выборки (2; 3; 3 ; 6 ; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант MEDIAN().

Медиана не обязательно совпадает со . Совпадение имеет место только в том случае, если значения в выборке распределены симметрично относительно среднего . Например, для выборки (1; 2; 3 ; 4 ; 5; 6) медиана и среднее равны 3,5.

Если известна Функция распределения F(х) или функция плотности вероятности p (х) , то медиану можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2), получим, что медиана вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.

Обратите внимание на точку Функции распределения , для которой F (х)=0,5 (см. картинку выше). Абсцисса этой точкиравна1. Это и есть значение медианы, что естественно совпадает с ранее вычисленным значением по формуле em.

В MS EXCEL медиану для логнормального распределения LnN(0;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,5;0;1) .

Примечание : Напомним, что интеграл от по всей области задания случайной величины равен единице.

Поэтому, линия медианы (х=Медиана) делит площадь под графиком функции плотности вероятности на две равные части.

Cреднее арифметическое значение (далее по тексту — среднее), пожалуй, наиболее популярный статистический параметр. Этим понятием пользуются повсеместно — начиная от поговорки «средняя температура по больнице» и кончая серьезными научными трудами. Однако, как ни странно, среднее значение — коварное понятие, часто вводящее в заблуждение, вместо того чтобы придавать четкость изложению и вносить ясность.

Если говорить о научной работе, то статистический анализ данных применяется почти во всех прикладных науках, даже и в гуманитарных (например, психологии). Среднее значение вычисляется для признаков, измеряемых в так называемых непрерывных шкалах. Такими признаками являются, например, концентрации веществ в сыворотке крови, рост, вес, возраст. Среднее арифметическое можно легко вычислить, и этому учат еще в средней школе. Однако (в соответствии с положениями математической статистики) среднее значение является адекватной мерой центральной тенденции в выборке только в случае нормального (гауссова) распределения признака (рис. 1). Рис. 1. Нормальное (гауссово) распределение признака в выборке. Среднее (М) и медиана (Ме) совпадают

В случае же отклонения распределения от нормального закона среднее значение использовать некорректно, так как оно является слишком чувствительным параметром к так называемым «выбросам» — нехарактерным для изучаемой выборки, слишком большим или слишком малым значением (рис. 2). В этом случае для характеристики центральной тенденции в выборке должен применяться другой параметр — медиана. Медиана — это значение признака, справа и слева от которого находится равное число наблюдений (по 50%). Этот параметр (в отличие от среднего значения) устойчив к «выбросам». Заметим также, что медиана может использоваться и в случае нормального распределения — в этом случае медиана совпадает со средним значением.

Рис. 2. Распределение признака в выборке, отличное от нормального. Среднее (м) и медиана (МЕ) не совпадают

Для того, чтобы узнать, является ли распределение признака в выборке нормальным (гауссовым) или нет, т. е. для того, чтобы узнать, какой из параметров следует применять (среднее значение или медиану), существуют специальные статистические тесты.

Приведем пример. Скорость оседания эритроцитов в группе пациентов, недавно перенесших пневмонию, — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение для этой выборки равно 17,8, медиана — 12. Распределение (по тесту Шапиро—Уилка) нормальным не является (рис. 3), поэтому использовать надо медиану. Рис. 3. Пример

Как ни странно, но в некоторых областях экономики сторонний наблюдатель не может заметить хоть какого-то следа корректного применения математической статистики. Так, нам постоянно говорят о средней зарплате (например, в НИИ), и эти числа обычно удивляют не только рядовых сотрудников, но и руководителей подразделений (ныне называемых «менеджерами среднего звена»). Мы удивляемся, что средняя зарплата в Москве — 40 тыс. руб., но, конечно, понимаем, что нас «усреднили» с олигархами. Вот пример из жизни научных работников: зарплаты сотрудников лаборатории (тыс. руб.) — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение — 17,8, медиана — 12. Согласитесь, что это разные числа!

Конечно, нельзя исключить, что замалчивание свойств среднего — лукавство, так как руководству всегда выгоднее представить ситуацию с зарплатой сотрудников лучше, чем она есть на самом деле.

Не пора ли научному сообществу призвать наших руководителей прекратить некорректное использование математической статистики?

Ольга Реброва,
докт. мед. наук, вице-президент
МОО «Общество специалистов доказательной медицины»

Предположим, что нужно определить средний уровень в распределении оценок учащихся или в выборке данных проверки качества. Для этого потребуется вычислить медиану набора чисел с помощью функции МЕДИАНА.

Эта функция - один из способов измерения центральной тенденции, то есть расположения центра набора чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции.

    Среднее значение - это значение, которое является средним арифметическим, т. е. вычисляется сложением набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5 (результат деления суммы этих чисел, равной 30, на их количество, равное 6).

    Медиана - число, которое является серединой множества чисел: половина чисел имеют значения большие, чем медиана, а половина чисел - меньшие. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

    Мода - число, наиболее часто встречающееся в данном множестве чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Снимки экрана в этой статье получены в Excel 2016. Если вы используете другую версию, интерфейс может немного отличаться, но функции будут такими же.

Пример

Чтобы этот пример проще было понять, скопируйте его на пустой лист.

Совет: Чтобы переключиться между просмотром результатов и просмотром формул, возвращающих эти результаты, нажмите клавиши CTRL+` (апостроф) или на вкладке Формулы в группе Зависимости формул нажмите кнопку Показать формулы .

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (средняя арифметическая) или максимальную частоту (мода), но и как некоторую отметку (определенный уровень анализируемого показателя), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. То есть половина исходных данных по своему значению меньше этой отметки, а половина – больше. Это и есть медиана . Мода и медиана — важные показатели, они отражают структуру данных и иногда используются вместо средней арифметической.

Итак, медианна – это уровень показателя, который делит некоторый набор данных на две равные половины. В качестве демонстрационного примера вновь обратимся к набору случайных чисел. Такое распределение при большом количестве значений в литературе описывается, как обыденное явление. Вот данные в виде рисунка.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение. Поэтому посмотрим на ассиметричное распределение, и что там происходит с центральными нашими тенденциями.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше (практика подобное предположение опровергает, ну да ладно). Но если в анализируемом процессе присутствует какой-то существенный и неконтролируемый фактор, то в наблюдениях могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану, что отчетливо видно на следующей гистограмме.

Медиана – это основная альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам). В этой статье рассказывается о том, как ведет себя средняя арифметическая при аномальных значениях и как с этим бороться, то есть как сделать ее менее зависимой от выбросов. Основные варианты – это увеличение числа наблюдений и/или устранение аномалий из аналитической выборки. Так вот, переход от средней арифметической к медиане – еще один способ получить устойчивую (робастную) оценку математичечского ожидания. Другое дело, что свойства средней арифметической будут навсегда потеряны, но тут надо смотреть, что важней.

Теперь примеры реального использования медианы в статистике. При анализе средней заплаты по стране вместо средней арифметической могут задействовать медиану. Народу не нравится, когда их собственная з/п оказывается ниже средней (арифметической) по стране. Это вызывает бурю эмоций и разоблачений в неправильных подсчетах. Мол, у меня зарплата 100 рублей, а у директора 1000 рублей, вот и получается в среднем по 550 рублей. Что такое , недовольным гражданам неведомо и не интересно. А вот если использовать медиану, то будет понятно, что половина населения получает доход меньше медианного значения, а половина – больше.

Этот показатель также применяется в демографической статистике, при анализе различных количественных и качественных характеристик (прочность материала, содержание элементов, время работы, количество отказов и проч.). Даже трейдеры на forex используют медиану, как некоторый секретный сигнал к началу действий. Хотя большинство из них это не спасает.

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объекта около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.). Логистам и на заметку.

{module 111}

Формула медианы для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медианна будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

№ Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана будет обозначаться, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

Так происходит поиск или расчет в дискретных данных. Однако данные могут быть еще и интервальными , где выбрать конкретное значение не представляется возможным, так как конкретных значений просто нет. Как и в моде, медиану в таком случае рассчитывают по некоторому общепринятому правилу, исходя из определенного предположения, то есть на глазок. И нормально получается, я вам скажу!

Для начала (после ранжирования данных) находят медианный интервал . Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Не мудрствуя лукаво, лучше обратимся к наглядной схеме – понятней будет.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где x Me - нижняя граница медианного интервала;

i Me - ширина медианного интервала;

∑f/2 - количество всех значений, деленное на 2 (два);

S (Me-1) - суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

f Me - число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%. Чем-то даже похоже на формулу моды. Отличие заключается в поиске точки внутри интервала.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров. Теперь еще раз посмотрим, что у нас имеется.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Статистика без автоматических расчетов – прошлый век. Медиану чисел легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Используется архипросто. Активируется ячейка для расчета, вызывается функция, выбирается диапазон данных и «ОК». Больше и обсуждать нечего. Годится и для четного, и для нечетного количества данных.

Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Кстати, тот факт, что медиана делит данные на две равные части, напоминает о некоторых методах группировки. Действительно, после нахождения медианы, мы также получаем две группы с равным количеством значений. Развивая эту идею, деление на группы можно производить не только по принципу 50/50, но и по другим долям. Например, 20% наибольших значений есть не что иное, как группа А в ABC-анализе . О других долях как-нибудь в другой статье. Видите, как пересекаются, казалось бы, не связанные методы?

Подходит к концу мой рассказ о статистическом показателе медиана. Надеюсь, он был неутомительным. Напоследок предлагаю задачку в стиле телевикторины «Кто хочет стать миллионером?». Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Предлагаю также посмотреть видеролик на тему расчета медианы в Excel.