Каким свойством обладает медиана
У этого термина существуют и другие значения, см. Медиана.
Медиа́на (от лат. mediāna — середина) в математической статистике — число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана — это такое число, что половина из элементов выборки больше него, а другая половина меньше. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5. Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже.
Также медиану можно определить для случайных величин: в этом случае она делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2); более точное определение см. ниже.
Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.
Свойства медианы для случайных величин[править | править код]
Если распределение непрерывно, то медиана является одним из решений уравнения
Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.
Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.
Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
Пример использования[править | править код]
Предположим, что в одной комнате оказалось 19 бедняков и один миллионер. У каждого бедняка есть 5 ₽, а у миллионера — 1 млн ₽ (106). В сумме получается 1 000 095 ₽. Если мы разделим деньги равными долями на 20 человек, то получим 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.
Медиана в этом случае будет равна 5 ₽ (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив всю компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽. В общем случае можно сказать, что медиана — это то, сколько принёс с собой «средний» человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.
Неуникальность значения[править | править код]
Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[1]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.
Примечания[править | править код]
- ↑ Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ (неопр.). — 2-е издание. — М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.
Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.
Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.
Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.
Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).
Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).
Формула медианы
Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.
Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:
где
№Me – номер значения, соответствующего медиане,
N – количество значений в совокупности данных.
Тогда медиана обозначается, как
Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:
В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.
Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.
Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.
Обратимся к наглядной схеме.
Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:
где xMe — нижняя граница медианного интервала;
iMe — ширина медианного интервала;
∑f/2 — количество всех значений, деленное на 2 (два);
S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;
fMe — число наблюдений в медианном интервале.
Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.
Для примера рассчитаем медиану по следующим данным.
Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.
По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.
То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.
Расчет медианы в Excel
Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.
Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:
а) 11;
б) 5;
в) 10;
г) 5, 10, 11.
Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.
Ниже видеоролик о том, как рассчитать медиану в Excel.
Поделиться в социальных сетях:
если в лом учить — хотябы в гугле посмотри!
В произвольном треугольнике ABC отрезок BD — медиана
Тема о медианах и высотах треугольника является, как правило, одной из наиболее интересных и увлекательных в курсе геометрии. Общепринятое определение медианы треугольника гласит, что под медианой понимают отрезок или прямую, которая соединяет одну из вершин треугольника с серединой противоположной стороны треугольника. Проще говоря, медиану треугольника можно получить, если измерить одну из сторон треугольника, найти точку, которая является серединой этой стороны и соединить эту точку с противолежащей вершиной треугольника. Исходя из того, что каждый треугольник имеет только три стороны и, соответственно, три вершины, можно сделать вывод, что максимальное количество медиан, которое можно провести в одном треугольнике равняется трём.
Свойства медианы треугольника
Медиана любого треугольника обладает несколькими основными свойствами, которые достаточно длительное время назад были доказаны в геометрии.
Во-первых, все медианы одного треугольника пересекаются только в одной его точке и делятся в этой точке в установленном соотношении два к одному, считая от вершины треугольника. То есть, если провести в треугольнике три медианы, они пересекутся в одной точке и 2/3 длины каждой медианы будут расположены между вершиной треугольника и точкой пересечения медиан, а 1/3 — между точкой пересечения медиан и серединой противоположной стороны треугольника.
Во-вторых, если в одном треугольнике провести три медианы, то они разделят данный треугольник на шесть меньших треугольников, которые будут иметь равную площадь.
В-третьих, чем больше сторона треугольника, к центру которой проведена медиана, тем меньше сама медиана треугольника. Самая длинная сторона треугольника всегда имеет самую короткую медиану.
Дополнительным свойством обладает медиана, проведённая в прямоугольном треугольнике. Это свойство заключается в правиле, гласящем, что если вокруг прямоугольного треугольника описать окружность, то медиана, проведённая из вершины прямого угла к середине гипотенузы прямоугольного треугольника, является радиусом этой окружности (т. е. расстоянием от центра окружности до любой её точки) .
Уравнение длины медианы треугольника
В геометрии формула медианы треугольника выведена из теоремы Стюарта и представляет собой квадратный корень из отношения квадратов суммы сторон, образующих вершину треугольника минус квадрат стороны, к середине которой проведена медиана треугольника к четырём. Проще говоря, для вычисления длины медианы треугольника необходимо возвести в квадрат длину каждой его стороны, затем создать дробь, в числителе которой вычислить сумму квадратов двух сторон треугольника, образующих угол, из которого проведена медиана минус квадрат третьей стороны. В знаменателе дроби будет число 4, а из всей дроби нужно извлечь квадратный корень, чтобы получить длину медианы треугольника.
Точка пересечения медиан треугольника
Выше было описано свойство медиан треугольника, которые пересекаются всегда в одной точке. Указанная точка называется центроидом треугольника. Помимо деления каждой из медиан в соотношении 2:1 центроид треугольника одновременно является центром описанной вокруг этого треугольника окружности. Другие геометрические фигуры также имеют свои центроиды.
Координаты точки пересечения медиан треугольника
Для нахождения координат точки пересечения медиан треугольника используется свойство центроида, который делит каждую медиану в соотношении 2:1.