Дисперсия — это статистическая мера, которая говорит нам , насколько хорошо данные распределены вокруг среднего значения . Это похоже на измерение того, насколько «разбросаны» данные по среднему значению.
Представьте, что у вас есть список чисел, например, баллы на тесте. Дисперсия помогает понять , насколько эти оценки отличаются друг от друга . Если оценки очень близки друг к другу, дисперсия будет низкой. Но если между оценками много различий, дисперсия будет высокой.
Вообще говоря, дисперсия — полезный инструмент для понимания дисперсии данных в наборе значений. Если дисперсия высокая, это означает, что данные более разбросаны, а если она низкая, это означает, что данные ближе друг к другу.
Как рассчитывается зазор?
Чтобы вычислить дисперсию, вам нужно предпринять несколько математических шагов, но не волнуйтесь, это проще, чем кажется. Во-первых, вам нужно вычислить среднее или среднее значение данных. Затем вычтите каждый фрагмент данных из среднего значения и возведите в квадрат каждую разницу. Затем вы складываете все эти квадраты и делите на количество данных. Это дисперсия.
Чтобы понять это немного лучше, давайте посмотрим пример расчета дисперсии ниже:
Шаг 1: Получите данные
Предположим, у вас есть следующие данные: 5, 7, 9, 11, 13. Это значения из выборки данных, для которых вы хотите вычислить дисперсию.
Шаг 2: Рассчитайте среднее значение
Сложите все значения и разделите на общий объем данных, чтобы получить среднее значение:
Среднее = (5 + 7 + 9 + 11 + 13) ÷ 5 = 45 ÷ 5 = 9
Среднее значение данных равно 9.
Шаг 3. Вычтите среднее значение из каждой точки данных.
Вычтите среднее значение, полученное на предыдущем шаге, из каждого элемента данных в списке:
5 – 9 = -4
7 – 9 = -2
9 – 9 = 0
11 – 9 = 2
13 – 9 = 4
Шаг 4: возведите в квадрат каждую разницу
Возведите в квадрат каждую из разностей, полученных на предыдущем шаге:
(-4) 2 = 16
(-2) 2 = 4
0 2 = 0
2 2 = 4
4 2 = 16
Шаг 5: Сложите квадраты разностей
Складываем все результаты, полученные на предыдущем шаге:
16 + 4 + 0 + 4 + 16 = 40
Шаг 6: Разделите на объем данных
Разделите сумму квадратов разностей на общий объем данных (в данном случае 5):
Отклонение = 40 ÷ 5 = 8
Дисперсия данных равна 8 .
Какова формула дисперсии?
Прежде чем анализировать этот момент, важно отметить, что дисперсия имеет большое значение для статистики. Несмотря на то, что это довольно простая мера, она предоставляет интересную информацию на основе конкретной переменной.
Единицей измерения всегда будет та, которая соответствует данным, но в квадрате. Дополнительно следует отметить, что дисперсия всегда равна или больше нуля. Это связано с тем, что остатки всегда возводятся в квадрат, поэтому, с математической точки зрения, отрицательная дисперсия невозможна.
Учитывая это, ниже мы покажем вам формулу отклонения:
S2 = разрыв
x i = термин набора данных
X̄ = измерение образца
∑ = сумма
n = размер выборки
Что такое высокая и низкая дисперсия?
Дисперсия считается высокой, когда данные в статистической выборке или популяции редки и далеки от среднего значения . Это означает, что отдельные значения в данных широко распределены и данные сильно разнятся.
Напротив, дисперсия считается низкой, когда данные в выборке или популяции ближе к среднему значению и между отдельными значениями существует небольшая дисперсия . Это означает, что данные более последовательны и имеют меньшую изменчивость.
Каковы основные виды использования дисперсии?
Дисперсия — это статистическая мера, широко используемая в различных областях благодаря ее способности оценивать дисперсию или изменчивость данных в выборке. Некоторые из основных применений дисперсии:
В описательной статистике – для описания разброса данных в выборке, помогая понять, как отдельные значения отклоняются от среднего значения и как они распределяются внутри выборки.
В инференциальной статистике — для оценки изменчивости данных в популяции по выборке, что позволяет делать выводы о популяции в целом.
В финансах : при анализе инвестиционного риска и доходности, где более высокая дисперсия указывает на более высокий риск, а более низкая дисперсия указывает на более низкий риск в инвестиционном портфеле.
В научных исследованиях – анализируйте изменчивость данных в научных исследованиях, таких как медицинские исследования, биология, психология и другие дисциплины, чтобы понять изменчивость результатов и последовательность данных.
В контроле качества процесса : при контроле качества производственных процессов для измерения изменчивости производимой продукции или услуг, что позволяет выявить проблемы последовательности и качества процесса.
В эконометрике : при моделировании и анализе экономических данных, чтобы понять изменчивость экономических переменных и оценить надежность эконометрических моделей.
В чем смысл дисперсии?
Дисперсия важна, поскольку позволяет понять изменчивость данных в выборке . Если дисперсия высока, это означает, что данные скудны и существует большая вариабельность. Это актуально для принятия обоснованных решений в таких областях, как инвестиции, управление рисками и анализ данных.
Кроме того, дисперсия помогает понять согласованность данных в выборке или совокупности. Низкая дисперсия указывает на то, что данные последовательны и имеют небольшую изменчивость, тогда как высокая дисперсия указывает на то, что данные менее последовательны и имеют большую изменчивость.
Стандартное отклонение и дисперсия — это одно и то же?
Стандартное отклонение и дисперсия — это две связанные статистические меры, которые описывают разброс или изменчивость данных в выборке или совокупности. Основное различие между ними заключается в единицах измерения и интерпретации результатов.
Дисперсия — это мера, которая представляет собой дисперсию данных от их среднего значения, рассчитываемую как сумму квадратов отклонений отдельных значений от среднего значения, деленную на общее количество данных.
Он рассчитывается путем возведения в квадрат разностей между каждым значением и средним значением, их сложения и деления на размер выборки или популяции. Дисперсия выражается в квадратах, и ее может быть трудно интерпретировать напрямую, поскольку она находится в другом масштабе, чем исходные данные.
С другой стороны, стандартное отклонение — это не что иное, как квадратный корень из дисперсии . Он рассчитывается как положительный квадратный корень из дисперсии. Стандартное отклонение выражается в тех же единицах, что и исходные данные, и является более интуитивной мерой разброса данных.
Более высокое стандартное отклонение указывает на больший разброс или изменчивость данных, а более низкое стандартное отклонение указывает на меньший разброс или изменчивость.
Пробел для сгруппированных данных
Дисперсия для сгруппированных данных относится к вычислению изменчивости или дисперсии данных, сгруппированных по интервалам или классам . Вместо отдельных данных, как в случае с дисперсией несгруппированных данных, у вас есть диапазоны или интервалы, в которые попадают данные.
Расчет дисперсии для сгруппированных данных производится по несколько иной формуле. Сначала рассчитывается середина каждого интервала, которая представляет собой среднее значение нижнего и верхнего пределов каждого интервала. Затем вычисляется средневзвешенное среднее значение средних точек, используя в качестве весов относительные или абсолютные частоты интервалов.
Из этого средневзвешенного значения дисперсия рассчитывается по той же формуле, что и для несгруппированных данных , то есть как среднее значение квадратов различий между отдельными значениями и средневзвешенным значением.
Отклонение сгруппированных данных полезно при работе с наборами данных, представленными в виде интервалов или классов, например демографическими данными, экономическими данными или любым другим типом данных, сгруппированными в категории или диапазоны.
Свойства отклонения
Дисперсия — это статистическая мера, имеющая несколько важных свойств. Некоторые из основных свойств дисперсии:
- Это всегда неотрицательное значение , поскольку оно определяется как среднее значение квадратов разностей между отдельными данными и средним значением.
- Он чувствителен к экстремальным или выпадающим значениям в данных , поскольку представляет собой квадрат разностей.
- Он имеет единицы измерения в квадрате , что означает, что он имеет ту же самую единицу измерения, что и исходные данные.
- На него могут влиять выбросы или экстремальные данные, что может сделать его ненадежным показателем изменчивости данных.
- Если данные независимы и не коррелируют друг с другом, дисперсия суммы двух наборов данных равна сумме дисперсий двух наборов данных .
Примеры отклонений
Теперь, когда мы понимаем концепцию дисперсии и ее важность, давайте рассмотрим практический пример, чтобы лучше понять, как она работает.
Предположим, у нас есть следующие данные об экономическом результате компании в миллионах долларов за последние пять лет: 8, 12, 6, -4, 10. Мы хотим рассчитать дисперсию этого набора данных, используя формулу, упомянутую ранее.
Шаг 1: Вычислите среднее арифметическое
Сначала мы вычисляем среднее арифметическое данных, складывая его и разделяя на общее количество данных (в данном случае 5):
Среднее арифметическое (X̄) = (8 + 12 + 6 – 4 + 10) ÷ 5 = 6,4 миллиона долларов.
Шаг 2. Используйте формулу отклонения
Затем мы используем формулу дисперсии, чтобы вычислить квадрат разностей между каждой точкой данных и средним арифметическим, а затем сложить их вместе:
Где x i — каждый элемент данных, X — среднее арифметическое, а n — общее количество элементов данных.
Подставим данные и среднее арифметическое в формулу отклонения:
Отклонение (Var(X)) = [(8 – 6,4) 2 + (12 – 6,4) 2 + (6 – 6,4) 2 + (-4 – 6,4) 2 + (10 – 6,4) 2 ] ÷ (5 – 1)
Шаг 3: Решение операций
Теперь решим действия для получения значения дисперсии:
Отклонение (Var(X)) = [1,6 2 + 5,6 2 + 0,16 2 + (-10,4) 2 + 3,6 2 ] ÷ 4
Отклонение (Var(X)) = [2,56 + 31,36 + 0,0256 + 108,16 + 12,96] ÷ 4
Отклонение (Var(X)) = 155,072 ÷ 4
Дисперсия (Var(X)) = 38,768 миллиона в квадрате.
Дисперсия этого набора данных составляет 38,768 миллиона квадратов, что дает нам меру дисперсии или изменчивости данных относительно среднего арифметического.