Статистические параметры — это числовые значения, которые суммируют важные характеристики набора данных и помогают нам понять и описать содержащуюся в нем информацию. Говоря простым языком, можно сказать, что это «метки», которые позволяют нам лучше понимать данные и принимать на их основе решения.
Другими словами, статистические параметры — это специальные измерения, используемые математиками и учёными для простого описания данных . По сути, это инструменты, которые помогают нам легче и яснее понимать числа.
Например, предположим, что у вас есть сумка, полная конфет, и вы хотите узнать, сколько всего конфет в ней. Здесь на помощь приходят статистические параметры. Среднее число — это среднее количество конфет , которое получается путем сложения всех конфет и деления на общую сумму. Это дает вам представление о среднем количестве конфет, которые вы можете найти.
Но это еще не все: еще один важный параметр — стандартное отклонение , которое помогает понять , насколько конфеты далеки от среднего значения . Он показывает, насколько конфеты отличаются от среднего количества.
Что интересно, статистические параметры также можно использовать для прогнозирования . Например, если вы хотите узнать, сколько конфет будет в сумке через неделю, вы можете использовать статистические параметры для оценки. Вы рассчитываете среднее количество конфет, которые у вас есть сейчас, и используете стандартное отклонение, чтобы получить представление о том, как это среднее число изменится в течение недели.
Какие типы статистических параметров существуют?
В статистике существует два основных типа параметров: параметры центральной тенденции и параметры дисперсии.
Параметры центральной тенденции
Параметры центральной тенденции говорят нам , какое значение является типичным или репрезентативным в наборе данных . Среди параметров центральной тенденции у нас есть три важных показателя:
- Среднее : Среднее значение представляет собой соотношение генеральной совокупности (выборки).
- Медиана : с другой стороны, у нас есть медиана, функция которой состоит в том, чтобы разделить выборку на две части: верхнюю и нижнюю. Проще говоря, он разбивает данные на две части.
- Режим : Наконец, режим — это не что иное, как наиболее частое значение в выборке.
Мы будем использовать числовой пример, чтобы объяснить параметры центральной тенденции, используя среднее значение, медиану и моду.
Предположим, у вас есть группа людей следующего возраста: 25, 30, 32, 35, 40, 40, 42, 45, 50.
Средний возраст – это средний возраст . Чтобы его вычислить, мы складываем все возрасты, а затем делим на общее количество возрастов. В данном случае складываем 25+30+32+35+40+40+42+45+50=339, затем делим на 9 (сколько всего возрастов). Тогда среднее значение составит 339 ÷ 9 = 37,67 лет.
Медиана — это среднее значение , если возрасты упорядочены от наименьшего к наибольшему. В этом случае упорядоченный возраст будет следующим: 25, 30, 32, 35, 40, 40, 42, 45, 50. Поскольку существует нечетное количество возрастов, медианой будет значение в средней позиции, которое 40 лет.
Режим — это значение, которое чаще всего появляется в наборе данных . В данном случае режимом является 40 лет, поскольку он появляется дважды, тогда как остальные возрасты появляются только один раз.
Итак, подводя итоги, среднее значение составляет 37,67 года, медиана — 40 лет, мода — тоже 40 лет.
Параметры дисперсии
С другой стороны, параметры дисперсии говорят нам , насколько разбросаны или разнообразны данные в наборе . Наиболее распространенными являются дисперсия и стандартное отклонение.
Дисперсия
Дисперсия измеряет, насколько данные могут отклоняться от квадрата . В этом случае необходимо сначала возвести в квадрат, а затем вычислить рассматриваемое среднее значение. Давайте посмотрим на следующий пример, чтобы лучше понять объяснение:
Предположим, у вас есть следующие результаты тестов для пяти учеников: 80, 85, 90, 95, 100. Сначала находим среднее значение, суммируя все баллы и разделяя на общее количество учеников: ( 80 + 85 + 90 + 95 + 100) ÷ 5 = 90.
Затем, чтобы вычислить дисперсию, мы вычитаем среднее значение из каждого рейтинга и возводим результаты в квадрат. Затем мы усредняем квадраты результатов. В этом случае расчеты будут такими:
(80 – 90) 2 = 100
(85 – 90) 2 = 25
(90 – 90) 2 = 0
(95 – 90) 2 = 25
(100 – 90) 2 = 100
Складываем результаты: 100 + 25 + 0 + 25 + 100 = 250. А затем делим на общее количество точек данных (5), чтобы получить среднее значение: 250 ÷ 5 = 50.
Таким образом, дисперсия в этом случае равна 50 . Это говорит нам о том, что в среднем оценки отклоняются в среднем на 50 квадратных единиц от среднего значения, что представляет собой дисперсию или изменчивость данных от среднего значения.
Среднеквадратичное отклонение
Как мы изучали ранее, стандартное отклонение просто определяется как результат квадратного корня из дисперсии . Стоит отметить, что этот тип параметра дисперсии гораздо более эффективен для оценок по сравнению со средним отклонением в случае нормального распределения.
Давайте возьмем предыдущий пример результатов теста: 80, 85, 90, 95, 100. Мы уже рассчитали дисперсию, и она равна 50. Чтобы получить стандартное отклонение, мы просто извлекаем квадратный корень из дисперсии.
√50 ≈ 7,07
Таким образом, стандартное отклонение в этом случае составляет примерно 7,07 . Это говорит нам о том, что в среднем оценки отклоняются от среднего значения примерно на 7,07 единиц, но в тех же единицах измерения, что и исходные оценки. Эту меру легче интерпретировать и сравнивать с исходными данными, поскольку она находится в том же масштабе.
квантили
Помимо приведенных выше измерений, мы также рассматриваем параметры дисперсии. Функция квантиля — это разделение выборки n на эквивалентные части . Благодаря этому можно оценить диапазоны, в которых наблюдается большая концентрация значений. В зависимости от значения n квантили определяются по-разному.
- Децили : отвечают за разделение набора данных на десять равных разделов.
- Квартили : работает так же, как и предыдущая модель, за исключением того, что десятичный разряд разделен на четыре части.
- Процентили . Наконец, процентили используются для разделения данных в наборе на 100 идентичных разделов.
Для чего используются статистические параметры?
Как мы уже упоминали ранее, статистические параметры очень важны и их использование довольно широко. Далее мы представляем некоторые из наиболее важных его применений.
Экономика
Статистические параметры используются для анализа экономических показателей, таких как ВВП, уровень безработицы, инфляция и другие. Эти параметры позволяют измерять экономическое здоровье страны или региона, выявлять тенденции и делать прогнозы для принятия решений в области экономической политики.
Медицинских наук
В этом случае они используются в клинических и эпидемиологических исследованиях для анализа данных о состоянии здоровья , таких как распространенность заболевания, эффективность лечения, влияние факторов риска и других. Эти параметры имеют важное значение для принятия решений в области профилактики, диагностики и лечения заболеваний.
социальные науки
С другой стороны, статистические параметры полезны в таких дисциплинах, как психология, социология, образование и других, для анализа данных о человеческом поведении, отношениях, мнениях и других. Эти параметры позволяют получить информацию и сделать выводы об изучаемой популяции.
Маркетинг и реклама
Помимо вышеперечисленного, в мире рекламы они также очень важны. В этом случае они используются для анализа рыночных данных , таких как сегментация клиентов, анализ потребительских предпочтений и поведения, оценка рекламных кампаний и другие. Эти показатели помогают понять и принять обоснованные решения в маркетинговых и рекламных стратегиях.
Научное исследование
Кроме того, они используются в различных областях научных исследований, таких как биология, физика, химия и др., для анализа экспериментальных данных, формулирования выводов и проверки результатов . Эти параметры необходимы для строгости и достоверности научных исследований.
Финансы
Они также используются для анализа финансовых данных, таких как прибыльность инвестиций, волатильность актива, оценка рисков и других. Эти параметры используются для принятия решений в управлении инвестициями, финансовом планировании и оценке рисков.
Инженерное дело
Наконец, они идеально подходят в различных областях техники, таких как инженерия качества, технологическое проектирование, системное проектирование и т. д., для анализа производства, качества, производительности и оптимизации процессов . Эти параметры используются для постоянного улучшения и принятия решений при управлении проектами и оптимизации системы.
Пример статистических параметров
Учитывая приведенную выше информацию, пришло время использовать пример, чтобы лучше закрепить изученное. Тогда посмотрим.
1. Пример Среднее (среднее)
Допустим, у вас есть список из пяти баллов учащихся по тесту по математике: 7, 8, 9, 6 и 10. Чтобы найти среднее значение, мы суммируем все баллы, а затем делим их на количество учеников:
7 + 8 + 9 + 6 + 10 = 40
Среднее = 40 ÷ 5 = 8
Следовательно, средний или средний балл этих 5 учеников равен 8.
2. Медианный пример
Допустим, у вас есть список возрастов для группы из 7 человек: 12, 14, 15, 13, 12, 16 и 18. Чтобы найти медиану, мы сначала упорядочиваем возрасты в порядке возрастания: 12, 12, 13, 14, 15, 16, 18
Далее находим медианное значение списка, которое в данном случае составляет 14 лет. Таким образом, средний возраст этой группы людей составляет 14 лет.
3. Пример моды
Допустим, у вас есть список цветов рубашек, которые носит группа из 10 человек: красный, синий, зеленый, красный, желтый, синий, зеленый, зеленый, красный, синий. Режим — это значение, которое чаще всего появляется в списке. В этом случае зеленый цвет появляется 3 раза, а другие цвета — не более 2 раз. Поэтому в моде цвета футболок – зеленые.
4. Пример процентилей
Предположим, у вас есть набор данных, который представляет рост в сантиметрах группы из 20 старшеклассников. Вам нужно найти 75-й процентиль — значение, ниже которого падает 75% высот. Отсортировав данные, вы видите, что значение, соответствующее 75-му процентилю, составляет 168 см. Это означает, что 75% студентов имеют рост 168 см или меньше.
5. Пример отклонения
Допустим, у вас есть набор данных, который представляет собой количество часов, в течение которых группа из 10 студентов ежедневно готовится к тесту. Данные: 2, 3, 4, 2, 5, 3, 4, 1, 2, 3. Чтобы найти дисперсию, сначала необходимо найти среднее значение, которое составляет 2,7 часа. Затем вы вычитаете среднее значение из каждого значения, возводите его в квадрат и складываете. Наконец, вы делите сумму на количество точек данных:
((2-2,7) 2 + (3-2,7) 2 + (4-2,7) 2 + (2-2,7) 2 + (5-2,7) 2 + (3-2,7) 2 + (4-2,7) 2 + (1-2,7) 2 + (2-2,7) 2 + ( 3-2,7 ) 2 ) ÷ 10 = 1,61
Таким образом, дисперсия учебных часов для этой группы студентов составляет 1,61.
6. Пример стандартного отклонения
Продолжая предыдущий пример, чтобы найти стандартное отклонение, просто извлеките квадратный корень из дисперсии:
√1,61 ≈ 1,27
Таким образом, стандартное отклонение учебных часов для этой группы студентов составляет примерно 1,27 часа.