统计参数是总结数据集重要特征并帮助我们理解和描述其中发现的信息的数值。简单来说,我们可以说它们是“标签”,可以让我们更好地理解数据并据此做出决策。
换句话说,统计参数是数学家和科学家用来以简单方式描述数据的特殊测量。基本上,它们是帮助我们更容易、更清楚地理解数字的工具。
例如,假设您有一个装满糖果的袋子,并且您想知道总共有多少糖果。这就是统计参数的用武之地。平均值是糖果的平均数量,将所有糖果相加并除以总数得到的。这可以让您了解您可以找到的平均糖果数量。
但还有更多,另一个重要参数是标准差,它可以帮助您了解糖果与平均值的差距。它显示了糖果与平均数量相比有多么不同。
有趣的是,统计参数也可以用来进行预测。例如,如果你想知道一周后袋子里会有多少糖果,你可以使用统计参数来估计。您计算您现在拥有的平均糖果数量,并使用标准差来了解该平均值在一周内的变化情况。
有哪些类型的统计参数?
在统计学中,参数主要有两类:集中趋势参数和离散参数。
集中趋势参数
集中趋势参数告诉我们数据集中哪个值是典型的或具有代表性的。在集中趋势参数中,我们有三个重要的指标:
- 平均值:平均值是总体(样本)的比率值。
- 中位数:另一方面,我们有中位数,其功能是将样本分为两部分,上部分和下部分。简单来说,它将数据分成两部分。
- 众数:最后,众数只不过是样本中出现频率最高的值。
我们将通过一个数值例子来解释使用均值、中位数和众数的集中趋势参数。
假设您有一群人的年龄如下:25、30、32、35、40、40、42、45、50。
平均数就是平均年龄。为了计算它,我们将所有年龄相加,然后除以年龄总数。在本例中,我们加上 25 + 30 + 32 + 35 + 40 + 40 + 42 + 45 + 50 = 339,然后除以 9(总年龄是多少)。则平均值为 339 ÷ 9 = 37.67 年。
中位数是年龄从最小到最大排序时的中间值。在这种情况下,排序后的年龄将为:25, 30, 32, 35, 40, 40, 42, 45, 50。由于年龄为奇数,因此中位数将是中间位置的值,即40 年。
众数是数据集中出现最频繁的值。在本例中,众数为 40 年,因为它出现了两次,而其他年龄只出现了一次。
所以,综上所述,平均值是 37.67 年,中位数是 40 年,众数也是 40 年。
色散参数
另一方面,分散参数告诉我们一组数据的分散程度或变化程度。最常见的是方差和标准差。
方差
方差衡量数据偏离平方的程度。在这种情况下,您必须先求平方,然后计算相关平均值。让我们看下面的例子以更好地理解解释:
假设您有 5 个学生的测试成绩如下:80、85、90、95、100。首先,我们将所有分数相加并除以学生总数来得出平均值:( 80 + 85 + 90 + 95 + 100) ÷ 5 = 90。
然后,为了计算方差,我们从每个评分中减去平均值并对结果求平方。然后我们对平方结果进行平均。在这种情况下,计算结果为:
(80 – 90) 2 = 100
(85 – 90) 2 = 25
(90 – 90) 2 = 0
(95 – 90) 2 = 25
(100 – 90) 2 = 100
我们将结果相加:100 + 25 + 0 + 25 + 100 = 250。然后除以数据点总数 (5) 得到平均值:250 ÷ 5 = 50。
因此,本例中的方差为 50 。这告诉我们,平均而言,分数与平均值的偏差平均为 50 个平方单位,这表示数据相对于平均值的离散度或变异性。
标准差
正如我们之前研究的那样,标准差简单地定义为方差 的平方根的结果。值得一提的是,与正态分布情况下的平均偏差相比,这种类型的分散参数进行估计的效率要高得多。
我们以前面的测试分数为例:80、85、90、95、100。我们已经计算了方差,结果是 50。要获得标准差,我们只需取方差的平方根。
√50 ≈ 7.07
因此,这种情况下的标准偏差约为 7.07 。这告诉我们,平均而言,分数与平均值相差约 7.07 个单位,但测量单位与原始分数相同。这是一种更容易解释和与原始数据进行比较的衡量标准,因为它具有相同的规模。
分位数
除了上述测量之外,我们还考虑色散参数。分位数函数是将样本n划分为等效部分。因此,可以估计值更集中的范围。根据n 的值,分位数以不同的方式定义。
- Deciles :负责将数据集分成十个相等的部分。
- 四分位数:与之前的模型工作原理相同,只是十的位置分为四个部分。
- 百分位数– 最后,百分位数用于将一组数据分成 100 个相同的部分。
统计参数有什么用?
正如我们之前提到的,统计参数非常重要,而且用途也相当广泛。接下来,我们介绍它的一些最重要的应用。
经济
统计参数用于分析经济指标,例如GDP、失业率、通货膨胀等。这些参数使得衡量一个国家或地区的经济健康状况、识别趋势并为经济政策决策做出预测成为可能。
健康科学
在这种情况下,它们用于临床和流行病学研究来分析健康数据,例如疾病的患病率、治疗的有效性、风险因素的影响等。这些参数对于疾病的预防、诊断和治疗决策至关重要。
社会科学
另一方面,统计参数在心理学、社会学、教育学等学科中很有用,可以分析人类行为、态度、观点等数据。这些参数使得获取信息并对所研究的人群做出推断成为可能。
市场营销和广告
除了上述之外,在广告领域它们也非常重要。在这种情况下,它们用于分析市场数据,例如客户细分、消费者偏好和行为分析、广告活动评估等。这些指标有助于理解营销和广告策略并做出明智的决策。
科学调查
此外,它们还用于生物学、物理、化学等科学研究的各个领域,以分析实验数据、做出推论和验证结果。这些参数对于科学研究的严谨性和有效性至关重要。
金融
它们还用于分析财务数据,例如投资的盈利能力、资产的波动性、风险评估等。这些参数用于投资管理、财务规划和风险评估的决策。
工程
最后,它们非常适合各个工程领域,例如质量工程、过程工程、系统工程等,用于分析生产、质量、性能和过程优化。这些参数用于项目管理和系统优化的持续改进和决策。
统计参数示例
鉴于上述信息,是时候使用示例来更好地强化所学知识了。那么让我们看看吧。
1.示例平均值(平均值)
假设您有 5 个学生的数学测试成绩列表:7、8、9、6 和 10。为了求出平均值,我们将所有分数相加,然后除以学生人数:
7 + 8 + 9 + 6 + 10 = 40
平均值 = 40 ÷ 5 = 8
因此,这5名学生的平均成绩为8分。
2.中位数示例
假设您有 7 个人的年龄列表:12、14、15、13、12、16 和 18。为了找到中位数,我们首先按升序对年龄进行排序:12、12、13, 14, 15, 16, 18
接下来,我们找到列表的中值,在本例中为 14 年。因此,这群人的平均年龄为14岁。
3.时尚范例
假设您有 10 个人所穿衬衫颜色的列表:红、蓝、绿、红、黄、蓝、绿、绿、红、蓝。模式是列表中出现最频繁的值。在这种情况下,绿色出现 3 次,而其他颜色仅出现 2 次或更少。因此,T恤颜色的流行是绿色。
4.百分位数示例
假设您有一个数据集,表示 20 名高中生的身高(以厘米为单位)。您想要找到第 75 个百分位,即 75% 的身高低于该值。对数据进行排序后,您会看到第 75 个百分位数对应的值为 168 厘米。这意味着75%的学生身高在168厘米以下。
5.偏差示例
假设您有一个数据集,表示 10 名学生每天为考试学习的小时数。数据为:2,3,4,2,5,3,4,1,2,3。要求方差,必须先求均值,即 2.7 小时。然后从每个值中减去平均值,平方,然后将其全部相加。最后,将总和除以数据点的数量:
((2-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (2-2.7) 2 + (5-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (1-2.7) 2 + (2-2.7) 2 + ( 3-2.7 ) 2 ) ÷ 10 = 1.61
因此,该组学生的学习时间方差为1.61。
6.标准差示例
继续前面的示例,要找到标准差,只需取方差的平方根:
√1.61 ≈ 1.27
因此,该组学生的学习时间标准差约为1.27小时。