統計パラメータは、データセットの重要な特性を要約し、そこに含まれる情報を理解して説明するのに役立つ数値です。簡単に言うと、データをより深く理解し、それに基づいて意思決定を行うための「ラベル」であると言えます。
言い換えれば、統計パラメータは、数学者や科学者がデータを簡単に説明するために使用する特別な測定値です。基本的に、これらは数字をより簡単かつ明確に理解するのに役立つツールです。
たとえば、袋にキャンディーがいっぱい入っていて、キャンディーの合計数を知りたいとします。ここで統計パラメータが登場します。平均とは、キャンディーの平均数であり、すべてのキャンディーを合計し、総量で割ることによって得られます。これにより、見つかると予想されるキャンディーの平均数がわかります。
しかし、それだけではありません。もう 1 つの重要なパラメータは標準偏差です。これは、キャンディーが平均からどれだけ離れているかを理解するのに役立ちます。平均的な数と比較してキャンディーがどれだけ異なるかを示します。
興味深いのは、統計パラメータも予測に使用できることです。たとえば、1 週間後に袋の中にキャンディーが何個入っているかを知りたい場合は、統計パラメータを使用して推定することができます。現在持っているキャンディーの平均数を計算し、標準偏差を使用して、その平均が 1 週間でどのように変化するかを把握します。
統計パラメータにはどのような種類がありますか?
統計学には、中心傾向パラメータと分散パラメータという 2 つの主なタイプのパラメータがあります。
中心傾向パラメータ
中心傾向パラメータは、どの値がデータセット内の典型的または代表的な値であるかを示します。中心的な傾向パラメータの中には、次の 3 つの重要な尺度があります。
- 平均: 平均は母集団 (サンプル) の比率の値です。
- 中央値: 一方、サンプルを上部と下部の 2 つの部分に分割する機能を持つ中央値があります。簡単に言えば、データを 2 つに分割します。
- モード: 最後に、モードはサンプル内で最も頻繁に使用される値に他なりません。
数値例を使用して、平均値、中央値、最頻値を使用した中心傾向のパラメーターを説明します。
25、30、32、35、40、40、42、45、50 人の年齢層のグループがあるとします。
平均は平均年齢です。これを計算するには、すべての年齢を加算し、年齢の合計数で割ります。この場合、25 + 30 + 32 + 35 + 40 + 40 + 42 + 45 + 50 = 339 を加算し、9 で割ります (全体の年齢の数)。平均は 339 ÷ 9 = 37.67 年となります。
中央値は、年齢を小さい方から大きい方へ並べたときの中央の値です。この場合、順序付けされた年齢は、25、30、32、35、40、40、42、45、50 になります。年齢の数が奇数であるため、中央値は中央の位置の値になります。 40年。
モードは、データセット内で最も頻繁に現れる値です。この場合、モードは 40 年です。これは 2 回表示されますが、他の年齢は 1 回のみ表示されます。
要約すると、平均は 37.67 年、中央値は 40 年、最頻値も 40 年です。
分散パラメータ
一方、分散パラメータは、データがセット内でどの程度分散または変化しているかを示します。最も一般的なのは分散と標準偏差です。
分散
分散は、データが正方形からどの程度逸脱できるかを測定します。この場合、まず二乗してから問題の平均を計算する必要があります。説明をよりよく理解するために、次の例を見てみましょう。
5 人の生徒のテストの得点が 80、85、90、95、100 であるとします。まず、すべての得点を合計し、生徒の総数で割って平均を求めます: ( 80 + 85 + 90 + 95 + 100) ÷ 5 = 90。
次に、分散を計算するために、各評価から平均を引き、結果を 2 乗します。次に、二乗した結果を平均します。この場合、計算は次のようになります。
(80 – 90) 2 = 100
(85 – 90) 2 = 25
(90 – 90) 2 = 0
(95 – 90) 2 = 25
(100 – 90) 2 = 100
結果を加算します: 100 + 25 + 0 + 25 + 100 = 250。次に、データ ポイントの総数 (5) で割って、平均を求めます: 250 ÷ 5 = 50。
したがって、この場合の分散は 50 です。これは、平均して、スコアが平均から平均 50 平方単位だけ乖離していることを示しており、これは平均からのデータの分散または変動性を表しています。
標準偏差
以前に検討したように、標準偏差は分散の平方根の結果として単純に定義されます。このタイプの分散パラメータは、正規分布の場合の平均偏差と比較して、推定を行うのにはるかに効率的であることに言及する価値があります。
前のテストのスコアの例を考えてみましょう: 80、85、90、95、100。分散はすでに計算されており、その値は 50 です。標準偏差を取得するには、分散の平方根を取るだけです。
√50 ≈ 7.07
したがって、この場合の標準偏差は約 7.07 になります。これは、平均すると、スコアは平均から約 7.07 単位離れていますが、測定単位は元のスコアと同じであることがわかります。これは同じスケール上にあるため、元のデータと解釈して比較するのが容易な測定です。
分位数
上記の測定に加えて、分散パラメータも考慮します。分位関数は、サンプルnを同等のセクションに分割することです。このおかげで、値がより集中している範囲を推定することができます。 n の値に応じて、分位数はさまざまな方法で定義されます。
- Deciles : データセットを 10 個の等しいセクションに分割する役割を果たします。
- 四分位数: 10 の位が 4 つのセクションに分割されていることを除いて、前のモデルと同じように機能します。
- パーセンタイル– 最後に、 パーセンタイルを使用して、セット内のデータを 100 個の同一セクションに分割します。
統計パラメータは何に使用されますか?
前に述べたように、統計パラメータは非常に重要であり、その使用範囲は非常に広いです。次に、その最も重要なアプリケーションをいくつか紹介します。
経済
統計パラメータは、GDP、失業率、インフレなどの経済指標を分析するために使用されます。これらのパラメーターにより、国や地域の経済の健全性を測定し、傾向を特定し、経済政策の意思決定のための予測を行うことが可能になります。
健康科学
この場合、病気の罹患率、治療の有効性、危険因子の影響などの健康データを分析するために、臨床研究や疫学研究で使用されます。これらのパラメータは、病気の予防、診断、治療における意思決定に不可欠です。
社会科学
一方、統計パラメータは、心理学、社会学、教育などの分野で、特に人間の行動、態度、意見などに関するデータを分析するのに役立ちます。これらのパラメーターにより、調査対象の母集団に関する情報を取得し、推論することが可能になります。
マーケティングや広告
上記に加えて、広告の世界ではこれらも非常に重要です。この場合、顧客のセグメント化、消費者の好みや行動の分析、広告キャンペーンの評価などの市場データの分析に使用されます。これらの指標は、マーケティングおよび広告戦略を理解し、情報に基づいた意思決定を行うのに役立ちます。
科学的調査
さらに、生物学、物理学、化学などの科学研究のさまざまな分野で、実験データの分析、推論、結果の検証に使用されています。これらのパラメータは、科学研究の厳密さと妥当性にとって不可欠です。
ファイナンス
また、投資の収益性、資産のボラティリティ、リスク評価などの財務データの分析にも使用されます。これらのパラメータは、投資管理、財務計画、リスク評価における意思決定に使用されます。
エンジニアリング
最後に、品質工学、プロセス エンジニアリング、システム エンジニアリングなど、生産、品質、パフォーマンス、プロセスの最適化を分析するためのさまざまなエンジニアリング分野に最適です。これらのパラメータは、プロジェクト管理とシステムの最適化における継続的な改善と意思決定に使用されます。
統計パラメータの例
上記の情報を踏まえて、例を使用して学んだ内容をさらに強化します。では、見てみましょう。
1.例Average(平均)
数学のテストで 5 人の生徒の得点のリスト (7、8、9、6、10) があるとします。平均を求めるには、すべての得点を合計し、生徒の数で割ります。
7 + 8 + 9 + 6 + 10 = 40
平均 = 40 ÷ 5 = 8
したがって、これら 5 人の生徒の平均または平均成績は 8 です。
2.中央値の例
7 人のグループの年齢リストがあるとします: 12、14、15、13、12、16、18。中央値を見つけるには、まず年齢を昇順に並べます: 12、12、13、 14、15、16、18
次に、リストの中央値を見つけます。この場合は 14 年です。したがって、このグループの人々の年齢の中央値は 14 歳です。
3.ファッション例
10 人のグループが着ているシャツの色のリストがあるとします。赤、青、緑、赤、黄、青、緑、緑、赤、青です。モードは、リストに最も頻繁に表示される値です。この場合、緑色は 3 回出現しますが、他の色は 2 回以下しか出現しません。したがって、Tシャツの色の流行は緑です。
4.パーセンタイルの例
20 人の高校生のグループの身長をセンチメートル単位で表すデータ セットがあるとします。 75 パーセンタイル (高さの 75% が下回る値) を見つけたいとします。データを並べ替えると、75 パーセンタイルに対応する値が 168 cm であることがわかります。これは、生徒の 75% が 168 cm 以下であることを意味します。
5.逸脱の例
10 人の学生のグループが毎日テストのために勉強する時間数を表すデータ セットがあるとします。データは次のとおりです: 2、3、4、2、5、3、4、1、2、3。分散を見つけるには、まず平均 (2.7 時間) を見つける必要があります。次に、各値から平均を引き、二乗し、すべてを合計します。最後に、合計をデータ ポイントの数で割ります。
((2-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (2-2.7) 2 + (5-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (1-2.7) 2 + (2-2.7) 2 + ( 3-2.7 ) 2 ) ÷ 10 = 1.61
したがって、このグループの学生の学習時間の分散は 1.61 です。
6.標準偏差の例
前の例を続けると、標準偏差を求めるには、分散の平方根を求めるだけです。
√1.61 ≈ 1.27
したがって、このグループの生徒の学習時間の標準偏差は約 1.27 時間となります。