最頻値、平均値、中央値は、データセットの特性を説明するために使用される統計における 3 つの重要な概念です。
最頻値はデータ セット内の最も頻度の高い値を指し、平均値はデータ セットの平均値、中央値はデータ セットを 2 つの等しい部分に分割する値です。
これらの各概念は、データに対する異なる有益な洞察を提供します。これらは通常、データセットをより完全に理解するために一緒に使用されます。
適切なコンセプトの選択は、扱うデータの種類と達成したい目標によって異なります。したがって、それらがどのように機能するのか、いつ正しく使用するのかを理解することが重要です。
ファッションとは何ですか?
最頻値は、一連の統計サンプル内で最も頻繁に発生する値または一般的な値です。言い換えれば、これはデータセット内で最も頻繁に現れる値です。
複数の値が同じ最大頻度で表示される場合、複数のモードがあると言えます。最頻値は、統計でデータを説明するために使用される中心傾向の尺度です。
この値は、分布が非対称であるか外れ値があるデータ セットで特に役立ちます。したがって、モードはこれらの値の影響を受けず、これらの場合の中心傾向をより正確に示します。
モードはどのように計算されますか?
モードの計算は非常に簡単で、次のように実行できます。
- データセット内の各値の頻度を数え、頻度が最も高い値を見つけます。これがモード値になります。
- データセットを並べ替えて、最も頻繁に出現する値を見つけます。これがモード値になります。
- データ セットが離散的ではなく連続的である場合、ヒストグラムを使用してデータをプロットし、最大数の値が含まれる間隔を見つけることができます。最頻値は、最大頻度で発生するその間隔内の値になります。
例
データセットに次の値があるとします。
5、8、9、9、10、11、11、12
モードは次のように計算できます。
各値の頻度をカウントします。
5:1
8:1
9:2
10:1
11:2
12:1
ご覧のとおり、値 9 と値 11 はデータセット内で最も一般的な値であるため、9 と 11 の 2 つのモードがあります。
データの並べ替え:
5、8、9、9、10、11、11、12
最も頻繁に出現する値を見つけます。
9 と 11 は最も頻度の高い値であるため、データセットのモードとなります。
この例では、データセット内に 2 つのモードが見つかりました。これは、同じ最大頻度で発生する 2 つの値があることを意味します。
データセットに最も一般的な値が 1 つだけある場合、その値が唯一のモードになります。
平均はどれくらいですか?
算術平均は、データセット内のデータの位置に関する情報を提供する中心傾向の尺度です。
これはデータのセットを要約して説明する方法であり、異なるデータのセットを比較するのに役立ちます。
これは数学的な意味でデータの中心を表す値であり、理解しやすく、他の人に伝えることができる測定値です。
平均値は中心傾向の尺度であるだけでなく、予測にも使用できます。
たとえば、過去の一連のデータの平均がわかっている場合、この情報を使用して将来の平均を予測できます。
これは、経済学、科学、医学などのさまざまなアプリケーションで役立ちます。
ただし、平均値はデータセット内の外れ値や代表的ではない値の影響を受ける可能性があることに注意することが重要です。
平均はどのように計算されますか?
データセット内のすべての値を合計し、その結果をセット内の値の数で割ることによって計算できます。
平均を計算するために必要な式は次のとおりです。
ここで、N はデータセット内の値の数です。
平均を計算する数値例を次に示します。
データセットに次の値があるとします。
5、8、9、10、11、12
以下のように計算することが可能です。
平均 = (5 + 8 + 9 + 10 + 11 + 12) ÷ 6
平均 = 55 ÷ 6
平均 = 9.17
この例では、平均は 9.17 です。これは、データセット内の値の平均値が 9.17 であることを意味します。
中央値とは何ですか?
中央値は、データセット内のデータの中心位置を表す中心傾向の尺度です。
すべてのデータの合計に基づいてデータの数で割った測定値である平均とは異なり、中央値はデータの順序に基づいています。また、データを 2 つの等しい半分に分割する値も表します。
これは堅牢な測定であること、つまり平均の場合のように、データセット内の外れ値や代表的ではない値の影響を受けないことは言及する価値があります。
たとえば、データ セットに残りのデータと比較して外れ値である非常に高い値または非常に低い値が含まれている場合、平均値は影響を受ける可能性がありますが、中央値は依然としてデータの中心位置を適切に表します。
中央値を計算するにはどうすればよいですか?
中央値を計算するには、まずデータを最小値から最大値、またはその逆の順序で並べる必要があります。
そして、データ数が奇数の場合、中央位置を占める値が中央値となります。
データ要素の数が偶数の場合、中央値は 2 つの中央値の算術平均になります。
例えば
データセット 2、5、7、9、12 を考えてみましょう。
データは最小から最大の順に、2、5、7、9、12 となります。
データが偶数であるため、中央値は 2 つの中央値の算術平均、つまり (7 + 9) ÷ 2 = 8 を計算することによって求められます。
最頻値、平均値、中央値の適用
最頻値、平均値、中央値の応用は非常に幅広く、さまざまな分野で見られます。そのうちのいくつかは次のとおりです。
- 統計: データセット内のデータの位置を説明する中心傾向の尺度です。これらは、データセットの説明と比較、および予測を行うために使用される測定値です。
- 経済: 収入、支出、その他の経済指標の分布を説明するために使用されます。たとえば、平均値は母集団の平均収入を測定するために使用でき、中央値は分布の中心にある人の収入を測定するために使用できます。
- 社会科学: 年齢、収入、教育などの変数のパターンと傾向を説明するために使用されます。たとえば、集団の平均年齢を使用して、集団の平均年齢を説明できます。
- 品質測定: 顧客満足度と製品のパフォーマンスを測定するために使用されます。たとえば、顧客レビューの平均を使用して、製品に対する顧客満足度の全体的なレベルを測定できます。
- 研究: 研究や実験の結果を説明および比較するのに役立ちます。たとえば、平均を使用して、2 つの異なるグループの平均サイズを比較できます。
一般に、最頻値、平均値、中央値は、データを説明、比較、予測するための貴重な指標です。これらのメトリクスにはそれぞれ長所と短所があるため、扱っている問題とデータに基づいて適切なメトリクスを選択することが重要です。
最頻値、平均値、中央値を計算する例
最頻値、平均値、中央値を計算できる例を次に示します。
声明:身長を調べるために 100 人にアンケートが実施されます。次の情報が収集されます。
身長(センチメートル):170、175、170、165、180、170、175、170、165、180、175、180、185、170、165
1. 計算モード
モードは、データ セット内で頻繁に現れる値です。この場合、値 170 が最も頻繁に繰り返されるため、モードは 170 になります。
2. 平均値の計算
平均は、すべての値を加算し、項目数で割ることによって計算されます。平均を計算する式は次のとおりです。
平均 = (値の合計) ÷ (要素の数)
平均 = (170 + 175 + 170 + 165 + 180 + 170 + 175 + 170 + 165 + 180 + 175 + 180 + 185 + 170 + 165) ÷ 15
平均 = 170
3. 中央値の計算
中央値は、順序付けされたデータ セットの中央の値です。この場合、要素が 15 個あるため、中央値は 8 番目の値になります。
中央値 = 170
これらは、回答者の身長データセットの最頻値、平均値、中央値の計算の結果です。