標準または標準偏差は、個々のデータ ポイントがデータ セットの平均または平均からどれだけ離れているかを示す統計的尺度です。これは、データがアンサンブル平均からどの程度変化しているかを理解するために使用される分散の尺度です。
より複雑な用語では、標準または標準偏差は分散の平方根です。分散は、各データ項目間の二乗差の平均と全体の平均として計算されます。分散の平方根を取ると、元のデータと同じ単位の標準偏差が得られます。
これは統計における重要な尺度であることは言及する価値があります。そのおかげで、データの分散を定量化し、平均と比較してどのように分布しているかを理解することができます。標準偏差が低いということは、データが平均に近い傾向があることを示します。一方、標準偏差が高い場合は、データが平均よりも分散しているか、平均から離れていることを示します。
一般に、標準偏差は、セット内のデータのばらつきを理解し、比較するために使用されます。
標準偏差は何に使用されますか?
標準偏差は、データ分析にいくつかの用途がある統計ツールです。最もよく知られているユーティリティには次のようなものがあります。
- 分散の尺度: 個々のデータが平均または全体の平均からどの程度離れているかを定量化します。標準偏差が高いと、データの分散またはばらつきが大きいことを示し、標準偏差が低いと、分散が小さいことを示します。
- データセットの比較– 異なるデータセット間の変動性を比較するために使用できます。標準偏差が大きいセットには、標準偏差が小さいセットよりもデータの分散が多くなります。
- 外れ値の特定– これは、データセット内の外れ値や極値を特定するのにも役立ちます。データ ポイントが平均から数標準偏差離れている場合、これはそれが異常な値または外れ値であることを示している可能性があります。
- モデルの精度の評価– 場合によっては、モデルまたは推定の精度の尺度として標準偏差が使用されます。たとえば、推論統計では、標準偏差を使用して信頼区間を計算したり、仮説検定を実行したりできます。
標準偏差の性質
標準偏差には、言及する価値のあるいくつかの重要な特性があります。
- 標準偏差は距離の尺度であるため、常に負ではない値になります。
- セット内のすべてのデータが同じ値を持つ場合、標準偏差は 0 になります。
- 外れ値の影響を受け、データセット内で大きな影響を受ける可能性があります。
- データの規模に影響されます。データが大規模な場合、標準偏差も大きくなり、その逆も同様です。
- 元のデータと同じ単位で表現されるため、これは相対分散の尺度になります。
標準偏差の公式は何ですか?
標準偏差の数学式は次のとおりです。
金:
σ:標準偏差を表します。
Σ:和を表します。
xi: これらはデータセットの個々の値です。
平均: これはデータセットの平均です。
n はセット内のデータの総数です。
標準偏差は分散の尺度であり、セット内のデータがその平均値または平均値からどの程度異なっているかを理解することができます。これは、セット内の各値とセットの平均の差の二乗和の平方根をセット内のデータの総数で割ることによって計算されます。
標準偏差はどのように計算されますか?
標準偏差は、次の手順を使用して計算されます。
1. データセットの平均値を計算します。
平均は、データセット内のすべての値を合計し、その結果を合計データ値で割ることによって取得されます。数学的には、次のように表されます。
ここで、xi はデータセット内の各値、n はセット内のデータ項目の数、Σ は合計を表します。
2. データセット内の各値から平均を減算します。
データセット内の各値と平均の差を取得するには、データセット内の各値から平均 (前のステップで計算された) が減算されます。これにより、データが平均からどの程度離れているかを特定できます。
3. 前のステップで得られた各差を二乗します。
前のステップで得られた差が二乗されます。このステップは、正と負の差が互いに打ち消し合うのを防ぎ、平均から最も遠い値を強調するために実行されます。
4. 前のステップで取得した値の平均を計算します
前のステップで取得した値の平均が計算されます。この平均は、差の二乗和をデータの総数で割ったものを表します。数学的には、次のように表されます。
平均二乗差 = Σ((xi – 平均)²) ÷ n
5. 前の手順で取得した値の平方根を取得します。
最後のステップでは、前のステップで取得した値の平方根を取得します。これにより、平均からのデータの分散の尺度である標準偏差が得られます。
標準偏差はどのように解釈されますか?
標準偏差の解釈は、調査対象のデータの状況と性質によって異なることに注意することが重要です。
したがって、標準偏差の意味を十分に理解し、それを他の統計的尺度と組み合わせて使用して、データのばらつきを完全かつ正確に理解することが重要です。以下にいくつかの例を見てみましょう。
変動性分析
標準偏差は、セット内のデータの変動性または分散を評価するために使用されます。標準偏差が低い場合は、データが平均に近く、ばらつきがほとんどないことを示します。一方、標準偏差が高い場合は、データがより分散しており、ばらつきが大きいことを示します。
データ比較
これは、異なるデータセット間の変動性を比較するのに役立ちます。たとえば、2 つの国の収入の標準偏差を比較すると、どちらの国の国民の収入のばらつきが大きいかを推測できます。
外れ値の特定
セット内の外れ値や異常なデータを特定するのに役立ちます。平均から 1 または 2 標準偏差を超えるデータは、外れ値と見なすことができます。
測定精度の評価
また、測定や推定の精度や信頼性の尺度としても使用されます。たとえば、研究を行っていて標準偏差が高い測定値が得られた場合、これは測定値の精度が低く、データ収集時にさらに注意を払う必要があることを示している可能性があります。
データの正常性の評価
標準偏差は、データが正規分布に従っているかどうかを評価するために、他の尺度と組み合わせて使用されます。データの平均からの標準偏差が小さい場合、データがほぼ正規分布に従って分布していることを示している可能性があります。
標準偏差の数値例
一般的に言えば、標準偏差は複雑になる可能性があるのは事実ですが、標準偏差は単純な方法で理解されます。疑問を解消するために、2 つの異なる方法を使用した例を以下にいくつか紹介します。
分散の平方根
次のデータがあるとします: 9、3、8、9、16。
ステップ 1:算術平均を計算します。
算術平均 = (9 + 3 + 8 + 9 + 16) ÷ 5 = 9。
ステップ 2:分散の式を適用します。
偏差 = [(9 – 9) 2 + (3 – 9) 2 + (8 – 9) 2 + (9 – 9) 2 + (16 – 9) 2 ] ÷ 5 = 86 ÷ 5 = 17.2。
ステップ 3:分散の平方根を計算します。
標準偏差 = √(17.2) ≈ 4.14。
偏差の合計と観測値の合計数による除算
次のデータがあるとします: 2、4、2、4、2、および 4。
ステップ 1:算術平均を計算します。
算術平均 = (2 + 4 + 2 + 4 + 2 + 4) ÷ 6 = 3。
ステップ 2:偏差を加算し、観測値の総数で割ることにより、標準偏差を計算します。
標準偏差 = [(2 – 3) + (4 – 3) + (2 – 3) + (4 – 3) + (2 – 3) + (4 – 3)] ÷ 6 = (1 + 1 + 1 + 1 + 1 + 1) ÷ 6 = 1。
どちらの場合も、異なる計算方法を使用して、それぞれ約 4.14 と 1 の標準偏差が得られます。これは、分散の平方根を使用するか、偏差を加算して観測値の総数で割ることにより、標準偏差がどのように得られるかを示しています。