共分散は、2 つの変数がどのように変化するかを理解するのに役立つ統計的尺度です。気温とアイスクリームの消費量など、2 つの変数があると想像してください。気温が上昇するにつれてアイスクリームの消費量も増加する場合、変数は正の共分散を持ちます。逆に、気温が上昇するとアイスクリームの消費量が減少する場合、負の共分散になります。
共分散は、変数が同じ方向 (正) に変化する傾向があるか、反対方向 (負) に変化する傾向があるかを示します。これらがどのように一緒に変化するかについて明確なパターンがない場合、共分散はゼロに近くなります。これは、変数間に強い線形関係が存在しないことを意味します。
共分散はどのように計算されますか?
2 つの変数間の共分散を計算するには、両方の変数の値を含むデータ セットが必要です。次に、次の手順に従います。
- 各変数の平均 (平均) を求めます。各変数のすべての値を合計し、結果をデータ ポイントの合計数で割ります。これにより、各変数の平均が得られます。
- 対応する各値から各変数の平均を引きます。このステップは、X の各値から変数 X の平均を減算し、変数 Y に対して同じことを行うことで構成されます。
- 前のステップの結果を乗算します。前のステップで減算された各値に対して、減算された他の変数の対応する結果を乗算します。
- 前のステップの製品を追加します。前のステップで取得したすべての製品を合計して、合計値を取得します。
- 前のステップで取得した値をデータの総数で割ります。この値は 2 つの変数間の共分散です。
共分散は正、負、またはゼロに近い値になる可能性があることに注意してください。正の共分散は、変数が同じ方向に移動する傾向があることを示します。一方、負の共分散は、変数が反対方向に変化する傾向があることを示します。最後に、共分散が 0 に近い場合は、それらがどのように同時に変化するかについて明確なパターンがないことを示します。
よりよく理解するために例を見てみましょう
「学習時間」 (X) と「試験の成績」 (Y) という 2 つの変数があり、5 人の学生のグループに関する次のデータがあると想像してみましょう。
学習時間 (X): 4、6、3、7、5。
テスト結果 (Y): 85、90、80、95、88。
ステップ 1:各変数の平均を計算する
X の平均: (4 + 6 + 3 + 7 + 5) ÷ 5 = 5
Y の平均: (85 + 90 + 80 + 95 + 88) ÷ 5 = 86
ステップ 2 : 対応する各値から各変数の平均を減算します。
X – X の平均: -1、1、-2、2、0
Y – Y の平均: -1、4、-6、9、2
ステップ 3 : 前のステップで得られた結果を乗算します。
(-1) · (-1) = 1
1 4 = 4
(-2) · (-6) = 12
2 9 = 18
0 2 = 0
ステップ 4 : 前のステップで取得した製品を追加します
1 + 4 + 12 + 18 + 0 = 35
ステップ 5: 前のステップで取得した値をデータの総数で割ります。
35 ÷ 5 = 7
この場合、変数「学習時間」と「試験の成績」の間の共分散は 7 になります。
分散と共分散の違いは何ですか?
分散は、データセットの統計的な分散または変動性を示す尺度です。これは、平均からの個々の値の偏差の二乗の平均として計算されます。高い分散はデータが分散している、または平均から離れていることを意味し、低い分散はデータが平均に近いことを意味します。
一方、共分散は、 2 つの変数がどのように連動するかを示す尺度です。これは、2 つの変数の結合変動の尺度です。共分散が正の場合、2 つの変数が一緒に増加または減少する傾向があることを示します。共分散が負の場合、一方の変数が減少すると、他方の変数が増加する傾向があることを示します。共分散がゼロに近い場合は、変数に強い線形関係がないことを示します。
つまり、分散はデータセット自体の変動性を測定し、共分散は 2 つの変数間の共同変動関係を測定します。
共分散はどのくらい重要ですか?
共分散は、いくつかの理由から統計およびデータ分析において重要な尺度です。一般に、2 つの変数間の関係の強さと方向を評価するために使用されます。共分散値が 0 に近い場合は、関係が弱いか関係がないことを示し、値が高い場合は変数間の関係が強いことを示します。
一方で、これはデータ モデリングと予測に役立つツールであることにも言及する価値があります。線形回帰や時系列分析などの高度なデータ分析手法で使用すると、ある変数の変化が別の変数にどのような影響を与えるかを理解できます。
財務リスク管理においても非常に重要です。これにより、2 つの金融資産がどのように連動するかを評価することが可能になります。これは、投資ポートフォリオの多様化や、さまざまな資産のリスクとリターンの評価において重要です。
共分散の主な用途は何ですか?
共分散はデータ分析における重要なツールであり、いくつかの用途があります。共分散の主な用途の 1 つは、統計学と計量経済学です。これは 2 つの変数間の共同変動関係を測定するために使用され、それらがどのように変化するかを理解するのに役立ちます。
金融では、共分散を使用して、株式、債券、不動産などのさまざまな金融資産の収益間の関係を評価します。これは、投資家が資産がどのように連携し、リスクを管理するために投資をどのように分散できるかを理解するのに役立ちます。
リスク分析とポートフォリオ管理では、共分散を使用してリスク分散、つまり、さまざまな資産の収益がどのように相関しているかを計算します。 2 つの資産間の共分散が低いということは、それらが同じ方向に動く可能性が低いことを示しており、これはポートフォリオのリスクを軽減するのに有益である可能性があります。
さらに、共分散は、環境科学、生物学、心理学、工学などの分野でも使用され、さまざまな変数間の関係を研究して、それらの動作を理解し、予測を行います。
共分散には、標準化された尺度ではない、変数間の非線形関係が捉えられないなど、いくつかの制限があることに注意することが重要です。ただし、2 つの変数がどのように一緒に進化するか、およびそれらの共同変動関係を理解するためのデータ分析における貴重なツールであることに変わりはありません。
共分散特性
以下に、共分散の最も重要な特性のいくつかを見てみましょう。
- 2 つの変数間の共分散は正の値になる場合があり、これらが同じ方向に移動する傾向があることを示します。一方、共分散が負の場合は、それらが反対方向に移動する傾向があることを意味します。共分散がゼロの場合、変数間に線形関係はありません。
- 相関とは異なり、共分散は特定の範囲に限定されず、標準化された測定単位もありません。これにより、異なるスケールや単位の共分散を比較することが困難になる可能性があります。
- データ内に極端な値または外れ値が存在すると、共分散に大きな影響を与える可能性があります。これにより、変数間の関係が強くない場合でも、共分散が高くなったり低くなったりする可能性があります。
- 2 つの変数間の共分散は対称です。これは、Y に関する X の共分散が X に関する Y の共分散に等しいことを意味します。実際、共分散は 2 つの変数の結合変動に基づいています。
- 共分散は必ずしも変数間の因果関係を意味するわけではないことに注意することが重要です。これは、変数間の結合変動の方向と大きさを示すだけであり、直接の因果関係を確立するものではありません。
共分散の例
すでにご存知のとおり、例を使用するとすべてがより明確になります。したがって、理解を深めるために、この単純な共分散の例を分析します。
次のデータを持つ 2 つの新しい変数 A と B を考えてみましょう。
A = (a1, a2, a3) = (2, 5, 7)
B = (b1, b2, b3) = (6, 3, 1)
まず、各変数の算術平均を計算します。
A’ = (2 + 5 + 7) ÷ 3 = 4.67
B’ = (6 + 3 + 1) ÷ 3 = 3.33
算術平均を計算したら、共分散の計算に進みます。
Cov(A, B) = (2 – 4.67) · (6 – 3.33) + (5 – 4.67) · (3 – 3.33) + (7 – 4.67) · (1 – 3.33) ÷ 3 = -2.33
この場合、共分散値は負になります。これは、変数 A と B に負の関係があることを示しています。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があることを意味します。ただし、A と B の関係をより深く理解するには、線形相関を計算する必要があります。
共分散の測定単位は問題の変数の測定単位と同じであるため、異なる変数の共分散を比較できないことを考慮することも重要です。したがって、測定単位が異なるため、たとえば収入や年齢などの変数の共分散を比較することはできません。