공분산은 두 변수가 어떻게 함께 변하는지 이해하는 데 도움이 되는 통계적 척도입니다. 온도, 아이스크림 소비량 등 두 가지 변수가 있다고 가정해 보세요. 온도가 증가함에 따라 아이스크림 소비도 증가하면 변수는 양의 공분산을 갖습니다. 반대로 온도가 상승하면 아이스크림 소비가 감소하면 음의 공분산을 갖게 됩니다.
공분산은 변수가 같은 방향(양수)으로 변하는 경향이 있는지 아니면 반대 방향(음수)으로 변하는 경향이 있는지를 알려줍니다. 함께 변화하는 방식에 명확한 패턴이 없으면 공분산은 0에 가까워집니다. 즉, 변수 간에 강력한 선형 관계가 없음을 의미합니다.
공분산은 어떻게 계산되나요?
두 변수 사이의 공분산을 계산하려면 두 변수의 값을 모두 포함하는 데이터 세트가 있어야 합니다. 그런 다음 다음 단계를 따르십시오.
- 각 변수의 평균(평균)을 구합니다 . 각 변수의 모든 값을 더하고 결과를 총 데이터 포인트 수로 나눕니다. 그러면 각 변수의 평균이 제공됩니다.
- 각 해당 값에서 각 변수의 평균을 뺍니다 . 이 단계는 각 X 값에서 변수 X의 평균을 빼고 변수 Y에 대해 동일한 작업을 수행하는 것으로 구성됩니다.
- 이전 단계의 결과를 곱합니다 . 이전 단계에서 뺀 각 값에 대해 뺀 다른 변수의 해당 결과를 곱합니다.
- 이전 단계의 제품을 추가합니다 . 이전 단계에서 얻은 모든 제품을 합산하여 총 가치를 얻습니다.
- 이전 단계에서 얻은 값을 전체 데이터 수로 나눕니다 . 이 값은 두 변수 간의 공분산입니다.
공분산은 양수, 음수 또는 0에 가까울 수 있습니다. 양의 공분산은 변수가 같은 방향으로 움직이는 경향이 있음을 나타냅니다. 반면, 음의 공분산은 변수가 반대 방향으로 변화하는 경향이 있음을 나타냅니다. 마지막으로 공분산이 0에 가까우면 두 변수가 어떻게 함께 변하는지에 대한 명확한 패턴이 없음을 나타냅니다.
더 잘 이해하기 위해 예를 살펴보겠습니다.
“학습 시간”(X)과 “시험 성적”(Y)이라는 두 개의 변수가 있고 5명의 학생 그룹에 대해 다음과 같은 데이터가 있다고 가정해 보겠습니다.
학습 시간(X): 4, 6, 3, 7, 5.
테스트 결과(Y): 85, 90, 80, 95, 88.
1단계: 각 변수의 평균 계산
X의 평균: (4 + 6 + 3 + 7 + 5) ¼ 5 = 5
Y의 평균: (85 + 90 + 80 + 95 + 88) ¼ 5 = 86
2단계 : 각 해당 값에서 각 변수의 평균을 뺍니다.
X – X의 평균: -1, 1, -2, 2, 0
Y – Y의 평균: -1, 4, -6, 9, 2
3단계 : 이전 단계에서 얻은 결과를 곱합니다.
(-1) · (-1) = 1
1 4 = 4
(-2) · (-6) = 12
2 9 = 18
0 2 = 0
4단계 : 이전 단계에서 얻은 제품을 추가합니다.
1 + 4 + 12 + 18 + 0 = 35
5단계: 이전 단계에서 얻은 값을 전체 데이터 수로 나눕니다.
35 ¼ 5 = 7
그러면 변수 ‘학습 시간’과 ‘시험 성적’ 간의 공분산은 7입니다.
분산과 공분산의 차이점은 무엇입니까?
분산은 데이터 세트의 통계적 분산 또는 변동성을 나타내는 척도입니다. 평균과 개별 값의 편차의 제곱의 평균으로 계산됩니다. 분산이 크다는 것은 데이터가 평균에서 멀리 퍼져 있다는 것을 의미하고, 분산이 낮다는 것은 데이터가 평균에 더 가깝다는 것을 의미합니다.
반면, 공분산은 두 변수가 어떻게 함께 움직이는지를 나타내는 척도입니다. 두 변수의 결합 변동을 측정하는 것입니다. 공분산이 양수이면 두 변수가 함께 증가하거나 감소하는 경향이 있음을 나타냅니다. 공분산이 음수인 경우 이는 한 변수가 감소할 때 다른 변수가 증가하는 경향이 있음을 나타냅니다. 공분산이 0에 가까우면 변수가 강력한 선형 관계를 갖고 있지 않음을 나타냅니다.
즉, 분산은 데이터 세트 자체의 변동성을 측정하는 반면, 공분산은 두 변수 간의 결합 변동 관계를 측정합니다.
공분산은 얼마나 중요합니까?
공분산은 여러 가지 이유로 통계 및 데이터 분석에서 중요한 척도입니다. 일반적으로 두 변수 간의 관계의 강도와 방향을 평가하는 데 사용됩니다. 공분산 값이 0에 가까우 면 관계가 약하거나 없음을 나타내고, 값이 높으면 변수 간의 관계가 강함을 나타냅니다.
반면에 데이터 모델링 및 예측 에 유용한 도구라는 점은 언급할 가치가 있습니다. 선형 회귀 분석 및 시계열 분석과 같은 고급 데이터 분석 기술에 사용되어 한 변수의 변화가 다른 변수에 어떻게 영향을 미칠 수 있는지 이해할 수 있습니다.
금융위험관리에도 매우 중요합니다. 이를 통해 두 금융 자산이 어떻게 함께 움직이는지 평가할 수 있으며, 이는 투자 포트폴리오의 다양화 와 서로 다른 자산의 위험 및 수익 평가에 기본이 됩니다.
공분산의 주요 용도는 무엇입니까?
공분산은 데이터 분석에서 중요한 도구이며 여러 가지 용도로 사용됩니다. 공분산의 주요 용도 중 하나는 통계 및 계량경제학 입니다. 이는 두 변수 간의 결합 변동 관계를 측정하는 데 사용되며, 이는 두 변수가 어떻게 함께 변하는지 이해하는 데 도움이 될 수 있습니다.
금융에서는 공분산을 사용하여 주식, 채권, 부동산 등 다양한 금융 자산의 수익률 간의 관계를 평가합니다 . 이는 투자자가 자산이 어떻게 함께 작동하는지, 위험을 관리하기 위해 투자를 다양화할 수 있는 방법을 이해하는 데 도움이 됩니다.
위험 분석 및 포트폴리오 관리에서 공분산은 위험 다각화, 즉 다양한 자산의 수익이 어떻게 상호 연관되는지 계산하는 데 사용됩니다. 두 자산 간의 낮은 공분산은 동일한 방향으로 움직일 가능성이 적다는 것을 의미하며 이는 포트폴리오 위험을 줄이는 데 도움이 될 수 있습니다.
또한 공분산은 환경 과학, 생물학, 심리학 및 공학과 같은 분야에서도 사용되며, 다양한 변수 간의 관계를 연구하여 해당 행동을 이해 하고 예측합니다.
공분산에는 표준화된 측정값이 아니며 변수 간의 비선형 관계를 포착하지 못하는 등 몇 가지 제한 사항이 있다는 점에 유의하는 것이 중요합니다. 그러나 두 변수가 어떻게 함께 진화하는지와 결합 변형 관계를 이해하는 것은 데이터 분석에서 여전히 귀중한 도구로 남아 있습니다.
공분산 속성
아래에서 공분산의 가장 중요한 속성 중 일부를 살펴보겠습니다.
- 두 변수 사이의 공분산은 양수일 수 있으며 이는 두 변수가 같은 방향으로 움직이는 경향이 있음을 나타냅니다. 반면, 공분산이 음수이면 반대 방향 으로 움직이는 경향이 있음을 의미합니다. 공분산이 0이면 변수 간에 선형 관계가 없습니다.
- 상관관계와 달리 공분산은 특정 범위로 제한되지 않으며 표준화된 측정 단위가 없습니다 . 이로 인해 서로 다른 척도나 단위의 공분산을 비교하기가 어려워질 수 있습니다.
- 데이터에 극단적인 값이나 이상치 값이 있으면 공분산에 상당한 영향을 미칠 수 있습니다. 이로 인해 변수 간의 관계가 강하지 않더라도 공분산이 높거나 낮을 수 있습니다.
- 두 변수 사이의 공분산은 대칭입니다 . 즉, Y에 대한 X의 공분산은 X에 대한 Y의 공분산과 같습니다. 실제로 공분산은 두 변수의 결합 변동을 기반으로 합니다.
- 공분산이 반드시 변수 간의 인과 관계를 의미하는 것은 아니라는 점에 유의하는 것이 중요합니다. 변수 간 결합변동의 방향과 크기만을 보여줄 뿐, 직접적인 인과관계를 확립하지는 못한다.
공분산 예
이미 알고 있듯이 예제를 사용하면 모든 것이 더 명확해집니다. 따라서 더 나은 이해를 위해 이 간단한 공분산 예제를 분석하겠습니다.
다음 데이터를 사용하여 두 개의 새로운 변수 A와 B를 생각해 보세요.
A = (a1, a2, a3) = (2, 5, 7)
B = (b1, b2, b3) = (6, 3, 1)
먼저, 각 변수의 산술 평균을 계산합니다.
A’ = (2 + 5 + 7) ¼ 3 = 4.67
B’ = (6 + 3 + 1) ¼ 3 = 3.33
산술 평균을 계산한 후에는 공분산 계산을 진행합니다.
Cov(A, B) = (2 – 4.67) · (6 – 3.33) + (5 – 4.67) · (3 – 3.33) + (7 – 4.67) · (1 – 3.33) ¼ 3 = -2.33
이 경우 공분산 값은 음수입니다. 이는 변수 A와 B가 음의 관계를 갖고 있음을 나타냅니다. 즉, 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 의미합니다. 그러나 A와 B의 관계를 더 잘 이해하려면 선형 상관 관계를 계산해야 합니다 .
공분산의 측정 단위 가 해당 변수의 측정 단위와 동일하기 때문에 서로 다른 변수의 공분산을 비교할 수 없다는 점을 고려하는 것도 관련이 있습니다. 따라서 측정 단위가 다르기 때문에 소득, 연령 등 변수의 공분산을 비교할 수 없습니다.