분산은 데이터가 평균을 중심으로 얼마나 잘 분포되어 있는지를 알려주는 통계적 척도입니다. 이는 데이터가 평균값에서 얼마나 “확산”되어 있는지 측정하는 것과 같습니다.
시험 점수와 같은 숫자 목록이 있다고 상상해 보세요. 분산은 이러한 점수가 서로 얼마나 다른지 이해하는 데 도움이 됩니다. 점수가 서로 매우 가까우면 분산이 낮아집니다. 하지만 점수 사이에 차이가 많이 나면 그 차이도 커질 것입니다.
일반적으로 분산은 일련의 값에서 데이터의 분산을 이해하는 데 유용한 도구입니다. 분산이 높으면 데이터가 더 퍼져 있다는 뜻이고, 낮으면 데이터가 서로 더 가깝다는 뜻입니다.
격차는 어떻게 계산되나요?
분산을 계산하려면 몇 가지 수학적 단계를 거쳐야 하지만 보기보다 쉽기 때문에 걱정하지 마세요. 먼저, 데이터의 평균을 계산해야 합니다. 그런 다음 평균에서 각 데이터 조각을 빼고 각 차이를 제곱합니다. 그런 다음 이 제곱을 모두 더하고 데이터 양으로 나눕니다. 차이입니다.
이를 좀 더 잘 이해하기 위해 아래에서 분산 계산의 예를 살펴보겠습니다.
1단계: 데이터 가져오기
5, 7, 9, 11, 13이라는 데이터가 있다고 가정합니다. 이는 분산을 계산하려는 데이터 샘플의 값입니다.
2단계: 평균 계산
모든 값을 더하고 전체 데이터 양으로 나누어 평균을 구합니다.
평균 = (5 + 7 + 9 + 11 + 13) ¼ 5 = 45 ¼ 5 = 9
데이터의 평균은 9입니다.
3단계: 각 데이터 포인트에서 평균 빼기
목록의 각 데이터 항목에서 이전 단계에서 얻은 평균을 뺍니다.
5 – 9 = -4
7 – 9 = -2
9 – 9 = 0
11 – 9 = 2
13 – 9 = 4
4단계: 각 차이를 제곱합니다.
이전 단계에서 얻은 각 차이를 제곱합니다.
(-4) 2 = 16
(-2) 2 = 4
0 2 = 0
2 2 = 4
4 2 = 16
5단계: 차이의 제곱 더하기
이전 단계에서 얻은 모든 결과를 더합니다.
16 + 4 + 0 + 4 + 16 = 40
6단계: 데이터 양으로 나누기
차이의 제곱합을 총 데이터 양(이 경우 5)으로 나눕니다.
편차 = 40 ¼ 5 = 8
데이터의 분산은 8입니다 .
분산의 공식은 무엇입니까?
이 점을 분석하기 전에 통계에서 분산이 매우 중요하다는 점을 언급하는 것이 중요합니다. 상당히 간단한 측정임에도 불구하고 특정 변수를 기반으로 흥미로운 정보를 제공합니다.
측정 단위는 항상 데이터에 해당하는 단위이지만 제곱입니다. 또한 분산은 항상 0보다 크거나 같다는 점에 유의해야 합니다. 이는 잔차가 항상 제곱되어 수학적으로 음의 분산이 발생하는 것이 불가능하기 때문입니다.
이를 염두에 두고 아래에 분산 공식을 보여줍니다.

S2 = 간격
x i = 데이터세트 용어
X̄ = 샘플 측정
∑ = 합계
n = 표본 크기
높은 분산과 낮은 분산이란 무엇입니까?
통계적 표본 이나 모집단의 데이터가 드물고 평균에서 멀리 떨어져 있으면 분산이 높은 것으로 간주됩니다. 이는 데이터의 개별 값이 널리 분포되어 있으며 데이터의 변동성이 크다는 것을 의미합니다.
대조적으로, 표본이나 모집단의 데이터가 평균에 더 가깝고 개별 값 사이의 분산이 거의 없으면 분산이 낮은 것으로 간주됩니다. 이는 데이터가 더 일관성이 있고 변동성이 적다는 것을 의미합니다.
분산의 주요 용도는 무엇입니까?
분산은 표본 내 데이터의 분산 또는 변동성을 평가하는 능력으로 인해 다양한 분야에서 널리 사용되는 통계적 척도입니다. 분산의 주요 용도는 다음과 같습니다.
기술 통계에서 – 표본 내 데이터의 분산을 설명하여 개별 값이 평균에서 벗어나는 방식과 표본 내에서 분포되는 방식을 이해하는 데 도움이 됩니다.
추론 통계에서 – 표본에서 모집단의 데이터 변동성을 추정하여 모집단 전체에 대한 추론을 가능하게 합니다.
금융 분야 : 투자 위험 및 수익 분석에서, 분산이 클수록 위험이 높고, 분산이 낮을수록 투자 포트폴리오의 위험이 낮다는 것을 의미합니다.
과학 연구에서 – 의학 연구, 생물학, 심리학 및 기타 학문과 같은 과학 연구에서 데이터의 가변성을 분석하여 결과의 가변성과 데이터의 일관성을 이해합니다.
프로세스 품질 관리 : 산업 프로세스의 품질 관리에서 제조된 제품 또는 서비스의 변동성을 측정하여 프로세스의 일관성 및 품질 문제를 식별할 수 있습니다.
계량경제학 : 경제 변수의 변동성을 이해하고 계량경제 모델의 신뢰성을 평가하기 위한 경제 데이터의 모델링 및 분석.
차이의 의미는 무엇입니까?
분산은 표본에 있는 데이터의 변동성을 이해할 수 있게 해주기 때문에 중요합니다. 분산이 높으면 데이터가 희박하고 변동성이 크다는 의미입니다. 이는 투자, 위험 관리, 데이터 분석 등의 분야에서 정보에 입각한 결정을 내리는 데 적합합니다.
또한 분산은 표본이나 모집단의 데이터 일관성을 이해하는 데 도움이 됩니다. 낮은 분산은 데이터의 일관성이 있고 변동성이 거의 없음을 나타내고, 높은 분산은 데이터의 일관성이 낮고 변동성이 더 크다는 것을 나타냅니다.
표준편차와 분산은 동일한가요?
표준 편차 와 분산은 표본이나 모집단에서 데이터의 분산 또는 변동성을 설명하는 두 가지 관련 통계 측정값입니다. 이들 사이의 주요 차이점은 측정 단위와 결과 해석입니다.
분산은 평균에서 데이터의 분산을 나타내는 측정값으로, 평균에서 개별 값의 편차 제곱의 합을 총 데이터 수로 나눈 값으로 계산됩니다.
각 값과 평균의 차이를 제곱하고 더한 다음 표본 또는 모집단 크기로 나누어 계산합니다. 분산은 제곱 단위로 표시되며 원본 데이터와 척도가 다르기 때문에 직접 해석하기 어려울 수 있습니다.
반면, 표준편차는 분산의 제곱근 에 지나지 않습니다. 이는 분산의 양의 제곱근으로 계산됩니다. 표준편차는 원본 데이터와 동일한 단위로 표현되며 데이터 분산을 보다 직관적으로 측정합니다.
표준 편차가 높을수록 데이터의 산포 또는 변동성이 더 크다는 것을 나타내고, 표준 편차가 낮을수록 산포 또는 변동성이 적다는 것을 나타냅니다.
그룹화된 데이터의 차이
그룹화된 데이터의 분산은 구간 또는 클래스로 그룹화된 데이터의 변동성 또는 분산을 계산하는 것을 의미합니다. 그룹화되지 않은 데이터에 대한 분산의 경우와 같이 개별 데이터를 갖는 대신 데이터가 속하는 범위 또는 간격이 있습니다.
그룹화된 데이터의 분산 계산은 약간 다른 공식을 사용하여 수행됩니다. 먼저 각 구간의 중간점을 계산하는데, 이는 각 구간의 하한과 상한의 평균입니다. 그런 다음 간격의 상대 또는 절대 빈도를 가중치로 사용하여 중간점의 가중 평균이 계산됩니다.
이 가중 평균에서 분산은 그룹화되지 않은 데이터와 동일한 공식에 따라 계산됩니다. 즉, 개별 값과 가중 평균 간의 차이를 제곱한 평균입니다.
그룹화된 데이터 분산은 인구 통계 데이터, 경제 데이터 또는 범주나 범위로 그룹화된 기타 유형의 데이터와 같이 간격이나 클래스로 표시되는 데이터 세트로 작업할 때 유용합니다.
분산 속성
분산은 몇 가지 중요한 속성을 갖는 통계적 척도입니다. 분산의 주요 속성 중 일부는 다음과 같습니다.
- 이는 개별 데이터와 평균 간의 차이의 제곱의 평균으로 정의되므로 항상 음수가 아닌 값입니다 .
- 차이의 제곱이기 때문에 데이터의 극단적인 값이나 이상값에 민감합니다 .
- 여기에는 단위 제곱이 있습니다. 이는 원본 데이터와 동일한 단위 제곱에 있음을 의미합니다.
- 이는 이상값이나 극단적인 데이터의 영향을 받을 수 있으며, 이로 인해 데이터 변동성을 측정하는 데 견고하지 않을 수 있습니다.
- 데이터가 서로 독립적이고 상관관계가 없는 경우 두 데이터 집합의 합의 분산 은 두 데이터 집합의 분산의 합과 같습니다 .
편차의 예
이제 분산의 개념과 그 중요성을 이해했으므로 분산이 어떻게 작동하는지 더 잘 이해하기 위해 실제 예를 살펴보겠습니다.
지난 5년 동안 수백만 달러의 회사 경제적 결과에 대한 다음 데이터가 있다고 가정합니다: 8, 12, 6, -4, 10. 우리는 이전에 언급한 공식을 사용하여 이 데이터 세트의 분산을 계산하려고 합니다.
1단계: 산술 평균 계산
먼저, 데이터를 더한 후 전체 데이터 수(이 경우 5)로 나누어 데이터의 산술 평균을 계산합니다.
산술 평균(X̄) = (8 + 12 + 6 – 4 + 10) ¼ 5 = 640만 달러
2단계: 분산 공식 사용
다음으로, 분산 공식을 사용하여 각 데이터 포인트와 산술 평균 간의 차이의 제곱을 계산한 후 이를 더합니다.

여기서 x i 는 각 데이터 요소이고, X̄은 산술 평균이며, n은 데이터 요소의 총 개수입니다.
데이터와 산술 평균을 분산 공식으로 대체합니다.
편차(Var(X)) = [(8 – 6.4) 2 + (12 – 6.4) 2 + (6 – 6.4) 2 + (-4 – 6.4) 2 + (10 – 6,4) 2 ] ¼ (5 – 1)
3단계: 작업 해결
이제 분산 값을 얻기 위한 연산을 풀어보겠습니다.
편차(Var(X)) = [1.6 2 + 5.6 2 + 0.16 2 + (-10.4) 2 + 3.6 2 ] ¼ 4
편차(Var(X)) = [2.56 + 31.36 + 0.0256 + 108.16 + 12.96] ¼ 4
편차(Var(X)) = 155.072 ¼ 4
분산(Var(X)) = 38,768,000제곱
이 데이터 세트의 분산은 38,768,000제곱으로, 산술 평균을 기준으로 데이터의 분산 또는 변동성을 측정할 수 있습니다.