통계 매개변수란 무엇입니까?

통계 매개변수는 데이터 세트의 중요한 특성을 요약 하고 그 안에 있는 정보를 이해하고 설명하는 데 도움이 되는 수치 값입니다. 간단히 말해서 데이터를 더 잘 이해하고 이를 기반으로 결정을 내릴 수 있게 해주는 “레이블”이라고 말할 수 있습니다.

즉, 통계 매개변수는 수학자 및 과학자가 데이터를 간단한 방법으로 설명하기 위해 사용하는 특수 측정값입니다. 기본적으로 숫자를 더 쉽고 명확하게 이해하는 데 도움이 되는 도구입니다.

예를 들어, 사탕으로 가득 찬 가방이 있고 총 사탕 수를 알고 싶다고 가정해 보겠습니다. 여기서 통계적 매개변수가 사용됩니다. 평균은 사탕의 평균 개수 로, 모든 사탕을 더한 후 전체 양으로 나눈 값입니다. 이를 통해 찾을 수 있는 평균 사탕 수에 대한 아이디어를 얻을 수 있습니다.

하지만 그보다 더 중요한 또 다른 매개변수는 표준 편차 입니다. 이는 사탕이 평균에서 얼마나 떨어져 있는지 이해하는 데 도움이 됩니다. 이는 사탕이 평균 개수와 얼마나 다른지 보여줍니다.

흥미로운 점은 통계 매개변수를 사용하여 예측을 할 수도 있다는 것입니다. 예를 들어, 일주일 후에 가방에 사탕이 몇 개 들어 있는지 알고 싶다면 통계 매개변수를 사용하여 이를 추정할 수 있습니다. 현재 가지고 있는 사탕의 평균 개수를 계산하고 표준편차를 사용하여 해당 평균이 일주일 동안 어떻게 변하는지에 대한 아이디어를 얻습니다.

어떤 유형의 통계 매개변수가 있나요?

통계에는 중심 경향 매개변수와 분산 매개변수라는 두 가지 주요 유형의 매개변수가 있습니다.

중심 경향 매개변수

중심 경향 매개변수는 데이터 세트에서 어떤 값이 일반적이거나 대표적인 값인지 알려줍니다. 중심 경향 매개변수 중에는 세 가지 중요한 측정값이 있습니다.

  • 평균 : 평균은 모집단(표본)의 비율 값입니다.
  • 중앙값 : 반면, 표본을 상위 부분과 하위 부분의 두 부분으로 나누는 역할을 하는 중앙값이 있습니다. 간단히 말해서 데이터를 두 개로 나눕니다.
  • 모드(Mode) : 마지막으로 모드는 샘플에서 가장 빈번하게 나타나는 값에 지나지 않습니다.

평균, 중앙값, 모드를 사용하여 중심 경향의 매개변수를 설명하기 위해 수치 예를 사용하겠습니다.

한 그룹의 연령이 25세, 30세, 32세, 35세, 40세, 40세, 42세, 45세, 50세라고 가정해 보겠습니다.

평균은 평균 연령입니다 . 이를 계산하려면 모든 연령을 더한 다음 전체 연령 수로 나눕니다. 이 경우에는 25 + 30 + 32 + 35 + 40 + 40 + 42 + 45 + 50 = 339를 더한 다음 9(전체 연령 수)로 나눕니다. 그러면 평균은 339 ¼ 9 = 37.67년입니다.

중앙값은 연령을 가장 작은 것부터 순서대로 정렬할 때 중간 값입니다 . 이 경우 주문된 연령은 25, 30, 32, 35, 40, 40, 42, 45, 50입니다. 홀수 개의 연령이 있으므로 중앙값은 중간 위치의 값이 됩니다. 40년.

모드는 데이터세트에서 가장 자주 나타나는 값입니다 . 이 경우 모드는 40년입니다. 왜냐하면 다른 연령은 한 번만 나타나는 반면 두 번 나타나기 때문입니다.

그래서 정리하면 평균은 37.67년, 중앙값은 40년, 최빈값도 40년이 됩니다.

분산 매개변수

반면, 분산 매개변수는 데이터가 세트에 얼마나 분산되어 있는지 또는 다양한지 알려줍니다. 가장 일반적인 것은 분산과 표준편차입니다.

변화

분산은 데이터가 제곱에서 벗어날 수 있는 정도를 측정합니다 . 이 경우 먼저 제곱을 한 다음 문제의 평균을 계산해야 합니다. 설명을 더 잘 이해하기 위해 다음 예를 살펴보겠습니다.

5명의 학생에 대한 시험 점수가 80, 85, 90, 95, 100이라고 가정합니다. 먼저 모든 점수를 더하고 총 학생 수로 나누어 평균을 구합니다. ( 80 + 85 + 90 + 95 + 100) ¼ 5 = 90.

그런 다음 분산을 계산하기 위해 각 등급에서 평균을 빼고 결과를 제곱합니다. 그런 다음 제곱된 결과의 평균을 냅니다. 이 경우 계산은 다음과 같습니다.

(80 – 90) 2 = 100

(85 – 90) 2 = 25

(90 – 90) 2 = 0

(95 – 90) 2 = 25

(100 – 90) 2 = 100

결과를 더합니다: 100 + 25 + 0 + 25 + 100 = 250. 그런 다음 총 데이터 포인트 수(5)로 나누어 평균을 얻습니다: 250 ¼ 5 = 50.

따라서 이 경우의 분산은 50입니다 . 이는 평균적으로 점수가 평균에서 평균 50제곱 단위만큼 벗어났음을 말하며, 이는 평균에서 데이터의 분산 또는 변동성을 나타냅니다.

표준 편차

이전에 연구한 것처럼 표준편차는 단순히 분산의 제곱근 의 결과로 정의됩니다. 이러한 유형의 분산 매개변수는 정규 분포의 경우 평균 편차에 비해 추정을 하는 데 훨씬 더 효율적이라는 점을 언급할 가치가 있습니다.

시험 점수의 이전 예인 80, 85, 90, 95, 100을 살펴보겠습니다. 우리는 이미 분산을 계산했으며 그 값은 50입니다. 표준 편차를 얻으려면 간단히 분산의 제곱근을 취하면 됩니다.

√50 ≒ 7.07

따라서 이 경우의 표준편차는 약 7.07입니다 . 이는 평균적으로 점수가 평균에서 약 7.07 단위 떨어져 있지만 원래 점수와 측정 단위는 동일하다는 것을 알려줍니다. 이는 동일한 척도에 있기 때문에 원본 데이터와 해석하고 비교하기가 더 쉬운 측정값입니다.

분위수

위의 측정 외에도 분산 매개변수도 고려합니다. Quantile 함수는 샘플 n동등한 섹션으로 나누는 것입니다. 덕분에 값이 더 많이 집중된 범위를 추정할 수 있습니다. n 값에 따라 분위수는 다른 방식으로 정의됩니다.

  • 십분위수 : 데이터 세트를 10개의 동일한 섹션으로 분리하는 역할을 담당합니다.
  • 사분위수 : 10의 자리가 4개의 섹션으로 나누어진다는 점을 제외하면 이전 모델과 동일하게 작동합니다.
  • 백분위수 – 마지막으로 백분위수는 세트의 데이터를 100개의 동일한 섹션으로 분리하는 데 사용됩니다.

통계 매개변수는 어떤 용도로 사용되나요?

앞서 언급했듯이 통계 매개변수는 매우 중요하며 그 용도는 매우 광범위합니다. 다음으로 가장 중요한 응용 프로그램 중 일부를 소개합니다.

경제

통계 매개변수는 GDP, 실업률, 인플레이션 등 경제 지표를 분석하는 데 사용됩니다. 이러한 매개변수를 사용하면 국가나 지역의 경제 건전성을 측정하고 추세를 파악하며 경제 정책 의사결정을 위한 예측을 할 수 있습니다.

건강 과학

이 경우 질병의 유병률, 치료 효과, 위험 요인의 영향 등 건강 데이터를 분석하기 위해 임상 및 역학 연구 에 사용됩니다. 이러한 매개변수는 질병의 예방, 진단 및 치료에 대한 의사결정에 필수적입니다.

사회 과학

반면, 통계 매개변수는 심리학, 사회학, 교육 등의 분야에서 인간 행동, 태도, 의견 등에 대한 데이터를 분석하는 데 유용합니다. 이러한 매개변수를 사용하면 연구 대상 인구에 대한 정보를 얻고 추론을 할 수 있습니다.

마케팅과 광고

위의 내용 외에도 광고 세계에서도 매우 중요합니다. 이 경우 고객 세분화, 소비자 선호도 및 행동 분석, 광고 캠페인 평가 등 시장 데이터를 분석 하는 데 사용됩니다. 이러한 지표는 마케팅 및 광고 전략을 이해하고 정보에 입각한 결정을 내리는 데 도움이 됩니다.

과학적 조사

또한 생물학, 물리학, 화학 등 다양한 과학 연구 분야에서 실험 데이터를 분석하고 추론하고 결과를 검증하는 데 사용됩니다. 이러한 매개변수는 과학 연구의 엄격함과 타당성을 위해 필수적입니다.

재원

또한 투자 수익성, 자산 변동성, 위험 평가 등 재무 데이터를 분석하는 데에도 사용됩니다. 이러한 매개변수는 투자 관리, 재무 계획 및 위험 평가에 대한 의사 결정에 사용됩니다.

공학

마지막으로 품질 엔지니어링, 프로세스 엔지니어링, 시스템 엔지니어링 등 다양한 엔지니어링 분야에서 생산, 품질, 성능 및 프로세스 최적화를 분석하는 데 이상적입니다. 이러한 매개변수는 프로젝트 관리 및 시스템 최적화의 지속적인 개선과 의사결정에 사용됩니다.

통계 매개변수의 예

위의 정보를 바탕으로 이제 배운 내용을 더 잘 강화하기 위해 예를 사용할 차례입니다. 그럼 보자.

1. 평균(평균) 예시

수학 시험에서 5명의 학생 점수(7, 8, 9, 6, 10)가 있다고 가정해 보겠습니다. 평균을 찾기 위해 모든 점수를 더한 다음 학생 수로 나눕니다.

7 + 8 + 9 + 6 + 10 = 40

평균 = 40 ¼ 5 = 8

따라서 이 5명의 학생의 평균 또는 평균 성적은 8입니다.

2. 중앙값 예시

7명으로 구성된 그룹의 연령 목록(12세, 14세, 15세, 13세, 12세, 16세, 18세)이 있다고 가정해 보겠습니다. 중앙값을 찾으려면 먼저 연령을 오름차순으로 정렬합니다(12세, 12세, 13세, 14, 15, 16, 18

다음으로 목록의 중앙값을 찾습니다. 이 경우에는 14년입니다. 따라서 이 집단의 평균 연령은 14세입니다.

3. 패션 예시

10명의 그룹이 입는 셔츠 색상 목록(빨간색, 파란색, 녹색, 빨간색, 노란색, 파란색, 녹색, 녹색, 빨간색, 파란색)이 있다고 가정해 보겠습니다. 모드는 목록에 가장 자주 나타나는 값입니다. 이 경우 녹색은 3번 나타나고, 다른 색상은 2번 이하만 나타납니다. 따라서 티셔츠 색상의 패션은 녹색입니다.

4. 백분위수 예시

20명의 고등학생 그룹의 키를 센티미터 단위로 나타내는 데이터 세트가 있다고 가정합니다. 여러분은 높이의 75%가 해당 값 아래로 떨어지는 값인 75번째 백분위수를 찾고 싶습니다. 데이터를 정렬한 후 75번째 백분위수에 해당하는 값이 168cm임을 알 수 있습니다. 이는 학생의 75%가 168cm 이하임을 의미합니다.

5. 편차의 예

10명의 학생으로 구성된 그룹이 매일 시험을 위해 공부하는 시간을 나타내는 데이터 세트가 있다고 가정해 보겠습니다. 데이터는 2, 3, 4, 2, 5, 3, 4, 1, 2, 3입니다. 분산을 찾으려면 먼저 평균인 2.7시간을 찾아야 합니다. 그런 다음 각 값에서 평균을 빼고 제곱한 다음 모두 더합니다. 마지막으로 합계를 데이터 포인트 수로 나눕니다.

((2-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (2-2.7) 2 + (5-2.7) 2 + (3-2.7) 2 + (4-2.7) 2 + (1-2.7) 2 + (2-2.7) 2 + ( 3-2.7 ) 2 ) ¼ 10 = 1.61

따라서 이 학생 그룹의 학습 시간 분산은 1.61입니다.

6. 표준편차 예시

이전 예를 계속해서 표준 편차를 찾으려면 분산의 제곱근을 취하면 됩니다.

√1.61 ≒ 1.27

따라서 이 학생 그룹의 학습 시간 표준 편차는 약 1.27시간입니다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Scroll to Top