열려 있는
닫다

신뢰 구간을 계산하는 방법. 신뢰 구간. 또한 실용적인 시그마 값

분산 값이 알려진 경우 분포의 평균값을 추정하기 위해 MS EXCEL에서 신뢰 구간을 구성해 보겠습니다.

물론 선택은 신뢰의 수준전적으로 해결되는 문제에 달려 있습니다. 따라서 비행기의 신뢰성에 대한 항공 승객의 신뢰도는 의심할 여지없이 전구의 신뢰성에 대한 구매자의 신뢰도보다 높아야 합니다.

문제 공식화

가정해보자 인구찍은 견본크기 n. 다음과 같이 가정됩니다. 표준 편차이 분포는 알려져 있습니다. 이를 토대로 꼭 필요한 견본알려지지 않은 것을 평가하다 분포 평균(μ, ) 및 해당 구성 양면의 신뢰 구간.

포인트 추정

에서 알려진 바와 같이 통계(표시하자 X평균) 이다 평균의 편견 없는 추정이것 인구분포 N(μ;σ 2 /n)을 갖는다.

메모: 구축해야 하는 경우 수행할 작업 신뢰 구간배포의 경우 아니다 정상?이 경우 충분히 큰 크기로 구출됩니다. 견본 n 분포에서 없는 정상, 통계 X 평균의 표본 분포~ 할 것이다 대응하다 정규 분포매개변수 N(μ;σ 2 /n)을 사용합니다.

그래서, 점 추정 평균 분포 값우리는 - 이것 표본 평균, 즉. X평균. 이제 시작해보자 신뢰 구간.

신뢰 구간 구축

일반적으로 분포와 해당 매개변수를 알면 무작위 변수가 우리가 지정한 간격에서 값을 가져올 확률을 계산할 수 있습니다. 이제 반대로 해보겠습니다. 주어진 확률에 따라 무작위 변수가 속하는 간격을 찾으십시오. 예를 들어 속성에서 정규 분포 95%의 확률로 확률변수가 분포되는 것으로 알려져 있습니다. 보통법, 대략 +/- 2 범위 내에 속합니다. 평균값(관련 기사 참조). 이 간격은 우리에게 프로토타입 역할을 할 것입니다. 신뢰 구간.

이제 분포를 알고 있는지 살펴보겠습니다. , 이 간격을 계산하려면? 질문에 대답하려면 분포의 모양과 모수를 나타내야 합니다.

우리는 배포 형태를 알고 있습니다. 정규 분포(우리가 이야기하고 있다는 것을 기억하십시오 샘플링 분포 통계 X평균).

매개변수 μ는 우리에게 알려지지 않았습니다(단지 다음을 사용하여 추정하면 됩니다). 신뢰 구간) 하지만 추정치는 있습니다. X평균,을 기준으로 계산 견본,사용할 수 있습니다.

두 번째 매개변수 - 표본평균의 표준편차 우리는 그것이 알려진 것으로 간주할 것이다, σ/√n과 같습니다.

왜냐하면 μ를 모르면 +/- 2 구간을 구축하겠습니다. 표준편차출신이 아닌 평균값, 그리고 알려진 추정치로부터 X평균. 저것들. 계산할 때 신뢰 구간우리는 그렇게 가정하지 않을 것입니다 X평균+/- 2 범위 내에 속함 표준편차 95%의 확률로 μ로부터 구간이 +/- 2라고 가정합니다. 표준편차~에서 X평균 95%의 확률로 μ를 커버할 것입니다. – 일반 인구의 평균,그것이 취해진 것 견본. 이 두 진술은 동일하지만 두 번째 진술을 통해 다음을 구성할 수 있습니다. 신뢰 구간.

또한 간격을 명확히 합시다. 보통법, 95% 확률은 +/- 1.960 구간 내에 속합니다. 표준편차,+/- 2 아님 표준편차. 이는 공식을 사용하여 계산할 수 있습니다. =NORM.ST.REV((1+0.95)/2), 센티미터. 예제 파일 시트 간격.

이제 우리는 다음을 형성하는 데 도움이 될 확률론적 진술을 공식화할 수 있습니다. 신뢰 구간:
"그 확률은 인구 평균에서 위치 표본 평균 1,960" 이내 표본 평균의 표준 편차", 95%와 같습니다."

명세서에 언급된 확률값에는 특별한 이름이 있습니다. , 이는유의수준 α(알파)를 간단한 표현으로 표현 신뢰 수준 =1 . 우리의 경우 유의수준 α =1-0,95=0,05 .

이제 이 확률적 진술을 바탕으로 다음을 계산하는 표현식을 작성합니다. 신뢰 구간:

여기서 Z α/2 기준 정규 분포(이 무작위 변수의 값은 , 무엇 (>=Zα/2 )=α/2).

메모: 상위 α/2-분위수너비를 정의합니다 신뢰 구간 V 표준편차 표본 평균. 상위 α/2-분위수 기준 정규 분포항상 0보다 크므로 매우 편리합니다.

우리의 경우 α=0.05로, 상위 α/2-분위수 1.960과 같습니다. 기타 유의 수준 α(10%, 1%) 상위 α/2-분위수 Zα/2 =NORM.ST.REV(1-α/2) 공식을 사용하여 계산할 수 있습니다. 또는 알려진 경우 신뢰 수준, =NORM.ST.OBR((1+신뢰 수준)/2).

보통 건물을 지을 때 평균 추정을 위한 신뢰 구간만 사용 상위 α/2-분위수그리고 사용하지 마세요 낮은 α/2-분위수. 이것이 가능한 이유는 기준 정규 분포 x축을 중심으로 대칭( 분포 밀도대략 대칭 평균, 즉 0). 그러므로 따로 계산할 필요는 없습니다 더 낮은 α/2-분위수(단순히 α라고 부른다. /2-분위수), 왜냐하면 그것은 평등하다 상위 α/2-분위수빼기 기호가 있습니다.

값 x의 분포 모양에도 불구하고 해당 확률 변수는 X평균분산 괜찮은 N(μ;σ 2 /n)(관련 기사 참조). 따라서 일반적으로 위의 식은 신뢰 구간단지 근사치일 뿐입니다. x 값이 분산되면 보통법 N(μ;σ 2 /n), 다음 식은 다음과 같습니다. 신뢰 구간정확합니다.

MS EXCEL의 신뢰 구간 계산

문제를 해결해 봅시다.
입력 신호에 대한 전자 부품의 응답 시간은 장치의 중요한 특성입니다. 한 엔지니어가 95% 신뢰 수준에서 평균 응답 시간에 대한 신뢰 구간을 구축하려고 합니다. 이전 경험을 통해 엔지니어는 응답 시간의 표준 편차가 8ms라는 것을 알고 있습니다. 응답 시간을 평가하기 위해 엔지니어는 25회 측정을 수행했으며 평균값은 78ms인 것으로 알려져 있습니다.

해결책: 엔지니어는 전자 장치의 응답 시간을 알고 싶어하지만 응답 시간은 고정된 값이 아니라 자체 분포를 갖는 확률 변수라는 것을 이해합니다. 따라서 그가 바랄 수 있는 최선은 이 분포의 매개변수와 모양을 결정하는 것입니다.

불행하게도 문제 상황에서는 응답 시간 분포의 형태를 알 수 없습니다(꼭 그럴 필요는 없습니다). 정상). , 이 분포도 알려져 있지 않습니다. 그 사람만 알려져 있어요 표준 편차σ=8. 따라서 확률을 계산하고 구성할 수는 없지만 신뢰 구간.

그러나 우리가 분포를 모른다는 사실에도 불구하고 시간 별도의 응답, 우리는 다음과 같이 알고 있습니다. CPT, 샘플링 분포 평균 응답 시간대략이다 정상(우리는 조건을 가정합니다 CPT실시되기 때문에 크기 견본상당히 크다(n=25)) .

게다가, 평균이 분포는 다음과 같습니다 평균값단일 응답의 분포, 즉 μ. ㅏ 표준 편차이 분포의 (σ/√n)은 =8/ROOT(25) 공식을 사용하여 계산할 수 있습니다.

엔지니어가 받은 것으로도 알려져 있습니다. 점 추정매개변수 μ는 78ms(X 평균)와 같습니다. 따라서 이제 확률을 계산할 수 있습니다. 우리는 배포 형태를 알고 있습니다( 정상) 및 해당 매개변수(X 평균 및 σ/√n).

엔지니어가 알고 싶어함 기대값μ 응답 시간 분포. 위에서 언급한 바와 같이, 이 μ는 다음과 같습니다. 평균 응답 시간의 샘플 분포에 대한 수학적 기대. 우리가 사용한다면 정규 분포 N(X 평균; σ/√n)이면 원하는 μ는 약 95%의 확률로 +/-2*σ/√n 범위에 있게 됩니다.

유의수준 1-0.95=0.05와 같습니다.

마지막으로 왼쪽과 오른쪽 경계선을 찾아보겠습니다. 신뢰 구간.
왼쪽 테두리: =78-NORM.ST.INV(1-0.05/2)*8/ROOT(25) = 74,864
오른쪽 테두리: =78+NORM.ST.INV(1-0.05/2)*8/ROOT(25)=81.136

왼쪽 테두리: =NORM.REV(0.05/2; 78; 8/ROOT(25))
오른쪽 테두리: =NORM.REV(1-0.05/2; 78; 8/ROOT(25))

답변: 신뢰 구간~에 95% 신뢰 수준 및 σ=8밀리초같음 78+/-3.136ms.

안에 시그마 시트의 예제 파일알고 계산 및 구성을 위한 양식을 만들었습니다. 양면의 신뢰 구간임의의 견본주어진 σ와 유의미한 수준.

CONFIDENCE.NORM() 함수

값이 견본범위 내에 있습니다 B20:B79 , ㅏ 유의수준 0.05와 동일; 그런 다음 MS EXCEL 공식:
=평균(B20:B79)-신뢰도.NORM(0.05;σ; 개수(B20:B79))
왼쪽 테두리를 반환합니다 신뢰 구간.

다음 공식을 사용하여 동일한 한도를 계산할 수 있습니다.
=평균(B20:B79)-NORM.ST.REV(1-0.05/2)*σ/ROOT(COUNT(B20:B79))

메모: CONFIDENCE.NORM() 함수는 MS EXCEL 2010부터 등장했다. MS EXCEL 이전 버전에서는 TRUST() 함수를 사용했다.

Konstantin Kravchik은 의학 연구에서 신뢰 구간이 무엇인지, 그리고 이를 어떻게 사용하는지 명확하게 설명합니다.

"Katren-Style"은 Konstantin Kravchik의 의료 통계 시리즈를 계속 출판합니다. 이전 두 편의 글에서 저자는 and와 같은 개념에 대한 설명을 다루었습니다.

콘스탄틴 크라브치크

수학자-분석가. 의학 및 인문학 통계 연구 전문가

모스크바시

임상 연구에 관한 기사에서 "신뢰 구간"(95 % CI 또는 95 % CI - 신뢰 구간)이라는 신비한 문구를 자주 찾을 수 있습니다. 예를 들어 다음과 같은 기사가 있을 수 있습니다. "차이의 유의성을 평가하기 위해 스튜던트 t-검정을 사용하여 95 % 신뢰 구간을 계산했습니다."

"95 % 신뢰 구간"의 값은 무엇이며 이를 계산하는 이유는 무엇입니까?

신뢰 구간이란 무엇입니까? - 실제 모집단이 속해 있는 범위이다. "사실이 아닌" 평균이 있습니까? 어떤 의미에서는 그렇습니다. 전체 모집단에서 관심 매개변수를 측정하는 것은 불가능하므로 연구자들은 제한된 표본에 만족한다고 설명했습니다. 이 표본(예: 체중 기준)에는 하나의 평균값(특정 체중)이 있으며 이를 통해 전체 모집단의 평균값을 판단합니다. 그러나 표본(특히 작은 표본)의 평균 체중이 일반 모집단의 평균 체중과 일치할 가능성은 거의 없습니다. 따라서 인구의 평균값 범위를 계산하고 사용하는 것이 더 정확합니다.

예를 들어 헤모글로빈의 95% 신뢰구간(95% CI)이 110~122g/L라고 가정해 보겠습니다. 이는 모집단의 실제 평균 헤모글로빈 값이 110~122g/L일 확률이 95%라는 것을 의미합니다. 즉, 우리는 인구의 평균 헤모글로빈 값을 알지 못하지만 95 % 확률로 이 특성에 대한 값의 범위를 나타낼 수 있습니다.

신뢰 구간은 특히 그룹 간 평균 차이 또는 효과 크기와 관련이 있습니다.

두 가지 철제 제제, 즉 오랫동안 시장에 출시된 제품과 최근 등록된 제품의 효과를 비교했다고 가정해 보겠습니다. 치료 과정 후 우리는 연구 대상 환자 그룹의 헤모글로빈 농도를 평가했으며 통계 프로그램은 두 그룹의 평균값 간의 차이가 95% 확률로 1.72에서 1.72 사이의 범위에 있음을 계산했습니다. 14.36g/l(표 1).

테이블 1. 독립 표본에 대한 검정
(그룹은 헤모글로빈 수준에 따라 비교됩니다)

이는 다음과 같이 해석되어야 합니다. 일반 인구 중 신약을 복용하는 일부 환자의 경우 이미 알려진 약을 복용한 환자보다 헤모글로빈이 평균 1.72~14.36g/L 더 높을 것입니다.

즉, 일반 인구에서 집단 간 평균 헤모글로빈 수치의 차이는 95% 확률로 이러한 한계 내에 있습니다. 이것이 많은지 적은지 판단하는 것은 연구자의 몫입니다. 이 모든 것의 요점은 하나의 평균 값이 아니라 다양한 값을 사용하여 작업하므로 그룹 간 매개변수의 차이를 더 안정적으로 추정한다는 것입니다.

통계 패키지에서는 연구자의 재량에 따라 신뢰 구간의 경계를 독립적으로 좁히거나 확장할 수 있습니다. 신뢰 구간 확률을 낮춤으로써 평균 범위를 좁힙니다. 예를 들어, 90 % CI에서는 평균 범위(또는 평균의 차이)가 95 %보다 좁아집니다.

반대로 확률을 99 %로 높이면 값의 범위가 확장됩니다. 그룹을 비교할 때 CI의 하한이 0점을 넘을 수 있습니다. 예를 들어, 신뢰 구간의 경계를 99 %로 확장하면 구간 경계의 범위는 -1에서 16g/l까지입니다. 이는 일반 모집단에 연구 대상 특성에 대한 평균 차이가 0(M = 0)인 그룹이 있음을 의미합니다.

신뢰 구간을 사용하여 통계적 가설을 테스트할 수 있습니다. 신뢰 구간이 0 값을 교차하면 연구 중인 매개변수에 대해 그룹이 다르지 않다고 가정하는 귀무 가설이 참입니다. 위에서는 경계를 99 %로 확장한 예를 설명했습니다. 일반 인구의 어딘가에서 우리는 어떤 면에서도 다르지 않은 그룹을 발견했습니다.

헤모글로빈 차이의 95% 신뢰 구간(g/l)


그림은 두 그룹 간의 평균 헤모글로빈 수치 차이에 대한 95% 신뢰구간을 보여줍니다. 선은 0 표시를 통과하므로 0의 평균 간에 차이가 있으며, 이는 그룹이 다르지 않다는 귀무가설을 확인합니다. 그룹 간 차이의 범위는 –2 ~ 5g/L입니다. 이는 헤모글로빈이 2g/L 감소하거나 5g/L 증가할 수 있음을 의미합니다.

신뢰구간은 매우 중요한 지표입니다. 덕분에 그룹의 차이가 실제로 평균의 차이로 인한 것인지 아니면 큰 표본으로 인한 것인지 알 수 있습니다. 왜냐하면 큰 표본의 경우 작은 표본보다 차이를 발견할 확률이 더 높기 때문입니다.

실제로는 다음과 같이 보일 수 있습니다. 우리는 1000명의 샘플을 채취하여 헤모글로빈 수치를 측정한 결과 평균 차이에 대한 신뢰 구간이 1.2~1.5g/L 범위라는 것을 발견했습니다. 이 경우의 통계적 유의성 수준 p

헤모글로빈 농도가 증가했지만 거의 눈에 띄지 않게 표본 크기로 인해 통계적 유의성이 정확하게 나타났습니다.

신뢰 구간은 평균뿐만 아니라 비율(및 위험 비율)에 대해서도 계산할 수 있습니다. 예를 들어, 우리는 개발된 약물을 복용하는 동안 관해를 달성한 환자 비율의 신뢰 구간에 관심이 있습니다. 비율, 즉 그러한 환자의 비율에 대한 95 % CI가 0.60~0.80 범위에 있다고 가정합니다. 따라서 우리 약은 60~80%의 경우에 치료 효과가 있다고 할 수 있습니다.

확률표본 특성을 기반으로 일반 매개변수를 자신 있게 판단하기에 충분하다고 인식되는 를 이라고 합니다. 신뢰하는 .

일반적으로 0.95의 값이 신뢰 확률로 선택됩니다. 0.99; 0.999(보통 백분율로 표시됨 - 95%, 99%, 99.9%) 책임감이 높을수록 신뢰도도 높아집니다: 99% 또는 99.9%.

체육 및 스포츠 분야의 과학 연구에서는 0.95(95%)의 신뢰 수준이 충분한 것으로 간주됩니다.

일반 모집단의 표본 산술 평균이 주어진 신뢰 확률에 속하는 구간을 호출합니다. 신뢰 구간 .

평가 유의성 수준– 작은 숫자 α, 그 값은 신뢰 구간을 벗어날 확률을 나타냅니다. 신뢰 확률에 따라: α 1 = (1-0.95) = 0.05; α 2 = (1 – 0.99) = 0.01 등

평균에 대한 신뢰 구간(수학적 기대) 정규 분포:

,

평가의 신뢰성(신뢰 확률)은 어디에 있습니까? - 샘플 평균; s - 수정된 표준편차; n – 표본 크기 t γ는 주어진 n과 γ에 대해 스튜던트 분포표(부록, 표 1 참조)에서 결정된 값입니다.

모집단 평균의 신뢰 구간 경계를 찾으려면 다음을 수행해야 합니다.

1. 계산하고 s.

2. 추정치의 신뢰도(신뢰도)γ를 0.95(95%)로 설정하거나 유의수준 α를 0.05(5%)로 설정해야 합니다.

3. t-Student 분포표(부록, 표 1)를 사용하여 경계값 tγ를 찾습니다.

t 분포는 영점을 중심으로 대칭이므로 t의 양수 값만 알면 충분합니다. 예를 들어 표본 크기가 n=16이면 자유도는 다음과 같습니다. df) – 배포판 df=16 - 1=15 . 표에 따르면 1개 애플리케이션 t 0.05 = 2.13 .

4. α = 0.05에 대한 신뢰 구간의 한계를 구하고 n = 16:

신뢰의 한계:

큰 표본 크기의 경우(n ≥ 30) t – 학생 분포가 정규화됩니다. 따라서 신뢰 구간은 n ≥ 30인 경우 다음과 같이 쓸 수 있습니다.

어디 - 정규화된 정규 분포의 백분율입니다.

표준 신뢰 확률(95%, 99%, 99.9%) 및 유의 수준 α 값( )은 표 8에 나와 있습니다.

표 8

표준 신뢰 수준 α에 대한 값

α
0,05 1,96
0,01 2,58
0,001 3,28

예제 1의 데이터를 기반으로 95%의 경계를 결정합니다. 신뢰 구간 (α = 0.05) 평균 스탠딩 점프 결과.이 예에서 표본 크기는 n = 65이며 큰 표본 크기에 대한 권장 사항을 사용하여 신뢰 구간의 경계를 결정할 수 있습니다.

이 기사에서 배울 내용은 다음과 같습니다.

    무슨 일이야? 신뢰 구간?

    점은 무엇인가 3 시그마 규칙?

    이 지식을 실제로 어떻게 적용할 수 있습니까?

요즘에는 다양한 제품, 판매 방향, 직원, 활동 영역 등과 관련된 정보가 너무 많아서 중요한 것을 강조하는 것이 어려울 수 있습니다, 우선주의를 기울이고 관리에 노력할 가치가 있습니다. 정의 신뢰 구간그리고 그 경계를 넘어서는 실제 가치를 분석하는 기술입니다. 상황을 강조하는 데 도움이 될 것입니다, 변화하는 트렌드에 영향을 미칩니다.긍정적인 요소를 개발하고 부정적인 요소의 영향을 줄일 수 있습니다. 이 기술은 많은 유명 글로벌 기업에서 사용됩니다.

"라는 것이 있습니다. 경고", 어느 관리자에게 알린다다음 값이 특정 방향에 있다는 것 넘어갔다 신뢰 구간. 이것은 무엇을 의미 하는가? 이는 특이한 사건이 발생했다는 신호이며, 이는 이 방향의 기존 추세를 바꿀 수 있습니다. 이것은 신호입니다그것에 그것을 알아 내기 위해상황에서 무엇이 영향을 미쳤는지 이해합니다.

예를 들어, 몇 가지 상황을 생각해 보십시오. 2011년 100개 품목에 대한 월별 예측한도와 3월 실제 판매량을 기준으로 판매량 예측을 계산해 보았다.

  1. '해바라기유'의 경우 예측상한을 돌파해 신뢰구간에 들어가지 않았다.
  2. '드라이 이스트'의 경우 예상 하한치를 초과했습니다.
  3. '오트밀죽'이 상한선을 돌파했습니다.

다른 제품의 경우 실제 판매량은 주어진 예측 한도 내에 있었습니다. 저것들. 그들의 판매는 예상 범위 내에 있었습니다. 그래서 우리는 국경을 넘어선 3가지 제품을 확인하고, 무엇이 국경을 넘어서도록 영향을 미쳤는지 알아보기 시작했습니다.

  1. 해바라기유의 경우 새로운 유통망에 진입하면서 추가 판매량을 얻게 되었고, 이로 인해 상한선을 넘어섰습니다. 이 제품의 경우 이 네트워크에 대한 판매 예측을 고려하여 연말까지 예측을 다시 계산하는 것이 좋습니다.
  2. '드라이 이스트'의 경우 세관에서 차량이 정체됐고, 5일 만에 품귀 현상이 발생해 판매 감소에 영향을 미치고 하한선을 초과했다. 원인이 무엇인지 파악하고 이러한 상황을 반복하지 않도록 노력하는 것이 좋습니다.
  3. 오트밀죽 판촉행사를 진행해 매출이 크게 늘었고 예상을 뛰어넘는 성과를 거뒀다.

우리는 예측 한계를 넘어서는 데 영향을 미치는 3가지 요인을 확인했습니다. 실제 판매량이 예측 한도를 초과할 수 있다는 사실로 이어지는 요인인 예측 및 계획의 정확성을 높이려면 이에 대한 예측 및 계획을 별도로 강조하고 구축하는 것이 좋습니다. 그런 다음 주요 판매 예측에 미치는 영향을 고려하십시오. 또한 이러한 요인의 영향을 정기적으로 평가하고 상황을 더 좋게 바꿀 수도 있습니다. 부정적인 요인의 영향력을 줄이고 긍정적인 요인의 영향력을 높여서.

신뢰 구간을 사용하면 다음을 수행할 수 있습니다.

  1. 길찾기 선택, 왜냐하면 주목할만한 가치가 있기 때문입니다. 영향을 미칠 수 있는 사건이 이러한 방향에서 발생했습니다. 추세의 변화.
  2. 요인 식별, 이는 상황 변화에 실제로 영향을 미칩니다.
  3. 수용하다 알려진 결정(예: 구매, 기획 등에 관한 정보)

이제 예제를 사용하여 신뢰 구간이 무엇인지, Excel에서 이를 계산하는 방법을 살펴보겠습니다.

신뢰 구간이란 무엇입니까?

신뢰 구간은 예측 경계(상한 및 하한)입니다. 주어진 확률(시그마)로실제 값이 나타납니다.

저것들. 우리는 예측을 계산합니다. 이것이 우리의 주요 지침이지만 실제 값이 우리 예측과 100% 동일할 가능성이 낮다는 것을 알고 있습니다. 그리고 질문이 생깁니다. 어느 경계 안에서실제 가치가 떨어질 수 있으며, 현재 추세가 계속된다면? 그리고 이 질문은 우리가 대답하는 데 도움이 될 것입니다 신뢰 구간 계산, 즉. - 예측의 상한 및 하한.

주어진 확률 시그마는 무엇입니까?

계산할 때우리가 할 수 있는 신뢰 구간 설정된 확률 조회수실제 값 주어진 예측 한도 내에서. 어떻게 하나요? 이를 위해 시그마 값을 설정하고, 시그마가 다음과 같은 경우:

    3 시그마- 그러면 다음 실제 값이 신뢰 구간에 들어갈 확률은 99.7%, 즉 300 대 1이 되거나, 경계를 벗어날 확률은 0.3%가 됩니다.

    2 시그마- 그러면 다음 값이 경계 내에 포함될 확률은 ≒ 95.5%입니다. 즉, 확률은 약 20대 1이며, 너무 지나칠 확률은 4.5%입니다.

    1 시그마- 그러면 확률은 ≒ 68.3%입니다. 즉, 확률은 약 2:1이거나 다음 값이 신뢰 구간을 벗어날 확률은 31.7%입니다.

우리는 공식화했습니다 3시그마 법칙,그 말은 적중 확률또 다른 임의의 값 신뢰 구간에주어진 값으로 3시그마는 99.7%.

러시아의 위대한 수학자 체비셰프는 주어진 3 시그마 값에서 예측 한계를 넘어설 확률이 10%라는 정리를 증명했습니다. 저것들. 3-시그마 신뢰 구간에 포함될 확률은 최소 90%인 반면, 예측과 그 경계를 "눈으로" 계산하려는 시도에는 훨씬 더 심각한 오류가 발생합니다.

Excel에서 신뢰 구간을 직접 계산하는 방법은 무엇입니까?

예제를 사용하여 Excel의 신뢰 구간(예: 예측의 상한 및 하한) 계산을 살펴보겠습니다. 우리는 5년 동안 월별 판매량이라는 시계열을 가지고 있습니다. 첨부 파일을 참조하십시오.

예측 한도를 계산하기 위해 다음을 계산합니다.

  1. 판매 예측().
  2. 시그마 - 표준편차실제 값으로부터 모델을 예측합니다.
  3. 3시그마.
  4. 신뢰 구간.

1. 매출 예측.

=(RC[-14] (시계열 데이터)- RC[-1] (모델값))^2(제곱)


3. 매월 8단계 Sum((Xi-Ximod)^2)의 편차 값을 합산해 보겠습니다. 즉, 매년 1월, 2월을 요약해 보겠습니다.

이렇게 하려면 =SUMIF() 수식을 사용합니다.

SUMIF(주기 내의 기간 번호가 있는 배열(1~12개월), 주기의 기간 번호에 대한 링크, 소스 데이터와 기간 값 간의 차이의 제곱이 있는 배열에 대한 링크)


4. 1~12주기(10단계)의 각 기간에 대한 표준편차를 계산합니다. 첨부파일에).

이를 위해 9단계에서 계산된 값에서 근을 추출하고 이 주기의 기간 수에서 1을 뺀 값으로 나눕니다. = SQRT((Sum(Xi-Ximod)^2/(n-1))

Excel =ROOT(R8의 수식을 사용해 보겠습니다. ((Sum(Xi-Ximod)^2 링크)/(COUNTIF($O$8:$O$67 (사이클 번호가 있는 배열에 대한 링크); O8 (어레이에서 계산하는 특정 사이클 번호에 대한 링크))-1))

Excel 수식 사용 = COUNTIF우리는 숫자 n을 센다


예측 모델에서 실제 데이터의 표준편차를 계산한 후 매월 시그마 값을 얻었습니다(단계 10). 첨부파일에 .

3. 3시그마를 계산해 봅시다.

11단계에서는 시그마 수를 설정합니다. 예에서는 "3"(11단계)입니다. 첨부파일에):

연습 시그마 값에도 편리합니다.

1.64 시그마 - 한계를 초과할 확률 10%(10분의 1)

1.96 시그마 - 한계를 넘어설 확률 5%(20분의 1)

2.6 시그마 - 한도를 초과할 확률이 1%입니다(100분의 1).

5) 3시그마 계산, 이를 위해 매월 "시그마" 값에 "3"을 곱합니다.

3. 신뢰구간을 결정합니다.

  1. 예측 상한- 성장과 계절성을 고려한 매출 예측 + (플러스) 3 시그마
  2. 하한 예측 한도- 성장과 계절성을 고려한 매출 예측 - (마이너스) 3 시그마;

장기간의 신뢰구간 계산의 편의를 위해(첨부파일 참조) 엑셀 수식을 사용하겠습니다. =Y8+VLOOKUP(W8,$U$8:$V$19,2,0), 어디

Y8- 판매 예측;

W8- 3-시그마 값을 적용할 월 수

저것들. 예측 상한= "판매 예측" + "3 시그마"(예: VLOOKUP(월 번호; 3개의 시그마 값이 있는 테이블; 해당 행의 월 번호와 동일한 시그마 값을 추출하는 열; 0)).

하한 예측 한도= "판매 예측"에서 "3 시그마"를 뺀 값입니다.

그래서 우리는 Excel에서 신뢰 구간을 계산했습니다.

이제 우리는 주어진 시그마 확률에 따라 실제 값이 포함될 경계가 있는 범위와 예측을 갖게 되었습니다.

이번 글에서는 시그마와 3시그마 규칙이 무엇인지, 신뢰 구간을 결정하는 방법, 이 기법을 실제로 사용할 수 있는 이유에 대해 살펴보았습니다.

정확한 예측과 성공을 기원합니다!

어떻게 Forecast4AC PRO가 도움을 드릴 수 있습니다신뢰구간을 계산할 때?:

    Forecast4AC PRO는 1000개가 넘는 시계열에 대한 예측의 상한 또는 하한을 동시에 자동으로 계산합니다.

    한 번의 키 입력으로 차트의 예측, 추세 및 실제 판매와 비교하여 예측의 경계를 분석하는 기능

Forcast4AC PRO 프로그램에서는 시그마 값을 1에서 3까지 설정할 수 있습니다.

우리와 함께하세요!

무료 예측 및 비즈니스 분석 앱 다운로드:


  • Novo Forecast Lite- 자동적 인 예측 계산 V 뛰어나다.
  • 4분석 - ABC-XYZ 분석및 배출 분석 뛰어나다.
  • Qlik Sense데스크탑 및 QlikViewPersonal Edition - 데이터 분석 및 시각화를 위한 BI 시스템입니다.

유료 솔루션의 기능을 테스트해 보세요.

  • Novo Forecast PRO- 대규모 데이터 세트에 대해 Excel에서 예측합니다.

신뢰 구간 ( 영어 신뢰 구간) 통계에 사용되는 구간 추정 유형 중 하나로, 주어진 유의 수준에 대해 계산됩니다. 이를 통해 모집단의 알려지지 않은 통계 매개변수의 실제 값이 선택된 통계적 유의 수준에 의해 지정된 확률로 얻은 값 범위 내에 있다는 진술을 할 수 있습니다.

정규 분포

데이터 모집단의 분산(σ 2)이 알려진 경우 z-점수를 사용하여 신뢰 한계(신뢰 구간의 끝점)를 계산할 수 있습니다. t-분포를 사용하는 것과 비교하여, z-점수를 사용하면 더 좁은 신뢰 구간을 구성할 수 있을 뿐만 아니라 기대값과 표준 편차(σ)에 대한 더 신뢰할 수 있는 추정치를 구성할 수 있습니다. 정규 분포.

공식

데이터 모집단의 표준 편차가 알려진 경우 신뢰 구간의 경계점을 결정하려면 다음 공식이 사용됩니다.

L = X - Z α/2 σ
√n

표본 크기가 25개 관측치이고 표본 기대값이 15이며 모집단 표준 편차가 8이라고 가정합니다. 유의 수준 α=5%의 경우 Z-점수는 Z α/2 =1.96입니다. 이 경우 신뢰 구간의 하한과 상한은 다음과 같습니다.

L = 15 - 1.96 8 = 11,864
√25
엘 = 15 + 1.96 8 = 18,136
√25

따라서 95% 확률로 모집단의 수학적 기대치는 11.864에서 18.136 사이의 범위에 속할 것이라고 말할 수 있습니다.

신뢰 구간을 좁히는 방법

연구 목적에 비해 범위가 너무 넓다고 가정해 보겠습니다. 신뢰구간의 범위를 줄이는 방법에는 두 가지가 있습니다.

  1. 통계적 유의성 수준 α를 줄입니다.
  2. 샘플 크기를 늘립니다.

통계적 유의성 수준을 α=10%로 줄이면 Z α/2 =1.64와 동일한 Z-점수를 얻습니다. 이 경우 구간의 하한 및 상한은 다음과 같습니다.

L = 15 - 1.64 8 = 12,376
√25
엘 = 15 + 1.64 8 = 17,624
√25

그리고 신뢰 구간 자체는 다음과 같이 쓸 수 있습니다.

이 경우 모집단의 수학적 기대값이 90% 확률로 범위 내에 속한다고 가정할 수 있습니다.

통계적 유의성 α 수준을 낮추지 않으려면 유일한 대안은 표본 크기를 늘리는 것입니다. 이를 144개의 관측값으로 늘리면 다음과 같은 신뢰 한계 값을 얻습니다.

L = 15 - 1.96 8 = 13,693
√144
엘 = 15 + 1.96 8 = 16,307
√144

신뢰 구간 자체는 다음과 같은 형식을 갖습니다.

따라서 통계적 유의성을 감소시키지 않고 신뢰구간을 좁히는 것은 표본 크기를 늘려야 가능합니다. 표본 크기를 늘릴 수 없는 경우 통계적 유의성 수준을 낮추는 것만으로 신뢰 구간을 좁힐 수 있습니다.

정규 분포가 아닌 분포에 대한 신뢰 구간 구축

모집단의 표준편차를 알 수 없거나 분포가 정규분포와 다른 경우에는 t-분포를 사용하여 신뢰구간을 구성합니다. 이 기법은 Z-점수 기반 기법에 비해 더 보수적이므로 더 넓은 신뢰 구간에 반영됩니다.

공식

t-분포를 기반으로 신뢰 구간의 하한 및 상한을 계산하려면 다음 공식을 사용하십시오.

L = X - t α σ
√n

스튜던트 분포 또는 t-분포는 특성의 개별 값 수(표본의 관측치 수)와 동일한 자유도 수인 하나의 매개변수에만 의존합니다. 주어진 자유도(n)에 대한 스튜던트 t-검정 값과 통계적 유의성 α 수준은 참조 표에서 확인할 수 있습니다.

표본 크기가 개별 값 25개, 표본 기대값이 50, 표본 표준 편차가 28이라고 가정합니다. 통계적 유의성 α=5% 수준에 대한 신뢰 구간을 구축해야 합니다.

우리의 경우 자유도는 24(25-1)이므로 통계적 유의성 α=5%에 대한 스튜던트 t-검정의 해당 테이블 값은 2.064입니다. 따라서 신뢰 구간의 하한과 상한은 다음과 같습니다.

L = 50 - 2.064 28 = 38,442
√25
엘 = 50 + 2.064 28 = 61,558
√25

간격 자체는 다음 형식으로 작성할 수 있습니다.

따라서 95% 확률로 모집단의 수학적 기대값이 범위 내에 있을 것이라고 말할 수 있습니다.

t 분포를 사용하면 통계적 유의성을 줄이거나 표본 크기를 늘려 신뢰 구간을 좁힐 수 있습니다.

예제 조건에서 통계적 유의성을 95%에서 90%로 줄임으로써 스튜던트 t-검정의 해당 테이블 값 1.711을 얻습니다.

L = 50 - 1.711 28 = 40,418
√25
L = 50 + 1.711 28 = 59,582
√25

이 경우, 모집단의 수학적 기대값이 90% 확률로 범위 내에 있을 것이라고 말할 수 있습니다.

통계적 유의성을 줄이고 싶지 않다면 유일한 대안은 표본 크기를 늘리는 것입니다. 예제의 원래 조건처럼 25개가 아니라 64개의 개별 관측값이라고 가정해 보겠습니다. 63 자유도(64-1)에 대한 스튜던트 t-검정의 표 값과 통계적 유의성 α=5% 수준은 1.998입니다.

L = 50 - 1.998 28 = 43,007
√64
엘 = 50 + 1.998 28 = 56,993
√64

이를 통해 우리는 95% 확률로 모집단의 수학적 기대치가 범위 내에 있을 것이라고 말할 수 있습니다.

대형 샘플

대규모 표본은 개별 관측치 수가 100개를 초과하는 데이터 모집단의 표본입니다. 통계 연구에 따르면 모집단의 분포가 정규 분포가 아니더라도 대규모 표본이 정규 분포를 따르는 경향이 있는 것으로 나타났습니다. 또한 이러한 표본의 경우 z-점수와 t-분포를 사용하면 신뢰 구간을 구성할 때 거의 동일한 결과를 얻을 수 있습니다. 따라서 대규모 표본의 경우 t-분포 대신 정규 분포에 z-점수를 사용하는 것이 허용됩니다.

요약하자면