정규 분포 확률 변수의 확률입니다. 연속 확률 변수에 대한 정규 확률 분포 법칙. 다른 배포판과의 관계

대체 Φ(x)=π /4,f(x)=1/(b-a)

D[π /4]=( /720) ).

№319 큐브 가장자리 엑스대략적으로 측정되었으며, . 큐브의 가장자리를 간격 (a, b)에 균일하게 분포된 확률 변수 X로 간주하여 큐브 부피의 수학적 기대값과 분산을 찾습니다.

1. 원의 면적에 대한 수학적 기대값 – 확률 변수를 구해 봅시다 Y=Φ(K)= - 공식에 따르면

M[Φ(X)]=

배치함으로써 Φ(x)= ,f(x)=1/(b-a)통합을 수행하면

중( )=
.

2. 공식을 사용하여 원 면적의 분산을 찾습니다.

D[Φ(X)]= - .

대체 Φ(x)= ,f(x)=1/(b-a)통합을 수행하면

= .

№320 확률 변수 X와 Y는 독립적이고 균일하게 분포됩니다: 구간 (a, b)의 X, 구간 (c, d)의 Y 제품 XY의 수학적 기대치를 구합니다.

독립 확률 변수의 곱에 대한 수학적 기대값은 수학적 기대값의 곱과 같습니다. 즉

엠(XY)=

№321 확률 변수 X와 Y는 독립적이고 균일하게 분포됩니다. X는 구간 (a,b)에 있고 Y는 구간 (c,d)에 있습니다. 제품 XY의 분산을 구합니다.

공식을 사용해 봅시다

D(XY)=M[

독립 확률 변수의 곱에 대한 수학적 기대값은 수학적 기대값의 곱과 같습니다. 따라서

공식을 사용하여 M을 구해 봅시다

M[Φ(X)]=

대체 Φ(x)= ,f(x)=1/(b-a)통합을 수행하면

(**)

우리도 비슷하게 찾을 수 있습니다

(***)

대체 M(X)=(a+b)/2, M(Y)=(c+d)/2, (*)의 (***) 및 (**)뿐만 아니라 마침내

디(XY)= -[ .

№322 정규 분포 확률 변수 X의 수학적 기대값은 a=3이고 표준 편차 σ=2입니다. X의 확률 밀도를 쓰세요.

다음 공식을 사용해 보겠습니다.

에프(엑스)= .

우리가 얻는 사용 가능한 값을 대체하면 다음과 같습니다.

에프(엑스)= =f(x)= .

№323 M(X)=3, D(X)=16을 알고 정규 분포 확률 변수 X의 확률 밀도를 작성합니다.

다음 공식을 사용해 보겠습니다.

에프(엑스)= .

σ의 값을 찾기 위해 우리는 확률변수의 표준편차가 엑스분산의 제곱근과 같습니다. 따라서 σ=4, M(X)=a=3입니다. 우리가 얻는 공식으로 대체하면

에프(엑스)= = .

№324 정규 분포 확률 변수 X는 밀도로 제공됩니다.

에프(엑스)= . X의 수학적 기대값과 분산을 구합니다.

공식을 사용해 봅시다

에프(엑스)= ,

어디 -기대값, σ - 표준 편차 X. 이 공식에서 다음과 같습니다. a=M(X)=1. 분산을 찾기 위해 우리는 확률변수의 표준편차가 다음과 같은 속성을 사용합니다. 엑스분산의 제곱근과 같습니다. 따라서 디(엑스)= =

답: 수학적 기대값은 1입니다. 분산은 25입니다.

본다르추크 로디온

정규화된 정규 법칙의 분포 함수를 고려하면 . 분포 밀도 f(x)를 구합니다.

그것을 아는 것은 , f(x)를 찾으세요.

답변:

라플라스 함수 증명 . 이상한: .

교체해드리겠습니다

우리는 역대입을 수행하여 다음을 얻습니다.

= =



스스로 해결해야 할 문제도 있을 것이고, 그에 대한 답을 볼 수 있을 것입니다.

정규분포: 이론적 기초

정규법칙에 따라 분포된 확률변수의 예로는 사람의 키와 같은 종에서 잡힌 물고기의 질량이 있습니다. 정규 분포는 다음을 의미합니다. : 인간의 키, 같은 종의 물고기 질량 값이 직관적으로 "정상"(실제로는 평균)으로 인식되며 충분히 큰 샘플에서는 다음보다 훨씬 더 자주 발견됩니다. 상향 또는 하향이 다릅니다.

연속 확률 변수(때때로 가우스 분포)의 정규 확률 분포는 평균에 대해 대칭인 이 분포의 밀도 함수가 종 모양(빨간색 곡선)과 매우 유사하다는 사실로 인해 종 모양이라고 할 수 있습니다. 위 그림에서).

표본에서 특정 값이 나타날 확률은 곡선 아래 그림의 면적과 동일하며, 정규 분포의 경우 "종" 상단 아래에 해당 값이 있음을 알 수 있습니다. 평균을 구하는 경향이 있으므로 면적, 즉 확률이 가장자리 아래보다 큽니다. 따라서 우리는 이미 말한 것과 같은 것을 얻습니다. "보통"키의 사람을 만나고 "보통"무게의 물고기를 잡을 확률은 위쪽 또는 아래쪽으로 다른 값보다 높습니다. 많은 실제 사례에서 측정 오류는 정상에 가까운 법칙에 따라 분포됩니다.

정규 분포의 밀도 함수를 보여주는 수업 시작 부분의 그림을 다시 살펴보겠습니다. 이 함수의 그래프는 소프트웨어 패키지의 특정 데이터 샘플을 계산하여 얻은 것입니다. 통계. 그 위에 히스토그램 열은 표본 값의 간격을 나타내며 그 분포는 빨간색 곡선인 정규 분포 밀도 함수의 실제 그래프에 가깝습니다(또는 통계에서 흔히 말하는 것처럼 크게 다르지 않습니다). . 그래프는 이 곡선이 실제로 종 모양임을 보여줍니다.

정규분포는 연속확률변수의 기대값과 표준편차만 알면 해당 변수와 관련된 모든 확률을 계산할 수 있으므로 여러 면에서 가치가 있습니다.

정규분포는 사용하기 가장 쉬운 것 중 하나라는 장점도 있습니다. 통계적 가설을 테스트하는 데 사용되는 통계 테스트 - 스튜던트 t 테스트- 표본 데이터가 정규 분포 법칙을 따르는 경우에만 사용할 수 있습니다.

연속확률변수의 정규분포의 밀도함수다음 공식을 사용하여 찾을 수 있습니다.

,

어디 엑스- 변화량의 값, - 평균값, - 표준편차, 이자형=2.71828... - 자연로그의 밑, =3.1416...

정규분포 밀도함수의 속성

평균의 변화는 정규 밀도 함수 곡선을 축 쪽으로 이동시킵니다. 황소. 증가하면 곡선은 오른쪽으로 이동하고 감소하면 왼쪽으로 이동합니다.

표준편차가 변경되면 곡선 상단의 높이도 변경됩니다. 표준편차가 증가하면 곡선의 상단이 높아지고, 감소하면 낮아집니다.

주어진 간격 내에 정규 분포된 확률 변수가 포함될 확률

이미 이 단락에서 우리는 제목에 그 의미가 표시된 실제 문제를 해결하기 시작할 것입니다. 문제 해결을 위해 이론이 제공하는 가능성이 무엇인지 살펴 보겠습니다. 정규 분포 확률 변수가 주어진 구간에 포함될 확률을 계산하기 위한 시작 개념은 정규 분포의 누적 함수입니다.

누적 정규 분포 함수:

.

그러나 평균과 표준편차의 가능한 모든 조합에 대한 표를 얻는 것은 문제가 있습니다. 따라서 정규 분포 확률 변수가 주어진 구간에 포함될 확률을 계산하는 간단한 방법 중 하나는 표준화 정규 분포에 대한 확률 테이블을 사용하는 것입니다.

정규 분포를 표준화 또는 정규화라고 합니다.이고, 그 평균은 이고, 표준편차는 이다.

표준화된 정규분포 밀도 함수:

.

표준화 정규 분포의 누적 함수:

.

아래 그림은 소프트웨어 패키지에서 특정 데이터 샘플을 계산하여 얻은 그래프인 표준화 정규 분포의 적분 함수를 보여줍니다. 통계. 그래프 자체는 빨간색 곡선이고, 샘플값은 이에 가까워지고 있습니다.


사진을 확대하려면 마우스 왼쪽 버튼으로 클릭하세요.

무작위 변수를 표준화한다는 것은 작업에 사용된 원래 단위에서 표준화된 단위로 이동하는 것을 의미합니다. 표준화는 공식에 따라 수행됩니다.

실제로 확률변수의 가능한 모든 값을 알 수 없는 경우가 많기 때문에 평균값과 표준편차 값을 정확하게 결정할 수 없습니다. 관측값과 표준편차의 산술 평균으로 대체됩니다. 에스. 크기 표준편차를 측정할 때 산술 평균에서 랜덤 변수 값의 편차를 나타냅니다.

열린 간격

통계학에 관한 거의 모든 책에서 볼 수 있는 표준화 정규분포의 확률표에는 표준 정규분포를 갖는 확률변수가 포함될 확률이 포함되어 있습니다. 특정 숫자보다 작은 값을 취합니다. . 즉, 마이너스 무한대에서 열린 구간에 속하게 됩니다. . 예를 들어, 수량 1.5보다 작으며 0.93319와 같습니다.

예시 1.이 회사는 서비스 수명이 평균 1000시간, 표준 편차 200시간으로 정규 분포를 따르는 부품을 생산합니다.

무작위로 선택한 부품의 서비스 수명이 최소 900시간이 될 확률을 계산합니다.

해결책. 첫 번째 표기법을 소개하겠습니다.

원하는 확률입니다.

확률변수 값은 열린 구간에 있습니다. 하지만 우리는 확률 변수가 주어진 값보다 작은 값을 가질 확률을 계산하는 방법을 알고 있으며, 문제의 조건에 따라 주어진 값과 같거나 큰 값을 찾아야 합니다. 이는 정규 밀도 곡선(종) 아래 공간의 다른 부분입니다. 따라서 원하는 확률을 찾으려면 무작위 변수가 지정된 900보다 작은 값을 가질 확률을 1에서 빼야 합니다.

이제 확률변수를 표준화해야 합니다.

우리는 계속해서 표기법을 소개합니다:

= (엑스 ≤ 900) ;

엑스= 900 - 무작위 변수의 지정된 값;

μ = 1000 - 평균값;

σ = 200 - 표준편차.

이 데이터를 사용하여 문제의 조건을 얻습니다.

.

표준화된 확률 변수(간격 경계) 표에 따르면 = −0.5는 확률 0.30854에 해당합니다. 이를 단일성에서 빼고 문제 설명에서 필요한 것을 얻습니다.

따라서 부품의 수명이 최소 900시간일 확률은 69%입니다.

이 확률은 MS Excel 함수 NORM.DIST(적분값 - 1)를 사용하여 얻을 수 있습니다.

(엑스≥900) = 1 - (엑스≤900) = 1 - NORM.DIST(900; 1000; 200; 1) = 1 - 0.3085 = 0.6915.

MS Excel의 계산 정보 - 이 단원의 다음 단락 중 하나입니다.

예시 2.어느 도시의 경우 연평균 가계소득은 평균이 300,000, 표준편차가 50,000인 정규분포 확률변수로 전체 가구 중 40%의 소득이 이보다 적은 것으로 알려져 있다. . 가치를 찾아보세요 .

해결책. 이 문제에서 40%는 확률 변수가 문자로 표시된 특정 값보다 작은 열린 구간에서 값을 취할 확률에 지나지 않습니다. .

가치를 찾으려면 , 먼저 적분 함수를 구성합니다.

문제의 조건에 따라

μ = 300000 - 평균값;

σ = 50000 - 표준편차;

엑스 = - 발견할 수량.

평등을 이루는 것

.

통계표에서 우리는 0.40의 확률이 간격 경계의 값에 해당한다는 것을 알았습니다. = −0,25 .

그러므로 우리는 평등을 창조합니다.

그리고 해결책을 찾으세요:

= 287300 .

답변: 가구의 40%가 소득이 287,300 미만입니다.

닫힌 간격

많은 문제에서 정규 분포 확률 변수가 다음 구간의 값을 취할 확률을 찾는 것이 필요합니다. 1 ~ 2. 즉, 닫힌 구간에 빠지게 됩니다. 이러한 문제를 해결하기 위해서는 구간의 경계에 해당하는 확률을 표에서 찾은 다음, 이들 확률 간의 차이를 찾는 것이 필요합니다. 이를 위해서는 큰 값에서 작은 값을 빼야 합니다. 이러한 일반적인 문제에 대한 해결 방법의 예는 다음과 같으며, 이를 직접 해결해 보면 올바른 해결 방법과 답을 볼 수 있습니다.

예시 3.일정기간 기업의 이익은 정규분배법칙에 따른 확률변수로 평균값은 50만이다. 표준편차는 0.354이다. 기업의 이익이 0.4에서 0.6 c.u가 될 확률을 소수점 이하 두 자리까지 결정하십시오.

예시 4.제작된 부품의 길이는 매개변수를 갖는 정규법칙에 따라 분포되는 확률변수입니다. μ =10 및 σ =0.071. 부품의 허용 치수가 10±0.05인 경우 소수점 이하 두 자리까지 정확한 결함 확률을 구합니다.

힌트: 이 문제에서는 확률 변수가 닫힌 구간에 들어갈 확률(불량 부품을 받을 확률)을 찾는 것 외에도 한 가지 작업을 더 수행해야 합니다.

표준화된 값이 나올 확률을 결정할 수 있습니다. 그 이하도 아니고 -지그리고 더 이상 +z, 어디 - 표준화된 무작위 변수의 임의로 선택된 값.

분포의 정규성을 확인하는 대략적인 방법

표본값 분포의 정규성을 확인하는 대략적인 방법은 다음과 같습니다. 정규분포의 성질: 왜도 계수 β 1 및 첨도 계수 β 2 0과 같습니다.

비대칭 계수 β 1 평균에 대한 경험적 분포의 대칭성을 수치적으로 나타냅니다. 왜도 계수가 0이면 산술 평균, 중앙값 및 모드가 동일하며 분포 밀도 곡선은 평균을 기준으로 대칭입니다. 비대칭 계수가 0보다 작은 경우 (β 1 < 0 ), 그러면 산술 평균은 중앙값보다 작고, 중앙값은 모드 ()보다 작습니다. 곡선이 오른쪽으로 이동합니다(정규 분포에 비해).. 비대칭 계수가 0보다 큰 경우 (β 1 > 0 ), 그러면 산술 평균은 중앙값보다 크고 중앙값은 최빈값 ()보다 큽니다. 곡선이 왼쪽으로 이동합니다(정규 분포에 비해)..

첨도계수 β 2 축 방향의 산술 평균 주위의 경험적 분포의 집중을 특성화합니다. 아야및 분포 밀도 곡선의 정점 정도. 첨도 계수가 0보다 크면 곡선이 정규 분포에 비해 더 길어집니다.축을 따라 아야(그래프의 정점이 더 높아졌습니다.) 첨도 계수가 0보다 작으면 곡선이 더 평평해집니다(정규 분포에 비해).축을 따라 아야(그래프가 더 둔해졌습니다.)

MS Excel SKOS 함수를 사용하여 비대칭 계수를 계산할 수 있습니다. 하나의 데이터 배열을 선택하는 경우 하나의 "숫자" 상자에 데이터 범위를 입력해야 합니다.


첨도 계수는 MS Excel KURTESS 함수를 사용하여 계산할 수 있습니다. 하나의 데이터 배열을 확인할 때 하나의 "숫자" 상자에 데이터 범위를 입력하는 것만으로도 충분합니다.


따라서 우리가 이미 알고 있듯이 정규 분포에서는 왜도와 첨도 계수가 0입니다. 하지만 왜도 계수가 -0.14, 0.22, 0.43이고 첨도 계수가 0.17, -0.31, 0.55라면 어떻게 될까요? 실제로 우리는 불가피하고 통제할 수 없는 산란의 영향을 받는 비대칭 및 첨도의 대략적인 샘플 값만 다루고 있기 때문에 질문은 매우 공정합니다. 따라서 이러한 계수가 엄격하게 0과 같도록 요구할 수는 없으며 충분히 0에 가까워야 합니다. 그런데 충분하다은 무슨 뜻인가요?

얻은 경험적 값을 허용 가능한 값과 비교하는 것이 필요합니다. 이렇게 하려면 다음 부등식을 확인해야 합니다(계수 계수 값을 임계 값(가설 테스트 영역의 경계)과 비교).

비대칭 계수의 경우 β 1 .

정규 분포 법칙은 실제로 가장 자주 접하게 됩니다. 다른 법률과 구별되는 주요 특징은 매우 일반적인 일반적인 조건에서 다른 분배 법률이 접근하는 제한법이라는 것입니다.

정의. 연속 확률 변수 X는 다음을 갖습니다. 보통법분포(가우스의 법칙 )확률 밀도 f인 경우 매개변수 a 및 σ 2를 사용합니다.(엑스) 처럼 보인다:

. (6.19)

정규분포곡선은 다음과 같다. 정상또는 가우스 곡선. 그림에서. 6.5 a), b)는 매개변수가 포함된 정규 곡선을 보여줍니다. 그리고 σ 2및 분포 함수 그래프.

정규곡선은 직선을 기준으로 대칭이라는 점에 주목하자. 엑스 = , 해당 지점에 최대값이 있습니다. 엑스 = , 같음 , 두 개의 변곡점 엑스 = σ 좌표로.

정규법칙 밀도 표현에서 분포 매개변수는 문자로 표시된다는 점을 알 수 있습니다. 그리고 σ 2, 우리는 수학적 기대와 분산을 나타내는 데 사용했습니다. 이 우연은 우연이 아닙니다. 정규법칙 매개변수의 확률론적 이론적 의미를 확립하는 정리를 고려해 보겠습니다.

정리. 정규 법칙에 따라 분포된 확률 변수 X의 수학적 기대값은 이 분포의 매개변수 a와 같습니다., 즉.

(엑스) = , (6.20)

그리고 그 분산 – 매개변수 σ 2, 즉.

(엑스) = σ 2. (6.21)

매개변수가 변하면 법선곡선이 어떻게 변하는지 알아봅시다. 그리고 σ .

만약에 σ = const, 매개변수가 변경됨 ( 1 < 2 < 3), 즉 분포의 대칭 중심에 위치하면 정규 곡선은 모양을 변경하지 않고 가로축을 따라 이동합니다(그림 6.6).

쌀. 6.6

쌀. 6.7

만약에 = const 및 매개변수 변경 σ , 그러면 곡선 최대값의 세로 좌표가 변경됩니다. f 최대() = . 증가할 때 σ 최대값의 세로좌표는 감소하지만 분포 곡선 아래의 면적은 1과 동일하게 유지되어야 하므로 곡선은 x축을 따라 늘어지면서 더 평평해집니다. 감소할 때 σ 반대로, 정규곡선은 위쪽으로 확장되는 동시에 측면에서 압축됩니다(그림 6.7).

그래서 매개변수는 위치와 매개변수를 특성화합니다. σ – 정규곡선의 모양.

매개변수가 있는 확률변수의 정규분포 법칙 = 0 및 σ = 1이 호출됩니다. 기준또는 표준화된, 해당 정규 곡선은 다음과 같습니다. 기준또는 표준화된.

정규법칙에 따라 분포된 확률변수의 분포함수를 직접 찾는 것이 어려운 이유는 정규분포함수의 적분이 기본함수를 통해 표현되지 않기 때문이다. 다만, or의 정적분을 표현하는 특수함수를 통해 계산할 수 있다. 이 함수는 라플라스 함수, 테이블이 이에 대해 컴파일되었습니다. 이 기능에는 다양한 종류가 있습니다. 예를 들면 다음과 같습니다.

, .

우리는 기능을 사용할 것입니다

정규법칙에 따라 분포된 확률변수의 속성을 고려해 보겠습니다.

1. 정규 법칙에 따라 분포된 확률 변수 X가 구간에 포함될 확률 [α , β ] 동일

이 공식을 사용하여 다양한 값에 대한 확률을 계산합니다. δ (라플라스 함수 값 표 사용):

~에 δ = σ = 2Ф(1) = 0.6827;

~에 δ = 2σ = 2Ф(2) = 0.9545;

~에 δ = 3σ = 2Ф(3) = 0.9973.

이는 소위 " 3시그마 법칙»:

확률 변수 X에 매개변수 a와 σ가 포함된 정규 분포 법칙이 있는 경우 해당 값이 구간에 있다는 것이 거의 확실합니다.( – 3σ ; + 3σ ).

예제 6.3.특정 연령대 남성의 키를 정규분포 확률변수로 가정하면 엑스매개변수 포함 = 173 및 σ 2 = 36, 찾기:

1. 확률변수의 확률밀도와 분포함수의 표현 엑스;

2. 이 연령대의 총 생산량에 포함되어야 하는 4번째 키(176~183cm)의 슈트 비율과 3번째 키(170~176cm)의 슈트 비율입니다.

3. 확률 변수에 대한 "3 시그마 규칙" 공식화 엑스.

1. 확률 밀도 찾기

확률 변수 X의 분포 함수

= .

2. 키 4(176~182cm)의 정장 비율을 확률로 구합니다.

아르 자형(176 ≤ 엑스 ≤ 182) = = Ф(1.5) – Ф(0.5).

Laplace 함수의 값 표에 따르면 ( 부록 2) 우리는 찾는다:

F(1.5) = 0.4332, F(0.5) = 0.1915.

마침내 우리는 얻는다

아르 자형(176 ≤ 엑스 ≤ 182) = 0,4332 – 0,1915 = 0,2417.

세 번째 키(170~176cm)의 슈트 비율도 비슷한 방식으로 확인할 수 있습니다. 그러나 이 간격이 수학적 기대에 대해 대칭이라는 점을 고려하면 이 작업을 수행하는 것이 더 쉽습니다. = 173, 즉 불평등 170 ≤ 엑스≤ 176은 부등식 │과 동일합니다. 엑스– 173│≤ 3. 그러면

아르 자형(170 ≤엑스 ≤176) = 아르 자형(│엑스– 173│≤ 3) = 2Ф(3/6) = 2Ф(0.5) = 2·0.1915 = 0.3830.

3. 무작위 변수 X에 대한 "3 시그마 규칙"을 공식화해 보겠습니다.

이 연령대의 남성 키는 다음과 같다는 것이 거의 확실합니다. – 3σ = 173 – 3 6 = 155 ~ + 3σ = 173 + 3·6 = 191, 즉 155 ≤ 엑스 ≤ 191. ◄


7. 확률 이론의 극한 이론

무작위 변수를 연구할 때 이미 언급했듯이 단일 테스트의 결과로 무작위 변수가 어떤 값을 갖게 될지 미리 예측하는 것은 불가능합니다. 이는 고려할 수 없는 여러 가지 이유에 따라 달라집니다.

그러나 테스트를 여러 번 반복하면 확률변수 합의 동작이 확률성을 거의 잃고 자연스러워집니다. 패턴의 존재는 전체적으로 잘 정의된 법칙의 적용을 받는 무작위 변수를 생성하는 현상의 대량 특성과 정확하게 연관되어 있습니다. 질량 현상의 안정성의 본질은 다음과 같이 요약됩니다. 각 개별 무작위 현상의 특정 특징은 그러한 현상 질량의 평균 결과에 거의 영향을 미치지 않습니다. 각 개별 현상에서 불가피한 평균으로부터의 무작위 편차는 상호 상쇄되고, 평준화되고, 질량에서 평준화됩니다.

넓은 의미로 이해되는 "대수의 법칙"의 물리적 내용을 나타내는 것은 평균의 안정성입니다. 매우 많은 수의 무작위 현상의 경우 그 결과는 실질적으로 무작위가 아니며 다음과 같이 예측할 수 있습니다. 높은 수준의 확실성.

좁은 의미에서 확률 이론의 "대수의 법칙"은 일련의 수학적 정리로 이해되며, 각 정리는 특정 조건에 대해 많은 수의 실험의 평균 특성이 특정 조건에 접근한다는 사실을 설정합니다. 특정 상수.

대수의 법칙은 확률 이론의 실제 적용에 중요한 역할을 합니다. 특정 조건에서 무작위 변수가 실질적으로 무작위가 아닌 변수처럼 동작하는 특성을 통해 이러한 양을 사용하여 자신 있게 작업할 수 있으며 거의 ​​완전한 확실성을 가지고 질량 무작위 현상의 결과를 예측할 수 있습니다.

대량 무작위 현상 분야에서 그러한 예측의 가능성은 무작위 변수의 한계 값이 아니라 분포의 법칙을 제한하는 또 다른 극한 정리 그룹의 존재로 인해 더욱 확장됩니다. 우리는 "중심 극한 정리"로 알려진 일련의 정리에 대해 이야기하고 있습니다. 중심 극한 정리의 다양한 형태는 확률 변수 합의 이러한 제한 속성이 설정되는 조건에서 서로 다릅니다.

다양한 형태의 중심 극한 정리와 함께 대수의 법칙의 다양한 형태가 소위 집합을 형성합니다. 극한정리확률 이론. 극한 정리를 사용하면 무작위 현상 분야에서 과학적 예측을 할 수 있을 뿐만 아니라 이러한 예측의 정확성을 평가할 수도 있습니다.

확률변수가 호출됩니다. 매개변수를 사용하여 정규(가우스) 법칙에 따라 분포 그리고 () , 확률 분포 밀도가 다음 형식을 갖는 경우

정규분포량은 항상 가능한 값이 무한하므로 분포밀도 그래프를 사용하여 그래픽으로 표현하는 것이 편리합니다. 공식에 따르면

확률 변수가 구간에서 값을 취할 확률은 이 구간에서 함수 그래프 아래의 면적(정적분의 기하학적 의미)과 같습니다. 고려 중인 함수는 음수가 아니고 연속적입니다. 함수의 그래프는 종 모양을 하고 있으며 가우시안 곡선 또는 정규 곡선이라 불린다.

그림은 정규 법칙에 따라 지정된 확률 변수의 여러 분포 밀도 곡선을 보여줍니다.

모든 곡선에는 하나의 최대점이 있으며, 이 지점에서 오른쪽과 왼쪽으로 멀어질수록 곡선은 감소합니다. 최대값은 에서 달성되며 와 같습니다.

곡선은 가장 높은 점을 통과하는 수직선을 기준으로 대칭입니다. 각 곡선의 하위 그래프의 면적은 1입니다.

개별 분포 곡선의 차이점은 모든 곡선에 대해 동일한 하위 그래프의 전체 면적이 서로 다른 섹션 간에 다르게 분포된다는 것뿐입니다. 모든 곡선의 하위 그래프 영역의 주요 부분은 가장 가능성이 높은 값 바로 근처에 집중되어 있으며 이 값은 세 곡선 모두에서 다릅니다. 다양한 가치와 서로 다른 정규 법칙과 서로 다른 밀도 분포 함수 그래프가 얻어집니다.

이론적 연구에 따르면 실제로 접하는 대부분의 확률 변수는 정규 분포 법칙을 따릅니다. 이 법칙에 따르면 가스 분자의 속도, 신생아의 체중, 국가 인구의 옷과 신발 크기, 기타 물리적, 생물학적 성격의 무작위 사건이 분포됩니다. 이 패턴은 A. Moivre에 의해 처음 발견되었으며 이론적으로 입증되었습니다.

의 경우, 함수는 Moivre-Laplace의 국소 극한 정리에서 이미 논의된 함수와 일치합니다. 정규분포의 확률밀도는 쉽다 다음을 통해 표현됩니다.

이러한 매개변수 값에 대해 정규 법칙이 호출됩니다. 기본 .

정규화된 밀도에 대한 분포 함수는 다음과 같습니다. 라플라스 함수 지정되어 있으며 Φ(x). 우리는 이미 이 기능을 접했습니다.

라플라스 함수는 특정 매개변수에 의존하지 않습니다. 그리고 σ. 라플라스 함수의 경우 대략적인 통합 방법을 사용하여 다양한 정확도의 간격에 대한 값 테이블이 작성되었습니다. 분명히 라플라스 함수는 홀수이므로 음수에 대한 테이블에 그 값을 넣을 필요가 없습니다.



매개변수가 있는 정규 법칙에 따라 분포된 확률 변수의 경우 , 수학적 기대값과 분산은 다음 공식을 사용하여 계산됩니다. 표준 편차는 와 같습니다.

정규분포된 양이 구간에서 값을 취할 확률은 다음과 같습니다.

적분 극한 정리에 도입된 라플라스 함수는 어디에 있습니까?

종종 문제에서 정규 분포 확률 변수의 편차를 계산해야 합니다. 엑스절대값의 수학적 기대값은 특정 값을 초과하지 않습니다. 확률을 계산해 보세요. 공식 (19.2)을 적용하면 다음과 같습니다.

결론적으로 우리는 식(19.3)으로부터 하나의 중요한 결과를 제시한다. 이 공식을 대입해 보겠습니다. 그렇다면, 즉 편차의 절대값이 나올 확률 엑스수학적 기대치는 99.73%를 초과하지 않습니다. 실제로 이러한 이벤트는 신뢰할 수 있는 것으로 간주될 수 있습니다. 이것이 3시그마 법칙의 핵심이다.

3시그마 법칙. 확률 변수가 정규 분포를 따르는 경우 수학적 기대치와의 편차 절대값은 실제로 표준 편차의 3배를 초과하지 않습니다.

이 글에서는 확률변수의 정규분포 법칙이 무엇인지, 실제 문제를 풀 때 어떻게 활용하는지 자세히 보여줍니다.

통계의 정규분포

법의 역사는 300년 전으로 거슬러 올라간다. 최초의 발견자는 1733년에 근사치를 생각해낸 Abraham de Moivre였습니다. 수년 후 Carl Friedrich Gauss(1809)와 Pierre-Simon Laplace(1812)는 수학적 함수를 도출했습니다.

라플라스는 또한 주목할만한 패턴을 발견하고 공식화했습니다. 중심 극한 정리 (CPT), 이에 따르면 다수의 작고 독립적인 수량의 합은 정규 분포를 갖습니다.

정규법칙은 한 변수가 다른 변수에 의존하는 고정된 방정식이 아닙니다. 이 의존성의 성격만이 기록됩니다. 특정 분포 형태는 특수 매개변수로 지정됩니다. 예를 들어, y = 도끼 + b직선의 방정식이다. 그러나 정확히 통과하는 위치와 각도는 매개변수에 의해 결정됩니다. 그리고 . 정규분포와 동일합니다. 이는 중심 주변에 값이 집중되는 경향을 설명하는 함수임은 분명하지만, 정확한 모양은 특수한 매개변수에 의해 결정됩니다.

가우스 정규 분포 곡선은 다음과 같습니다.

정규 분포 그래프는 종 모양과 유사하므로 이름이 표시될 수 있습니다. 종형 곡선. 그래프의 중앙에는 "혹"이 있고 가장자리에서는 밀도가 급격히 감소합니다. 이것이 정규분포의 핵심이다. 확률변수가 중심 근처에 있을 확률은 중심에서 크게 벗어날 확률보다 훨씬 높습니다.

위 그림은 가우스 곡선 아래 두 영역, 즉 파란색과 녹색을 보여줍니다. 이유, 즉 간격은 두 섹션 모두 동일합니다. 그러나 높이는 눈에 띄게 다릅니다. 파란색 영역은 중심에서 더 멀리 떨어져 있으며 분포의 가장 중심에 위치한 녹색 영역에 비해 높이가 상당히 낮습니다. 이에 따라 면적, 즉 지정된 구간에 들어갈 확률도 달라진다.

정규분포(밀도)의 공식은 다음과 같습니다.

공식은 두 가지 수학 상수로 구성됩니다.

π – 파이 번호 3.142;

이자형- 자연로그 밑수 2.718;

특정 곡선의 모양을 정의하는 두 가지 변경 가능한 매개변수:

– 수학적 기대(다양한 소스에서 다른 표기법이 사용될 수 있습니다. 예를 들어, µ 또는 );

σ 2– 분산;

그리고 변수 자체 엑스, 확률 밀도가 계산됩니다.

정규 분포의 구체적인 형태는 2개의 매개변수에 따라 달라집니다. ) 그리고 ( σ 2). 간략하게 표시됨 N(m,σ2)또는 N(m,σ). 매개변수 (기대값)은 그래프의 최대 높이에 해당하는 분포의 중심을 결정합니다. 분산 σ 2변형 범위, 즉 데이터의 "번짐"을 특징으로 합니다.

수학적 기대 매개변수는 밀도 곡선 자체의 모양에 영향을 주지 않고 분포의 중심을 오른쪽이나 왼쪽으로 이동합니다.

그러나 분산은 곡선의 선명도를 결정합니다. 데이터의 분산이 작으면 모든 질량이 중앙에 집중됩니다. 데이터의 분산이 큰 경우 넓은 범위에 걸쳐 "확산"됩니다.

분포 밀도에는 직접적인 실제 적용이 없습니다. 확률을 계산하려면 밀도 함수를 적분해야 합니다.

확률변수가 특정 값보다 작을 확률 엑스, 정해졌다 정규분포함수:

연속 분포의 수학적 특성을 사용하면 다른 확률을 쉽게 계산할 수 있습니다.

P(a ≤ X< b) = Ф(b) – Ф(a)

표준정규분포

정규 분포는 평균과 분산의 매개변수에 따라 달라지므로 해당 속성이 잘 보이지 않습니다. 데이터의 규모에 좌우되지 않는 배포 기준이 있으면 좋을 것 같습니다. 그리고 그것은 존재합니다. 라고 불리는 표준 정규 분포. 실제로 이는 매개변수 수학적 기대값 0과 분산 1을 사용하고 간략하게 N(0, 1)로 표기하는 일반 정규 분포입니다.

모든 정규 분포는 정규화를 통해 쉽게 표준 분포로 변환될 수 있습니다.

어디 – 대신 사용되는 새로운 변수 엑스;
- 기대값
σ - 표준 편차.

샘플 데이터의 경우 추정치가 사용됩니다.

새 변수의 산술 평균 및 분산 이제 각각 0과 1도 됩니다. 이는 기본 대수 변환을 사용하여 쉽게 확인할 수 있습니다.

이름이 문헌에 나타납니다. z-점수. 이것이 바로 정규화된 데이터입니다. Z-점수이론적 확률과 직접 비교할 수 있기 때문입니다. 그 규모는 표준과 일치합니다.

이제 표준 정규 분포의 밀도가 어떻게 보이는지 살펴보겠습니다. z-점수). 가우스 함수의 형식은 다음과 같습니다.

대신에 대체하자 (x-m)/σ편지 , 그리고 대신 σ – 하나, 우리는 얻습니다 표준 정규 분포의 밀도 함수:

밀도 차트:

예상대로 중심은 지점 0에 있습니다. 같은 지점에서 가우스 함수는 최대값에 도달합니다. 이는 평균값을 허용하는 확률 변수에 해당합니다(예: x-m=0). 이때의 밀도는 0.3989로 머리로도 계산이 가능합니다. e 0 =1이고 남은 것은 2pi의 근에 대한 1의 비율을 계산하는 것뿐입니다.

따라서 그래프를 보면 평균과의 편차가 작은 값이 다른 값보다 더 자주 발생하고, 중심에서 매우 멀리 있는 값이 훨씬 덜 발생하는 것을 명확하게 알 수 있습니다. x축 척도는 표준편차로 측정되므로 측정 단위를 없애고 정규 분포의 보편적인 구조를 얻을 수 있습니다. 정규화된 데이터에 대한 가우스 곡선은 정규 분포의 다른 속성을 완벽하게 보여줍니다. 예를 들어, 세로축을 기준으로 대칭입니다. 모든 값의 대부분은 산술 평균으로부터 ±1σ 이내에 집중됩니다(지금은 눈으로 추정합니다). 대부분의 데이터는 ±2σ 이내에 있습니다. 거의 모든 데이터가 ±3σ 이내입니다. 마지막 속성은 다음과 같이 널리 알려져 있습니다. 3시그마 법칙정규 분포의 경우.

표준 정규 분포 함수를 사용하면 확률을 계산할 수 있습니다.

아무도 수동으로 계산하지 않는다는 것이 분명합니다. 모든 것이 계산되어 통계 교과서 끝에 있는 특수 테이블에 배치됩니다.

정규분포표

정규 분포표에는 두 가지 유형이 있습니다.

- 테이블 밀도;

- 테이블 기능(밀도의 적분).

테이블 밀도드물게 사용되는. 그러나 그것이 어떻게 보이는지 봅시다. 밀도를 구해야 한다고 가정해 보겠습니다. z = 1, 즉. 기대값에서 1 시그마만큼 분리된 값의 밀도입니다. 아래는 테이블의 일부입니다.

데이터의 구성에 따라 열과 행의 이름으로 원하는 값을 찾습니다. 이 예에서는 다음 줄을 사용합니다. 1,0 및 열 0 , 왜냐하면 백 분의 일이 없습니다. 찾고 있는 값은 0.2420입니다(2420 이전의 0은 생략됨).

가우스 함수는 세로좌표를 기준으로 대칭입니다. 그렇기 때문에 Φ(z)= Φ(-z), 즉. 밀도 1 의 밀도와 동일합니다. -1 , 이는 그림에서 명확하게 볼 수 있습니다.

종이 낭비를 피하기 위해 표는 양수 값에 대해서만 인쇄됩니다.

실제로는 값이 더 자주 사용됩니다. 기능표준 정규 분포, 즉 서로 다른 확률 .

이러한 테이블에는 양수 값만 포함됩니다. 그러므로 이해하고 찾아내려면 어느필요한 확률을 알아야합니다 표준 정규 분포의 속성.

기능 Ф(z)값 0.5에 대해 대칭입니다(밀도와 같은 세로축이 아님). 따라서 평등은 참입니다:

이 사실은 그림에 나와 있습니다.

기능 값 Ф(-z)그리고 Ф(z)그래프를 3부분으로 나눕니다. 또한 상단과 하단이 동일합니다(체크 표시로 표시). 확률을 보완하기 위해 Ф(z) 1에 누락된 값을 추가하면 됩니다. Ф(-z). 바로 위에 표시된 평등을 얻습니다.

구간에 들어갈 확률을 구해야 하는 경우 (0; z)즉, 양의 방향으로 0에서 특정 수의 표준 편차까지 편차가 발생할 확률은 표준 정규 분포 함수의 값에서 0.5를 빼는 것으로 충분합니다.

명확성을 위해 그림을 볼 수 있습니다.

가우스 곡선에서 이와 동일한 상황은 중앙에서 오른쪽으로 이어지는 영역과 같습니다. .

분석가는 0에서 양방향으로 편차가 발생할 확률에 관심이 있는 경우가 많습니다. 그리고 함수는 중심을 기준으로 대칭이므로 이전 공식에 2를 곱해야 합니다.

아래 그림.

가우시안 곡선 아래에서는 선택한 값에 의해 제한되는 중앙 부분입니다. -지왼쪽과 오른쪽에.

이러한 속성을 고려해야 하는 이유는 다음과 같습니다. 표로 작성된 값은 관심 간격과 거의 일치하지 않습니다.

작업을 더 쉽게 하기 위해 교과서에서는 일반적으로 다음 형식의 기능에 대한 표를 게시합니다.

0에서 양방향으로의 편차 확률이 필요한 경우 방금 본 것처럼 이 함수의 테이블 값에 2를 곱하면 됩니다.

이제 구체적인 예를 살펴보겠습니다. 아래는 표준정규분포의 표입니다. 세 가지에 대한 테이블 값을 찾아 보겠습니다. : 1.64, 1.96 및 3.

이 숫자의 의미를 어떻게 이해합니까? 시작해보자 z=1.64, 테이블 값은 다음과 같습니다. 0,4495 . 의미를 설명하는 가장 쉬운 방법은 그림에 있습니다.

즉, 표준화된 정규 분포 확률 변수가 다음 구간 내에 포함될 확률입니다. 0 ~ 전에 1,64 , 는 같다 0,4495 . 문제를 풀 때 일반적으로 양방향의 편차 확률을 계산해야 하므로 그 값을 곱해 봅시다. 0,4495 2로 하면 대략 0.9가 됩니다. 가우스 곡선 아래의 점유 면적은 아래와 같습니다.

따라서 모든 정규분포 값의 90%가 해당 구간에 속합니다. ±1.64σ산술 평균에서. 내가 그 의미를 선택한 것은 우연이 아니었습니다. z=1.64, 왜냐하면 전체 영역의 90%를 차지하는 산술 평균 주위의 이웃은 때때로 신뢰 구간을 계산하는 데 사용됩니다. 테스트 중인 값이 지정된 영역에 속하지 않으면 해당 값이 발생할 가능성이 낮습니다(단 10%).

그러나 가설을 검정하려면 모든 값의 95%를 포함하는 구간이 더 자주 사용됩니다. 기회는 절반 0,95 - 이것 0,4750 (표에서 강조 표시된 두 번째 값 참조)

이 확률에 대해서는 z=1.96.저것들. 거의 안에 ±2σ값의 95%는 평균에서 나온 것입니다. 단 5%만이 이 한도를 벗어납니다.

흥미롭고 자주 사용되는 또 다른 테이블 값은 다음과 같습니다. z=3, 우리 테이블에 따르면 동일합니다 0,4986 . 2를 곱해서 얻으세요. 0,997 . 그래서, 안에서 ±3σ거의 모든 값은 산술 평균에서 파생됩니다.

이는 다이어그램의 정규 분포에 대한 3 시그마 규칙의 모습입니다.

통계표를 사용하면 어떤 확률이라도 얻을 수 있습니다. 그러나 이 방법은 매우 느리고 불편하며 매우 구식입니다. 오늘날 모든 일은 컴퓨터에서 이루어집니다. 다음으로 Excel에서 계산 연습을 진행합니다.

Excel의 정규 분포

Excel에는 정규 분포의 확률이나 역을 계산하는 여러 기능이 있습니다.

NORMAL DIST 함수

기능 NORM.ST.DIST.밀도를 계산하도록 설계되었습니다. ψ(z)또는 확률 Φ(z)정규화된 데이터에 따르면( ).

=NORM.ST.DIST(z;적분)

– 표준화된 변수의 값

완전한– 0이면 밀도가 계산됩니다.ψ(z) , 1이 함수 Ф(z)의 값인 경우, 즉 확률 P(Z

다양한 밀도와 함수값을 계산해 봅시다. z: -3, -2, -1, 0, 1, 2, 3(A2 셀에 표시하겠습니다).

밀도를 계산하려면 =NORM.ST.DIST(A2;0) 공식이 필요합니다. 아래 다이어그램에서 이것은 빨간색 점입니다.

함수 =NORM.ST.DIST(A2;1)의 값을 계산합니다. 다이어그램은 정규 곡선 아래의 음영 영역을 보여줍니다.

실제로는 확률 변수가 평균의 특정 한계를 넘지 않을 확률(변수에 해당하는 표준 편차)을 계산하는 것이 더 자주 필요합니다. ), 즉. 피(|Z| .

임의의 변수가 한계 내에 포함될 확률을 결정해 보겠습니다. ±1z, ±2z 및 ±3z 0에서. 공식이 필요해 2Ф(z)-1, Excel =2*NORM.ST.DIST(A2;1)-1.

다이어그램은 3-시그마 규칙을 포함하여 정규 분포의 주요 기본 속성을 명확하게 보여줍니다. 기능 NORM.ST.DIST. Excel의 정규 분포 함수 값에 대한 자동 테이블입니다.

반대의 문제도 있을 수 있습니다: 사용 가능한 확률에 따라 P(Z 표준화된 값을 찾아보세요 ,즉, 표준 정규 분포의 분위수입니다.

NORM.ST.REV 함수

NORM.ST.REV표준 정규 분포 함수의 역함수를 계산합니다. 구문은 하나의 매개변수로 구성됩니다.

=NORM.ST.REV(확률)

개연성확률이다.

이 공식은 이전 공식만큼 자주 사용됩니다. 동일한 테이블을 사용하면 확률뿐만 아니라 분위수도 찾아야 하기 때문입니다.

예를 들어 신뢰 구간을 계산할 때 신뢰 확률이 지정되며 이에 따라 값을 계산해야 합니다. .

신뢰구간은 상한과 하한으로 구성되어 있고 정규분포는 0을 중심으로 대칭이므로 상한(양의 편차)을 구하는 것으로 충분합니다. 하한은 음수 부호로 표시됩니다. 신뢰 확률을 다음과 같이 표시하겠습니다. γ (감마)이면 다음 공식을 사용하여 신뢰 구간의 상한을 계산합니다.

Excel에서 값을 계산해 봅시다 (시그마 평균의 편차에 해당) 통계학자라면 누구나 알고 있는 90%, 95%, 99%를 포함한 여러 확률에 대한 것입니다. 셀 B2에는 =NORM.ST.REV((1+A2)/2) 수식을 나타냅니다. 변수 값(셀 A2의 확률)을 변경하면 간격의 다른 경계를 얻을 수 있습니다.

95% 신뢰구간은 1.96, 즉 거의 2표준편차이다. 여기에서 정상적인 확률변수의 확산 가능성을 추정하는 것은 정신적으로도 쉽습니다. 일반적으로 90%, 95% 및 99% 신뢰 구간은 ±1.64, ±1.96 및 ±2.58σ의 신뢰 구간에 해당합니다.

일반적으로 NORM.ST.DIST 및 NORM.ST.REV 함수를 사용하면 정규 분포와 관련된 모든 계산을 수행할 수 있습니다. 그러나 작업을 더 쉽고 덜 복잡하게 만들기 위해 Excel에는 몇 가지 다른 기능이 있습니다. 예를 들어 CONFIDENCE NORM을 사용하여 평균에 대한 신뢰 구간을 계산할 수 있습니다. 산술 평균을 확인하려면 Z.TEST라는 공식이 있습니다.

예제와 함께 몇 가지 더 유용한 공식을 살펴보겠습니다.

NORMAL DIST 함수

기능 일반 거리~와 다르다 NORM.ST.DIST.정규화된 데이터뿐만 아니라 모든 규모의 데이터를 처리하는 데 사용되기 때문입니다. 정규 분포 모수는 구문에 지정됩니다.

=NORM.DIST(x,평균,표준_편차,적분)

평균– 정규 분포 모델의 첫 번째 매개변수로 사용되는 수학적 기대

표준 꺼짐– 표준편차 – 모델의 두 번째 매개변수

완전한– 0이면 밀도가 계산되고, 1이면 함수 값이 계산됩니다. 피(엑스

예를 들어, 기대치가 10이고 표준편차가 3인 정규 표본에서 추출된 값 15에 대한 밀도는 다음과 같이 계산됩니다.

마지막 매개변수가 1로 설정되면 주어진 분포 매개변수에 대해 정규 확률 변수가 15보다 작을 확률을 얻습니다. 따라서 확률은 원본 데이터에서 직접 계산될 수 있습니다.

NORM.REV 함수

이는 정규 분포의 분위수입니다. 즉, 역함수의 값. 구문은 다음과 같습니다.

=NORM.REV(확률,평균,표준_편차)

개연성- 확률

평균– 수학적 기대

표준 꺼짐- 표준 편차

목적은 같아요 NORM.ST.REV, 이 함수는 모든 규모의 데이터에 대해서만 작동합니다.

기사 마지막 부분의 비디오에 예가 나와 있습니다.

정규분포 모델링

일부 문제에는 일반 난수 생성이 필요합니다. 이에 대해 기성 기능이 없습니다. 그러나 Excel에는 난수를 반환하는 두 가지 함수가 있습니다. 사례 사이그리고 랜드.첫 번째는 지정된 제한 내에서 무작위로 균일하게 분포된 정수를 생성합니다. 두 번째 함수는 0과 1 사이에서 균일하게 분포된 난수를 생성합니다. 주어진 분포로 인공 표본을 만들려면 다음 함수가 필요합니다. 랜드.

실험을 수행하려면 기대값이 10이고 표준 편차가 3인 정규 분포 모집단에서 표본을 얻어야 한다고 가정해 보겠습니다. 하나의 임의 값에 대해 Excel에서 수식을 작성하겠습니다.

NORM.INV(RAND();10;3)

필요한 셀 수만큼 확장하면 일반 샘플이 준비됩니다.

표준화된 데이터를 모델링하려면 NORM.ST.REV를 사용해야 합니다.

등수를 일반수로 변환하는 과정은 다음 그림과 같습니다. RAND 공식에 의해 생성된 균일 확률에서 정규 분포 함수의 그래프에 수평선이 그려집니다. 그런 다음 확률과 그래프의 교차점에서 투영이 가로축으로 낮아집니다.



또 무엇을 읽어야 할까요?