이산확률분포(discrete probability distribution)
- 확률분포
- 확률변수(수치화된 사건)에 대해 확률을 내뱉는 함수
- 이산확률분포
- 확률변수의 도메인이 이산적인 확률분포
- 이산확률분포의 종류를 간단하게 살펴봄
- Goal
- 정확한 수식의 유도보다는 배경지식 및 어떤 상황에서 어떤 분포를 써야하는지 결정하기 위해 정리
베르누이 시행
- 가장 간단한 형태의 이산확률분포
- 성공(S)과 실패(F)에 대응하는 {1, 0} 두가지의 정의역을 가짐
- 각 시행이 독립이라는 전제가 필요하고, 아래와 같이 확률로 나타낼 수 있음
- 이산확률 분포는 아래와 같이 정의가능 (
는 성공횟수)
이항분포
- 베르누이 시행을 N번 반복시에는 아래와 같음 (
은 시행횟수, 는 성공 횟수) - n이 30보다 커지면 이항계수의 계산량이 급격히 증가함
- n이 30이하이면 이항분포표를 이용
- n이 30초과이면 정규분포근사를 사용
- 판수(n)을 고정해놓고 성공횟수를 예측
음이항분포
- 베르누이 시행을 x번 반복시 r번 성공할 확률
- x번째를 마지막 성공으로 박아두기 때문에, x-1번째에는 r-1번의 성공을 해야함
: x-1번째에 r-1번 성공을 하는 조합 : r번 성공할 확률 : x-r번 실패할 확률
- 음이항분포의 확률함수(확률질량함수)는 아래와 같음
- x번째를 마지막 성공으로 박아두기 때문에, x-1번째에는 r-1번의 성공을 해야함
- 성공횟수(r)을 고정해놓고 판수를 예측
기하분포
- 음이항분포의 특수한 버전
- 처음으로 성공할때까지 얼마나 걸리는지 예측하는 확률함수
- r = 1 -> 첫 성공이 나는 순간 게임 종료
- 음이항분포에 대입 (r=1)
초기하분포
- 비복원 추출에 대한 이항분포, 주머니에서 공을 뽑고 다시 넣지 않음
- 뽑을때마다 상황이 변함
- 경우의수로 확률함수를 구성시킴
- 전체 N개중에 당첨(성공) D개가 존재할 경우, 또한 n번 시행할 수 있는 경우
- 분모: 전체 N개중에 n개를 뽑는 경우의수
- 분자: D개중에 내가 성공 공을 x뽑을 경우의수
N-D개중에 실패공을 n-x개 뽑을 확률 - 도메인
- 당첨공을 D개 이상뽑을 수는 없음 (
) - 시행횟수가, 전체 - 당첨보다 크다면, 적어도
보다는 많이 당첨을 뽑아야함
- 당첨공을 D개 이상뽑을 수는 없음 (
- 도메인
포아송분포
- 드물게 일어나는 사건의 분포
- 정해진 시간이나 공간 안에서 발생하는 사건의 횟수
- 1시간동안 콜센터에 걸려오는 전화수
- 하루동안 웹사이트에서 발생하는 오류 횟수
- 이항분포에서 시행 횟수가 무한히 많아지며 (
), 확률이 엄청나게 작을때 ( ) 의 분포 - 이항분포: 오늘 하루에 100만명(n)이 각각 에러를 낼 확률(p) -> 계산 불가
- 포아송 방식: 평균적으로 하루에 에러가 5번 정도나던데(
), 오늘 3번 날 확률은? -> 간단!
: 평균횟수, : 우리가 궁금한 실제 발생 횟수
- 정해진 시간이나 공간 안에서 발생하는 사건의 횟수