에서 재판https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/
데이터 과학자들의 수백을 확률 분포에서 선택할 수 있습니다. 어디서부터 시작해야합니까?
데이터 과학은 무엇이든간에 큰 문제로 남아 있습니다. “가 데이터 과학자에서 더 나은 통계상 모든 소프트웨어 엔지니어,”당신할 수 있습을 우연히 말하는 학자,에서 해당 지역의 기술 모임 및 해커톤. 응용 수학자들은 통계가 활활 타오르는 20 대 이후로이 이야기가 없었기 때문에 그들의 복수를 가지고 있습니다., 그들은 사람들이 재미를 만들지 않는 자신의 합법화 벤 다이어그램을 가지고 있습니다. 갑자기 그것은 당신이,엔지니어가,왼쪽으로 채팅에 대한 신뢰 구간을 대신 tutting 에 분석가들은 사람의 들어 본 적이없는 아파치 Bikeshed 프로젝트를 위한 분석 서식을 지정합니다. 에 맞게,다시 그 파티의 삶과 영혼이되기 위해,당신은 통계에 충돌 코스가 필요합니다. 그것을 바로 잡기에는 충분하지 않지만,기본적인 관찰을함으로써 당신이 할 수있는 것처럼 들리기에 충분합니다.
확률 분포는 데이터 구조가 컴퓨터 과학에서와 마찬가지로 통계의 기본입니다., 그들은 당신이 데이터 과학자처럼 이야기하는 것을 의미한다면 공부를 시작할 수있는 곳입니다. 당신은 때때로 떠날 수 있는 간단한 분석을 사용하여 R 또는 은 배우 없이 확실히 이해 배포처럼,관리할 수 있습니다 Java 프로그램을 이해하지 않고 해시 기능이 있다. 하지만 그것이 곧 끝에서 눈물,버그,가짜 결과,또는 더:한숨과 눈 압연에서 통계전공.
수백 개의 확률 분포가 있으며,일부는 muth 또는 Lomax 와 같은 중세 전설의 괴물처럼 들립니다. 만 약 15 배포판하지만 실제로 일관되게 켜집니다., 그들은 무엇이며,그들 각각에 대해 어떤 영리한 통찰력을 암기해야합니까?
일이 항상 발생합니다:주사위가 굴러 가고,비가 내리고,버스가 도착합니다. 후에 사실은,특정한 결과가 특정:주장했 3,4,거의 절반 인치 비가 오늘날,버스가 3 분 도착합니다. 전에 우리는 결과가 얼마나 가능성이 있는지에 대해서만 이야기 할 수 있습니다. 확률 분포를 설명하는 우리는 무슨 생각을 확률은 각 각의 결과는,때로는 더 재미있을 알아보다 단순히는 하나의 결과물은 가능성이 높습니다., 그들은 많은 모양 들어온다,그러나 단지 1 개의 크기에서:분포에있는 확률은 항상 1 까지 추가한다.
예를 들어,내리고 공정한 동전은 두 가지 결과:그것은 땅을 머리에 또는 꼬리를 가집니다. (가장자리에 착륙하거나 공중에서 갈매기에 의해 도난 당할 수 없다고 가정합니다.)뒤집기 전에,우리는 머리의 2 확률 또는 0.5 확률에 1 이 있다고 생각합니다. 꼬리에 대해서도 마찬가지입니다. 는 확률 분포 통해 두 가지의 결과 손가락으로 튀김,당신을 따를 수 있는 문장에,당신은 이미 마스터 베르누이 배포합니다.,
에도 불구하고 이국적인 이름은,일반적인 배포판에 관련하여 각각의 기타에서 직관적이고 흥미로운 방법으로도 쉽게 기억되고,말에 권위의 공기. 몇몇은 예를 들어 베르누이 분포에서 자연스럽게 따릅니다. 관계의지도를 공개 할 때입니다.,
각 분배에 의해 도시의 예를 들어 확률 밀도 함수(PDF). 이 게시물은 단일 숫자 인 결과의 분포 만 다룹니다. 따라서 각 상자의 가로축은 가능한 숫자 결과의 집합입니다. 수직축은 결과의 확률을 설명합니다., 일부 분포는 0 또는 5 와 같은 정수 여야하는 결과보다 이산 적입니다. 이들은 희소 한 선으로 나타나며,각 결과마다 하나씩 선 높이가 해당 결과의 확률입니다. 일부는 -1.32 또는 0.005 와 같은 실제 숫자 값을 취할 수있는 결과에 대해 연속적입니다. 이것들은 확률을주는 곡선의 섹션 아래에있는 영역 인 밀도가 높은 곡선으로 나타납니다. 선의 높이와 곡선 아래의 면적의 합은 항상 1 입니다.
인쇄,점선을 따라 잘라,당신의 지갑이나 지갑에 당신과 함께 가져 가라., 이 분포와 그 친척을 안보에 필드 가이드입니다.
Bernoulli 및 Uniform
꼬리 또는 머리라는 두 가지 개별 결과에 걸쳐 위의 Bernoulli 분포를 만났습니다. 그러나 0 과 1,0 머리(즉,꼬리)또는 1 머리 이상의 분포로 생각하십시오. 위의 두 결과 모두 똑같이 가능성이 높았으며 다이어그램에 나와 있습니다. Bernoulli PDF 에는 높이가 같은 두 줄이 있으며 양쪽 끝에서 0 과 1 의 두 가지 동일한 결과를 나타냅니다.,
베르누이 분포는 불공정 한 동전 던지기의 결과처럼 똑같이 가능성이없는 결과를 나타낼 수 있습니다. 그런 다음,확률의 머리되지 않은 0.5 하지만,일부 다른 값 p,그리고 확률이의 꼬리-1-가 p. 다음과 같은 분포,그것은 실제로는 가족의 배포판에 의해 정의된 매개변수,다음과 같 p 니다 여기에. 당신이”베르누이”라고 생각할 때,단지”(아마도 불공평 한)동전 던지기를 생각하십시오.”
평평한 PDF 로 특징 지어지는 균일 한 분포와 같은 많은 똑같이 가능성있는 결과에 대한 분포를 상상하는 것은 짧은 점프입니다. 공정한 다이를 굴리는 것을 상상해보십시오., 결과 1 에서 6 까지 똑같이 가능성이 있습니다. 임의의 수의 결과 n 에 대해 또는 심지어 연속 분포로 정의 될 수 있습니다.
균일 분포를”공정 다이 롤링”과 연관시킵니다.”
항 및 Hypergeometric
이항 분포 수로 생각할 수의 합의 결과는 것을 따르 베르누이 배포합니다. 공정한 동전을 20 번 던지십시오;몇 번이나 머리가 나옵니까? 이 카운트는 이항 분포를 따르는 결과입니다. 그 매개 변수는 n,시험 횟수 및 p,”성공”확률(여기:머리 또는 1)입니다., 각 플립은 베르누이 분산 결과 또는 재판입니다. Reach 항 분포 수를 셀 때에 성공한 것처럼 행동 동전 던지,각각으로 독립적이고 동일한 성공의 확률.
또는 동일한 수의 흰색과 검은 색 공이있는 항아리를 상상해보십시오. 눈을 감고 공을 그리고 검은 색인지 메모 한 다음 다시 넣으십시오. 반복하십시오. 검은 공을 몇 번이나 그렸습니까? 이 카운트는 또한 이항 분포를 따른다.,
이 이상한 상황을 상상하는 것은 hypergeometric distribution 을 간단하게 설명하기 때문에 요점이 있습니다. 이것은 공이 대신 교체하지 않고 그려진 경우 그 같은 카운트의 분포입니다. 명백하게 그것은 이항 분포에 대한 사촌이지만,공이 제거됨에 따라 성공 확률이 변하기 때문에 동일하지는 않습니다. 공의 수가 무승부 수에 상대적으로 큰 경우,각 무승부마다 성공 확률이 덜 변하기 때문에 분포는 비슷합니다.,
때 사람들은 이야기를 따기에 대해 공부터 항아리를 교체없이,그것은 거의 항상 안전을 끼어 들어,”hypergeometric 배포,그렇기 때문에”내가 누구를 만난 적이 없는 실제로 가득한 항아리로 공을 집어들고,그들을 대체했거나,실제 생활에서. (나는 항아리를 소유 한 사람조차 모른다.)보다 광범위하게,모집단의 중요한 하위 집합을 표본으로 골라 낼 때 마음에 와야합니다.
Poisson
매분마다 지원 핫라인에 전화하는 고객의 수는 어떻습니까?, 즉,고객이(0)을 호출하지 않거나(1)을 수행하는 베르누이 재판으로 각 초를 생각하면 분포가 이항 적으로 들리는 결과입니다. 그러나 전력 회사가 알고 있듯이 전원이 꺼지면 2 명 또는 심지어 수백 명의 사람들이 같은 초에 전화를 걸 수 있습니다. 볼로 60,000 밀리세컨드 크기의 시험은 여전히지 않는 문제의 주위에 얻—더 많은 시련,많은 작은 확률이의 1 개 호출자 2 개 또는 더 많은,그러나,여전히 기술적으로 베르누이다. 그러나 이것을 무한하고 논리적 인 결론으로 가져 가면 효과가 있습니다., N 이 무한대로 이동하고 np 가 동일하게 유지되도록 p 가 일치하도록 0 으로 이동하도록하십시오. 이것은 호출의 확률이 무한히 많은 무한히 작은 시간 조각으로 향하는 것과 같습니다. 제한 결과는 포아송 분포입니다.
이항 분포와 마찬가지로 포아송 분포는 카운트—무언가가 일어난 횟수의 분포입니다. 확률 p 와 시험 수 n 이 아니라 평균 속도 λ 로 매개 변수화됩니다.이 비유에서는 단순히 np 의 상수 값입니다., 포아송 분포는 발생하는 이벤트의 연속 속도를 감안할 때 시간이 지남에 따라 이벤트를 계산하려고 할 때 생각해야하는 것입니다.
경우는 것과 같은 패킷에 도착 라우터,또는 고객에게 도착하는 매장에서,또는 일을 기다려야에서 어떤 종류의 큐,생각한다”Poisson.”
기하학적 및 음 이항
간단한 베르누이 시험에서 다른 분포가 발생합니다. 뒤집힌 동전이 처음 머리가 나오기 전에 몇 번이나 꼬리가 나옵니까? 이 꼬리 수는 기하학적 분포를 따릅니다., Bernoulli 분포와 마찬가지로 p 에 의해 매개 변수화되어 최종 성공 확률이 높습니다. 실패 시험의 수는 결과 자체이기 때문에 n,여러 번의 시험 또는 플립에 의해 매개 변수화되지 않습니다.
이항 분포가”얼마나 많은 성공?”그렇다면 기하 분포는”성공할 때까지 얼마나 많은 실패가 있습니까?”
음 이항 분포는 간단한 일반화입니다. 그것은 단지 1 이 아니라 r 성공이 발생할 때까지 실패의 수입니다. 따라서 r 에 의해서도 매개 변수화됩니다.때로는 r 실패까지의 성공 수로 설명됩니다., 로 내 인생의 코치 말한다,성공과 실패는 당신이 그들을 정의하는,그래서 이들은 해당하는만큼 당신은 똑바로 유지 여부를 p 는 성공의 확률 또는 오류입니다.
필요하신 경우 아이스 차단기,할 수 있는 이항 및 hypergeometric 배포판은 명백한 쌍지만,기하학적이고 부정적인 이항 분포 또한 매우 유사하며 다음을 말한다,”나는 누가 이름은 이러한 것들,그렇죠?”
지수 및 Weibull
다시 고객 지원 통화:얼마나 다음까지 고객의 전화?, 의 유통이 기다리고 있는 시간이 될 수 있는 기하학적이기 때문에,매일 두 번째는 아무도 호출에 실패 같이 될 때까지,두 번째는 마지막으로 고객에 호출합니다. 번의 실패의 수처럼 초에는 아무도라,그리고 그 거의 대기까지의 시간은 다음을 호출하지만,거의 없는 충분히 가까. Catch 이 시간은 합계는 항상 전체에서 초,하지만 이것이 실패하는 계기에는 두 번째 까지 고객에 마지막으로 호출됩니다.,
이전과 같이 기하학적 분포를 무한 시간 조각을 향해 한계까지 가져 가면 작동합니다. 통화까지의 시간 분포를 정확하게 설명하는 지수 분포를 얻습니다. 결과 시간이 전체 초일 필요는 없기 때문에 여기에서 처음 접하는 연속 분포입니다. 포아송 분포와 마찬가지로 비율 λ 로 매개 변수화됩니다.
이항-기하학적 관계를 반향하는 포아송의”시간 당 얼마나 많은 사건?”기하 급수의와 관련이있다”얼마나 이벤트까지?,”주어진 이벤트의 개수별 시간과 Poisson distribution,다음번 사건을 다음과 같 지수 분포와 동일한 매개 변수를 평가 λ. 두 배포판 간의 이러한 대응은 둘 중 하나를 논의 할 때 이름 확인에 필수적입니다.
지수 분포는”이벤트까지의 시간”,어쩌면”실패까지의 시간을 생각할 때 마음에 와야합니다.”사실,이것은 매우 중요하므로 Weibull 분포와 같이 시간 대 실패를 설명하기 위해보다 일반적인 분포가 존재합니다., 반면 지수 유통은 적절한 경우 평가—의 착용 또는 실패한 인스턴스—상수로,Weibull 분포 수 있는 모델의 증가(또는 감소)요금의 실패를 통한 시간입니다. 지수는 단지 특별한 경우입니다.
채팅이 시간 대 실패로 바뀌면”Weibull”을 생각해보십시오.
정상적인,로그 정상적인,학생 t,카이 제곱
정규분포,또는 가우시안 배포,어쩌면 모두의 가장 중요하다. 그 종 모양은 즉시 알아볼 수 있습니다., E 와 마찬가지로,그것은 겉으로보기에는 단순한 출처에서 온통 밝혀지는 호기심 많은 특정 실체입니다. 동일한 분포(모든 분포)를 따르는 값 무리를 가져 와서 합산하십시오. 그들의 합계의 분포는(대략)정규 분포를 따른다. 합산되는 것이 많을수록 합계의 분포가 정규 분포와 일치합니다. (주의 사항:잘 행동 한 분포 여야하고,독립적이어야하며,정규 분포에만 경향이 있어야합니다.)이것이 기본 분포에 관계없이 사실이라는 사실은 놀랍습니다.,
이라는 중심 극한 정리,그리고 알고 있어야 합니다 이것이라는 것,그것이 무엇을 의미하는지 또는 당신이 즉시 야유됩니다.
이러한 의미에서 모든 배포판과 관련이 있습니다. 그러나 그것은 특히 사물의 합계 분포와 관련이 있습니다. 의 합 베르누이 시험은 다음과항 분포 및으로 시험의 수가 증가하는항 분포된다 더 다음과 같은 정상 유통. 그것의 사촌 hypergeometric 분포도 않습니다., 이항의 극단적 인 형태 인 포아송 분포는 또한 속도 매개 변수가 증가함에 따라 정규 분포에 접근합니다.
로그 정규 분포를 따르는 결과는 대수가 정상적으로 분포 된 값을 취합니다. 또는:정상적으로 분산 된 값의 지수는 로그 정상적으로 분산됩니다. 사물의 합계가 정상적으로 분배되면 사물의 제품이 로그-정상적으로 분배된다는 것을 기억하십시오.
학생의 t-분포는 많은 비 통계 학자들이 다른 과학에서 배우는 t-테스트의 기초입니다., 정규 분포의 평균에 대한 추론에 사용되며 매개 변수가 증가함에 따라 정규 분포에 접근하기도합니다. 의 특징은 t-메일은 해당 꼬리는 오르게 정상적인 배포니다.
경우 지방 꼬리 일화가 없는 충분히 뜨겁고 와우 이웃에,그것은 약간-흥미로운 백 storyconcerning 니다. 100 년 전,기네스는 더 나은 스타우트를 만들기 위해 통계를 사용하고있었습니다. 그곳에서 William Sealy Gosset 은 더 나은 보리를 키우기 위해 완전히 새로운 통계 이론을 개발했습니다., Gosset 확신 보스는 다른 양을 찾지 못을 사용하는 방법 아이디어를,그리고 그래서에 게시할 권한을 하지만,단지 펜을 이름을””학생. Gosset 의 가장 잘 알려진 결과는 일종의 그의 이름을 따서 명명 된이 t-배포판입니다.
마지막으로,카이 제곱 분포는의 분포의 제곱 정상적으로 배부되는 값입니다. 그것은 배포 뒷받침하는 카이 제곱 테스트는 자체의 합계를 기준으로 사각형의 차이는 있어야 할 일반적으로 배포됩니다.,
감마와 베타
이 시점에서,당신은 이야기에 대해 chi-squared,아무것도 그 대화를 얻었다 심각합니다. 당신은 가능성이 이야기하는 실제 통계,그리고 당신도 자신을 변명하는 이 시점에서 같은 것들 때문에,감마 분포 수 있습니다. 지수 및 카이 제곱 분포 모두의 일반화입니다. 지수 분포와 마찬가지로 대기 시간의 정교한 모델로 사용됩니다. 예를 들어,감마 분포는 다음 n 이벤트가 발생할 때까지의 시간을 모델링 할 때 나타납니다., 그것은 기계 학습에서 몇 가지 배포판에 대한”공액 이전”으로 나타납니다.
지 않으로 얻는 것에 대해 전과 결합,그러나 당신이 경우에,당신이 있는지 확인 하십시오에 대해에 대해 이야기하는 베타 분배기 때문에,그것은 결합하기 전에 대부분의 다른 모든 배포는 여기에 언급. 데이터 과학자에 관한 한,그것이 구축 된 것입니다. 이것을 아무렇게나 언급하고 문쪽으로 이동하십시오.
지혜의 시작
확률 분포가할 수 없습니다 너무 많이 알고 한다., 진정으로 관심있는 사람은 모든 단 변량 분포에 대한이 믿을 수 없을만큼 상세한지도를 확인해야합니다. 바라건대,이 일화 가이드는 오늘날의 기술 문화에서 지식과 함께 나타날 수있는 자신감을 제공합니다. 또는 적어도 덜 살아남을 칵테일 파티를 찾아야 할 때 높은 확률로 탐지 할 수있는 방법입니다.피>