przedrukowany z https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/
analitycy danych mają setki rozkładów prawdopodobieństwa, z których można wybrać. Od czego zacząć?
Data science, cokolwiek to może być, pozostaje wielką sprawą. „Analityk danych jest lepszy w statystykach niż jakikolwiek inżynier oprogramowania”, można usłyszeć pundit powiedzieć, na lokalnych spotkań technologicznych i hackathonów. Zastosowani matematycy mają swoją zemstę, ponieważ statystyka nie była tak dyskutowana od lat 20., Mają swój własny, legitymizujący Diagram Venna, z którego ludzie się nie śmieją. Nagle to Ty, inżynier, pominięty na czacie o interwałach ufności zamiast stukać w analityków, którzy nigdy nie słyszeli o projekcie Apache Bikeshed do formatowania komentarzy rozproszonych. Aby się wpasować, być ponownie życiem i duszą tej imprezy, potrzebujesz crash course w stats. Nie na tyle, żeby to zrobić dobrze, ale na tyle, aby brzmiało tak, jakbyś mógł, dokonując podstawowych obserwacji.
rozkłady prawdopodobieństwa są fundamentalne dla statystyki, podobnie jak struktury danych są dla informatyki., To miejsce do nauki, jeśli chcesz mówić jak analityk danych. Czasami można ujść na sucho z prostą analizą za pomocą R lub scikit-ucz się bez zrozumienia dystrybucji, tak jak można zarządzać programem Java bez zrozumienia funkcji hashowych. Ale wkrótce skończy się to łzami, robalami, fałszywymi wynikami, albo gorzej: wzdychaniem i rzucaniem okiem na statystyki.
istnieją setki rozkładów prawdopodobieństwa, niektóre brzmią jak potwory ze średniowiecznej legendy, takie jak Muth lub Lomax. Tylko około 15 dystrybucji pojawia się konsekwentnie w praktyce., Czym one są i jakie sprytne spostrzeżenia na temat każdego z nich należy zapamiętać?
rzeczy dzieją się cały czas: kości są rzucane, pada deszcz, przyjeżdżają autobusy. Po fakcie, konkretne wyniki są pewne: kości przyszedł 3 i 4, było pół cala deszczu dzisiaj, autobus zajęło 3 minuty, aby przyjechać. Wcześniej możemy mówić tylko o tym, jak prawdopodobne są wyniki. Rozkłady prawdopodobieństwa opisują, jakie jest prawdopodobieństwo każdego wyniku, co jest czasami bardziej interesujące niż po prostu, który pojedynczy wynik jest najbardziej prawdopodobny., Występują one w wielu kształtach, ale tylko w jednym rozmiarze: prawdopodobieństwa w rozkładzie zawsze sumują się do 1.
na przykład rzut uczciwą monetą ma dwa wyniki: ląduje orzeł lub reszka. (Załóżmy, że nie może wylądować na krawędzi lub zostać skradziony przez mewę w powietrzu.) Przed przewrotem wierzymy, że jest szansa 1 na 2 lub Prawdopodobieństwo 0,5 głów. To samo dotyczy reszka. To jest rozkład prawdopodobieństwa na dwa wyniki odwrócenia i jeśli możesz podążać za tym zdaniem, to już opanowałeś rozkład Bernoulliego.,
pomimo egzotycznych nazw, wspólne dystrybucje odnoszą się do siebie w intuicyjny i ciekawy sposób, które sprawiają, że łatwo je przywołać, i uwagi na powietrzu z autorytetem. Niektóre z nich pochodzą naturalnie z rozkładu Bernoulliego, na przykład. Czas odkryć mapę związków.,
każdy rozkład jest zilustrowany przykładem jego funkcji gęstości prawdopodobieństwa (PDF). Ten post dotyczy tylko rozkładów wyników, które są pojedynczymi liczbami. Tak więc oś pozioma w każdym polu jest zbiorem możliwych wyników liczbowych. Oś pionowa opisuje prawdopodobieństwo wyników., Niektóre rozkłady są dyskretne, nad wynikami, które muszą być liczbami całkowitymi, takimi jak 0 lub 5. Pojawiają się one jako nieliczne linie, po jednej dla każdego wyniku, gdzie wysokość linii jest prawdopodobieństwem tego wyniku. Niektóre są ciągłe, dla wyników, które mogą przyjąć dowolną rzeczywistą wartość liczbową, taką jak -1.32 lub 0.005. Pojawiają się one jako gęste krzywe, gdzie to obszary pod sekcjami krzywej dają prawdopodobieństwo. Sumy wysokości linii i obszarów pod krzywymi są zawsze równe 1.
Wydrukuj, Wytnij wzdłuż kropkowanej linii i zabierz ją ze sobą w portfelu lub torebce., To jest Twój przewodnik terenowy do wypatrywania dystrybucji i ich krewnych.
rozkład Bernoulliego i jednorodny
spotkałeś powyżej rozkład Bernoulliego, ponad dwoma dyskretnymi wynikami — ogonami lub głowami. Pomyśl o tym jednak, jako o rozkładzie ponad 0 i 1, ponad 0 głów (tj. reszka) lub 1 głów. Powyżej oba wyniki były równie prawdopodobne i to jest pokazane na diagramie. Bernoulli PDF ma dwie linie równej wysokości, reprezentujące dwa jednakowo prawdopodobne wyniki 0 i 1 na obu końcach.,
rozkład Bernoulliego może reprezentować wyniki, które nie są równie prawdopodobne, jak wynik niesprawiedliwego rzutu monetą. Wtedy prawdopodobieństwo głów nie wynosi 0,5, ale jakąś inną wartość p, a prawdopodobieństwo ogonów wynosi 1-p. podobnie jak wiele rozkładów, jest to w rzeczywistości rodzina rozkładów zdefiniowanych przez parametry, jak tutaj P. Kiedy myślisz „Bernoulli”, po prostu pomyśl „(być może niesprawiedliwe) rzut monetą.”
to krótki skok, aby wyobrazić sobie rozkład na wiele równie prawdopodobnych wyników: rozkład jednolity, charakteryzujący się płaskim PDF. Wyobraź sobie toczenie sprawiedliwej matrycy., Wyniki od 1 do 6 są równie prawdopodobne. Może być zdefiniowana dla dowolnej liczby wyników n lub nawet jako rozkład ciągły.
„
rozkład dwumianowy i hipergeometryczny
rozkład dwumianowy można traktować jako sumę wyników rzeczy, które następują po rozkładzie Bernoulliego. Rzuć uczciwą monetą 20 razy; ile razy pojawia się orzeł? Liczba ta jest wynikiem, który następuje rozkład dwumianowy. Jego parametry to n, liczba prób i P, prawdopodobieństwo „sukcesu” (tutaj: głowy, lub 1)., Każdy rzut jest wynikiem Bernoulliego lub próbą. Sięgnij po rozkład dwumianowy, licząc liczbę sukcesów w rzeczach, które działają jak rzut monetą, gdzie każdy rzut jest niezależny i ma takie samo prawdopodobieństwo sukcesu.
lub wyobraź sobie urnę z równą liczbą białych i czarnych kul. Zamknij oczy i narysuj piłkę i zanotuj, czy jest czarna, a następnie odłóż ją z powrotem. Powtarzam. Ile razy narysowałeś czarną bilę? Ta liczba również następuje rozkład dwumianowy.,
wyobrażenie sobie tej dziwnej sytuacji ma sens, ponieważ ułatwia Wyjaśnienie rozkładu hipergeometrycznego. Jest to rozkład tej samej liczby, jeśli kulki zostały wylosowane bez wymiany. Niezaprzeczalnie jest to kuzyn rozkładu dwumianowego, ale nie to samo, ponieważ prawdopodobieństwo sukcesu zmienia się wraz z usuwaniem kulek. Jeśli liczba kulek jest duża w stosunku do liczby losowań, rozkład jest podobny, ponieważ szansa na sukces zmienia się z każdym losowaniem.,
Kiedy ludzie mówią o zbieraniu kul z urn bez wymiany, prawie zawsze bezpiecznie jest wtrącać się, „rozkład hipergeometryczny, tak”, ponieważ nigdy nie spotkałem nikogo, kto faktycznie wypełniał urny kulkami, a następnie je wybierał i wymieniał lub w inny sposób, w prawdziwym życiu. (Nie znam nawet nikogo, kto ma urnę.) Szerzej, to powinno przyjść do głowy przy wyborze znaczącego podzbioru populacji jako próbki.
a co z liczbą klientów dzwoniących co minutę na infolinię?, Jest to wynik, którego rozkład brzmi dwumianowo, jeśli myślisz o każdej sekundzie jako próbie Bernoulliego, w której klient nie dzwoni (0) lub nie dzwoni (1). Jednak, jak firma energetyczna wie, kiedy moc gaśnie, 2 lub nawet setki osób może zadzwonić w tej samej sekundzie. Oglądanie go jako próby 60,000 milisekund nadal nie obejdzie problemu — wiele innych prób, znacznie mniejsze prawdopodobieństwo 1 połączenia, nie mówiąc już o 2 lub więcej, ale nadal nie jest to technicznie próba Bernoulliego. Jednak doprowadzenie tego do nieskończonego, logicznego wniosku działa., Niech n idzie do nieskończoności i niech P idzie do 0, aby dopasować tak, że np pozostaje taka sama. To jest jak dążenie do nieskończenie wielu nieskończenie małych plastrów czasu, w których prawdopodobieństwo wywołania jest nieskończenie małe. Wynikiem ograniczającym jest rozkład Poissona.
podobnie jak rozkład dwumianowy, rozkład Poissona jest rozkładem liczby — licznikiem czasów, w których coś się wydarzyło. Jest parametryzowana nie przez Prawdopodobieństwo p i liczbę prób n, ale przez średnią szybkość λ, która w tej analogii jest po prostu stałą wartością np., Rozkład Poissona jest tym, o czym musisz myśleć, próbując policzyć zdarzenia w czasie, biorąc pod uwagę ciągłe Tempo zdarzeń zachodzących.
Kiedy takie rzeczy jak pakiety docierają do routerów, klienci docierają do sklepu lub rzeczy czekają w jakiejś kolejce, pomyśl „Poisson.”
geometryczny i ujemny dwumian
z prostych prób Bernoulliego powstaje inny rozkład. Ile razy rzucona moneta pojawia się w ogonach, zanim pojawi się orzeł? Ta liczba ogonów podąża za rozkładem geometrycznym., Podobnie jak rozkład Bernoulliego, jest parametryzowany przez P, prawdopodobieństwo tego końcowego sukcesu. Nie jest parametryzowany przez n, liczbę prób lub przewrotów, ponieważ liczba prób niepowodzenia jest wynikiem samym w sobie.
Jeśli rozkład dwumianowy wynosi ” ile sukcesów?”wtedy rozkład geometryczny jest” ile porażek do sukcesu?”
ujemny rozkład dwumianowy jest prostym uogólnieniem. Jest to liczba porażek do czasu wystąpienia r, a nie tylko 1. Jest więc parametryzowana również przez r. czasami określa się ją jako liczbę sukcesów do porażki R., Jak mówi mój trener życia, sukces i porażka są tym, czym je definiujesz, więc są one równoważne, o ile utrzymujesz jasność, czy p jest prawdopodobieństwem sukcesu czy porażki.
Jeśli potrzebujesz lodołamacza, możesz zauważyć, że rozkłady dwumianowe i hipergeometryczne są oczywistą parą, ale geometryczne i ujemne rozkłady dwumianowe są również dość podobne, a następnie powiedzieć: „kto nazywa te rzeczy, mam rację?”
href = „” >
wróć do rozmowy z obsługą klienta: ile czasu do następnego połączenia z klientem?, Rozkład tego czasu oczekiwania brzmi jakby był geometryczny, bo każda sekunda, w której nikt nie dzwoni, jest jak porażka, aż do sekundy, w której w końcu dzwoni klient. Liczba awarii jest jak liczba sekund, że nikt nie zadzwonił, i to prawie czas oczekiwania do następnego połączenia, ale prawie nie jest wystarczająco blisko. Połów tym razem jest to, że suma zawsze będzie w całych sekundach, ale to nie uwzględnia oczekiwania w ciągu tej sekundy, aż klient w końcu zadzwonił.,
tak jak poprzednio, weź rozkład geometryczny do granic, w kierunku nieskończoności i działa. Otrzymujesz rozkład wykładniczy, który dokładnie opisuje rozkład czasu do wywołania. Jest to rozkład ciągły, pierwszy napotkany tutaj, ponieważ czas wyniku nie musi być całe sekundy. Podobnie jak rozkład Poissona jest parametryzowany przez współczynnik λ.
nawiązując do relacji dwumianowo-geometrycznej, „How many events per time?”ile czasu do zdarzenia?,”Biorąc pod uwagę zdarzenia, których liczba na czas następuje po rozkładzie Poissona, wówczas czas pomiędzy zdarzeniami następuje po rozkładzie wykładniczym o tym samym parametrze szybkości λ. Ta korespondencja między dwoma dystrybucjami jest niezbędna do sprawdzenia nazwy podczas omawiania którejkolwiek z nich.
rozkład wykładniczy powinien przyjść na myśl, gdy myślimy o „czasie do zdarzenia”, może „czasie do niepowodzenia.”W rzeczywistości jest to tak ważne, że istnieją bardziej ogólne dystrybucje opisujące czas do niepowodzenia, takie jak dystrybucja Weibulla., Podczas gdy rozkład wykładniczy jest odpowiedni, gdy szybkość-zużycia lub awarii na przykład – jest stała, rozkład Weibulla może modelować zwiększenie (lub zmniejszenie) szybkości awarii w czasie. Wykładnik jest tylko szczególnym przypadkiem.
pomyśl o „Weibull”, gdy czat zmieni się w czas do awarii.
Normal, Log-Normal, Student ' s T, and Chi-squared
rozkład normalny, czyli rozkład Gaussa, jest chyba najważniejszy ze wszystkich. Jego kształt dzwonu jest natychmiast rozpoznawalny., Podobnie jak e, jest to osobliwa jednostka, która pojawia się wszędzie, z pozornie prostych źródeł. Weź kilka wartości następujących po tej samej dystrybucji – dowolnej dystrybucji — i zsumuj je. Rozkład ich sumy następuje (w przybliżeniu) po rozkładzie normalnym. Im więcej rzeczy jest sumowanych, tym bardziej rozkład ich sumy odpowiada rozkładowi normalnemu. (Zastrzeżenie: musi być rozkładem dobrze zachowanym, musi być niezależny, ma tendencję tylko do rozkładu normalnego.) Fakt, że jest to prawdą niezależnie od podstawowej dystrybucji jest zdumiewający.,
nazywa się to centralnym twierdzeniem granicznym i musisz wiedzieć, że tak to się nazywa i co to znaczy, albo zostaniesz natychmiast zawstydzony.
w tym sensie odnosi się do wszystkich dystrybucji. Jest to jednak szczególnie związane z dystrybucją Sum rzeczy. Suma prób Bernoulliego następuje rozkład dwumianowy, a wraz ze wzrostem liczby prób, rozkład dwumianowy staje się bardziej podobny do rozkładu normalnego. Jego kuzynem jest również rozkład hipergeometryczny., Rozkład Poissona-ekstremalna forma dwumianu-również zbliża się do rozkładu normalnego wraz ze wzrostem parametru szybkości.
wynik następujący po rozkładzie logarytmu normalnego przyjmuje wartości, których logarytm jest rozkładany normalnie. Or: wykładnik wartości o rozkładach normalnych jest rozkładem log-normally. Jeśli sumy rzeczy są normalnie dystrybuowane, to pamiętaj, że produkty rzeczy są normalnie dystrybuowane.
rozkład t Studenta jest podstawą testu t, który wielu nie-statystyków uczy się w innych naukach., Jest używany w rozumowaniu o średniej rozkładu normalnego, a także zbliża się do rozkładu normalnego, gdy jego parametr wzrasta. Cechą wyróżniającą rozkład t są jego ogony, które są grubsze niż rozkład normalny.
Jeśli anegdota o grubym ogonie nie jest wystarczająco gorąca, aby oczarować sąsiada, przejdź do jego łagodnie interesującej opowieści o piwie. Ponad 100 lat temu Guinness korzystał ze statystyk, aby lepiej zarabiać. Tam William Sealy Gosset opracował zupełnie nową teorię statystyki, aby wyhodować lepszy jęczmień., Gosset przekonał szefa, że inni piwowarzy nie mogą wymyślić, jak wykorzystać pomysły, więc dostał pozwolenie na publikację, ale tylko pod pseudonimem „Student”. Najbardziej znanym wynikiem gosseta jest rozkład t, który został nazwany jego imieniem.
wreszcie, rozkład chi-kwadrat jest rozkładem sumy kwadratów wartości normalnie rozłożonych. Jest to rozkład leżący u podstaw testu chi-kwadrat, który sam opiera się na sumie kwadratów różnic, które mają być rozkładane normalnie.,
Gamma i Beta
w tym momencie, jeśli mówisz o chi-kwadracie czegokolwiek, to rozmowa nabrała powagi. Prawdopodobnie rozmawiasz z prawdziwymi statystykami i możesz chcieć się w tym momencie usprawiedliwić, ponieważ takie rzeczy jak rozkład gamma mogą się pojawić. Jest to uogólnienie zarówno rozkładu wykładniczego, jak i chi-kwadratowego. Bardziej jak rozkład wykładniczy, jest używany jako wyrafinowany model czasu oczekiwania. Na przykład rozkład gamma pojawia się podczas modelowania czasu do wystąpienia kolejnych N zdarzeń., Pojawia się w uczeniu maszynowym jako „koniugat przed” do kilku dystrybucji.
nie wdawaj się w tę rozmowę o priorach koniugacyjnych, ale jeśli to zrobisz, upewnij się, że będziesz mówił o dystrybucji beta, ponieważ jest to koniugacja przed większością innych dystrybucji wymienionych tutaj. Jeśli chodzi o analityków danych, to właśnie do tego został zbudowany. Wspomnij o tym niechcący i przesuń się w stronę drzwi.
początek mądrości
rozkłady prawdopodobieństwa to coś, o czym nie możesz wiedzieć zbyt wiele., Naprawdę zainteresowani powinni sprawdzić tę niezwykle szczegółową mapę wszystkich dystrybucji univariate. Mamy nadzieję, że ten anegdotyczny przewodnik da ci pewność, że będziesz mieć wiedzę i wiedzę w dzisiejszej kulturze technologicznej. Albo przynajmniej sposób na wykrycie, z dużym prawdopodobieństwem, kiedy powinieneś znaleźć mniej nerdy cocktail party.