běžné rozdělení pravděpodobnosti: list datového vědce

přetištěný zhttps://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

vědci mají stovky distribucí pravděpodobnosti, ze kterých si mohou vybrat. Kde začít?

věda o datech, ať už je to cokoli, zůstává velkým problémem. „Datový vědec je lepší statistika, než jakýkoli softwarový inženýr,“ můžete zaslechnout učenec řekl, v místní tech get-setkávání a hackatony. Aplikovaní matematici mají svou pomstu, protože o statistikách se tak nemluvilo od řvoucích 20. let., Mají vlastní legitimizační Vennův diagram, ze kterého si lidé nedělají legraci. Náhle jste to vy, inženýr, odešel z chatu o intervaly spolehlivosti místo ťuká na analytiky, kteří nikdy neslyšeli o Apache Bikeshed projekt pro distribuované komentář formátování. Aby se vešly do, být život a duše této strany znovu, budete potřebovat crash kurz ve statistikách. Nestačí, aby si to správně, ale dost, aby to znělo, jako byste mohli, tím, že základní pozorování.distribuce pravděpodobnosti

jsou pro statistiku zásadní, stejně jako datové struktury jsou pro informatiku., Jsou to místo, kde začít studovat, pokud chcete mluvit jako datový vědec. Někdy se můžete dostat pryč s jednoduchou analýzou pomocí R nebo scikit-Naučte se bez pochopení distribucí, stejně jako můžete spravovat program Java bez pochopení hash funkcí. Ale brzy by to skončilo slzami, chybami, falešnými výsledky nebo horšími: povzdechy a oko-válcování ze statistik majorů.

existují stovky distribucí pravděpodobnosti, některé znějí jako monstra ze středověké legendy jako Muth nebo Lomax. V praxi se však objevuje pouze asi 15 distribucí., Co to jsou a jaké chytré poznatky o každém z nich byste si měli zapamatovat?

věci se dějí po celou dobu: kostky jsou válcované, prší, autobusy dorazí. Po skutečnosti, konkrétní výsledky jsou jisté: kostky přišel 3 a 4, tam byl půl palce deště dnes, autobus 3 minuty, aby se dospělo. Předtím můžeme mluvit pouze o tom, jak pravděpodobné jsou výsledky. Rozdělení pravděpodobnosti popisují, co si myslíme, že pravděpodobnost každého výsledku je, což je někdy zajímavější vědět, než jen to, který jediný výsledek je s největší pravděpodobností., Přicházejí v mnoha tvarech, ale pouze v jedné velikosti: pravděpodobnosti v distribuci vždy přidávají až 1.

například převrácení spravedlivé mince má dva výsledky: přistane hlavou nebo ocasem. (Předpokládejme, že nemůže přistát na okraji nebo být ukraden rackem uprostřed vzduchu.) Před otočením věříme, že existuje šance 1 v 2, nebo pravděpodobnost 0.5, hlav. Totéž platí pro ocasy. To je rozdělení pravděpodobnosti na dva výsledky převrácení, a pokud se můžete řídit touto větou,už jste zvládli distribuci Bernoulli.,

navzdory exotickým jménům se společné distribuce navzájem vztahují intuitivním a zajímavým způsobem, díky němuž je lze snadno vyvolat, a poznamenávají se vzduchem autority. Z Bernoulliho distribuce plyne například několik. Je čas odhalit mapu vztahů.,

Společné rozdělení pravděpodobnosti a některé klíčové vztahy

Každá distribuce je znázorněn příklad funkce hustoty pravděpodobnosti (PDF). Tento příspěvek se zabývá pouze distribucí výsledků, které jsou jednotlivá čísla. Vodorovná osa v každém poli je tedy soubor možných číselných výsledků. Vertikální osa popisuje pravděpodobnost výsledků., Některé distribuce jsou diskrétní, nad výsledky, které musí být celá čísla jako 0 nebo 5. Ty se objevují jako řídké čáry, jeden pro každý výsledek, kde výška čáry je pravděpodobnost tohoto výsledku. Některé jsou kontinuální, pro výsledky, které mohou mít jakoukoli skutečnou číselnou hodnotu, jako je -1.32 nebo 0.005. Ty se objevují jako husté křivky, kde jsou to oblasti pod úseky křivky, které dávají pravděpodobnosti. Součty výšek čar a ploch pod křivkami jsou vždy 1.

tisk, řez podél tečkované čáry a vezměte si ji s sebou do peněženky nebo kabelky., Toto je váš průvodce po poli pro špinění distribucí a jejich příbuzných.

Bernoulli a Uniform

setkali jste se s distribucí Bernoulli nad dvěma diskrétními výsledky-ocasy nebo hlavami. Myslete na to, nicméně, jako rozdělení přes 0 a 1, přes 0 hlavy (tj. ocasy) nebo 1 hlavy. Výše, oba výsledky byly stejně pravděpodobné, a to je to, co je znázorněno na obrázku. Bernoulli PDF má dva řádky stejné výšky, což představuje dva stejně pravděpodobné výsledky 0 a 1 na obou koncích.,

distribuce Bernoulli by mohla představovat výsledky, které nejsou stejně pravděpodobné, jako výsledek nespravedlivého hodu mincí. Pak pravděpodobnost hlav není 0,5, ale nějaká jiná hodnota p a pravděpodobnost ocasů je 1-p. stejně jako mnoho distribucí je to vlastně rodina distribucí definovaných parametry, jako je P zde. Když si myslíte, že „Bernoulli,“ jen myslet „(možná nespravedlivé) hod mincí.“

je to krátký skok představit distribuci přes mnoho stejně pravděpodobných výsledků: rovnoměrné rozložení, charakterizované jeho plochým PDF. Představte si, že válcování spravedlivý zemřít., Výsledky 1 až 6 jsou stejně pravděpodobné. Může být definován pro libovolný počet výsledků n nebo dokonce jako kontinuální distribuce.

spojte rovnoměrné rozdělení s “ válcováním spravedlivé matrice.“

Binomická a Hypergeometrická

Binomická distribuce může být považována za součet výsledků věcí, které následují po distribuci Bernoulli. Hodit spravedlivou minci 20 krát; kolikrát to přijde hlavy? Tento počet je výsledek, který následuje binomické rozdělení. Jeho parametry jsou n, počet pokusů a p, pravděpodobnost „úspěchu“ (zde: hlavy nebo 1)., Každý flip je Bernoulli-distribuovaný výsledek, nebo soud. Sáhněte po binomické distribuci při počítání počtu úspěchů ve věcech, které se chovají jako hod mincí, kde je každý flip nezávislý a má stejnou pravděpodobnost úspěchu.

nebo si představte urnu se stejným počtem bílých a černých koulí. Zavřete oči a nakreslete míč a poznamenejte si, zda je černý, a pak jej vložte zpět. Opakovat. Kolikrát jste nakreslil černou kouli? Tento počet také následuje binomické rozdělení.,

představit si tuto zvláštní situaci má smysl, protože usnadňuje vysvětlení Hypergeometrické distribuce. Toto je rozdělení stejného počtu, pokud byly koule nakresleny bez náhrady. Nepochybně je to bratranec binomické distribuce, ale ne stejné, protože pravděpodobnost úspěchu se mění, protože koule jsou odstraněny. Pokud je počet míčů velký vzhledem k počtu remíz, distribuce jsou podobné, protože šance na úspěch se při každém losování mění méně.,

Když lidé mluví o vybírání míčků z urny bez náhrady, je to téměř vždy v bezpečí říct, „hypergeometrické distribuce, ano,“ protože jsem nikdy nepotkal nikoho, kdo vlastně naplněné urny s míčky a pak je vybrala, a nahradil je nebo jinak, v reálném životě. (Ani neznám nikoho, kdo vlastní urnu.) Obecněji by to mělo přijít na mysl při výběru významné podmnožiny populace jako vzorku.

Poisson

Co počet zákazníků, kteří každou minutu volají na linku podpory?, To je výsledek, jehož distribuce zvuky binomické, pokud si myslíte, že každý druhý jako Bernoulliho procesu, ve kterém zákazník nezavolá (0) nebo (1). Nicméně, jak ví energetická společnost, když zhasne napájení, 2 nebo dokonce stovky lidí mohou volat ve stejné vteřině. Prohlížení to, jak 60,000 milisekund velikosti studiích stále ještě není dostat kolem problému — mnoho dalších studií, mnohem menší pravděpodobnost 1 hovor, natož 2 nebo více, ale pořád to není technicky Bernoulliho pokusů. Nicméně, s ohledem na jeho nekonečný, logický závěr funguje., Nechte n jít do nekonečna a nechte p jít na 0, aby odpovídal tak, aby np zůstal stejný. Je to jako směřovat k nekonečně mnoha nekonečně malým časovým řezům, ve kterých je pravděpodobnost hovoru nekonečně malá. Omezujícím výsledkem je Poissonovo rozdělení.

stejně jako Binomická distribuce je Poissonova distribuce distribucí počtu — počet časů, kdy se něco stalo. Není parametrizován pravděpodobností p a počtem pokusů n, ale průměrnou rychlostí λ, což je v této analogii jednoduše konstantní hodnota np., Poissonova distribuce je to, co si musíte myslet, když se snažíte počítat události v čase vzhledem k nepřetržité rychlosti událostí.

když věci jako pakety dorazí na směrovače nebo zákazníci dorazí do obchodu, nebo věci čekají v nějaké frontě, přemýšlejte “ poisson.“

Geometrický a negativní Binomický

z jednoduchých bernoulliových pokusů vzniká další distribuce. Kolikrát se převrácená mince objeví ocasy, než se poprvé objeví hlavy? Tento počet ocasů následuje geometrické rozdělení., Stejně jako Bernoulliho rozdělení je parametrizováno p, pravděpodobností toho konečného úspěchu. Není to parametrizováno n, řadou pokusů nebo převrácení, protože počet pokusů o selhání je samotný výsledek.

Pokud je Binomická distribuce “ kolik úspěchů?“pak geometrické rozdělení je“ kolik selhání až do úspěchu?“

negativní Binomická distribuce je jednoduchá zobecnění. Je to Počet selhání, dokud nenastaly úspěchy r, nejen 1. Je proto parametrizován také r. někdy je popisován jako počet úspěchů až do selhání r., Jak říká můj životní trenér, úspěch a neúspěch jsou tím, čím je definujete, takže jsou rovnocenné, pokud budete mít pravdu, zda p je pravděpodobnost úspěchu nebo neúspěchu.

Pokud potřebujete ice-breaker, můžete poukázat na to, že binomické a hypergeometrické rozdělení jsou zjevné pár, ale geometrické a negativní binomické rozdělení jsou také docela podobné, a pak řekl, „chci říct, kdo tyhle věci pojmenovává, mám pravdu?“

exponenciální a Weibull

zpět na volání zákaznické podpory: jak dlouho do příštího volání zákazníka?, Rozložení této čekací doby zní, jako by to mohlo být geometrické, protože každá sekunda, kterou nikdo nevolá, je jako selhání, až do sekundy, ve které konečně volá zákazník. Počet selhání je jako počet sekund, které nikdo nevolal, a to je téměř čekací doba do dalšího hovoru, ale téměř není dost blízko. Úlovek tentokrát je, že částka bude vždy v celých sekundách, ale to se nepodaří účet za čekání v té vteřině, dokud zákazník konečně zavolal.,

stejně Jako předtím se geometrické rozdělení na limit, k nekonečně času plátky, a funguje to. Získáte exponenciální distribuci, která přesně popisuje rozdělení času do hovoru. Je to kontinuální distribuce, první se zde setkal, protože výsledek čas nemusí být celé sekundy. Stejně jako Poissonova distribuce je parametrizována rychlostí λ.

ozvěna binomického geometrického vztahu, Poissonova “ kolik událostí za čas?“vztahuje se k exponenciálním“ jak dlouho do události?,“Vzhledem k událostem, jejichž počet za dobu následuje Poissonovo rozdělení, pak čas mezi událostmi sleduje exponenciální rozdělení se stejnou rychlostí parametr λ. Tato korespondence mezi oběma distribucemi je nezbytná pro kontrolu jmen při diskusi o kterékoli z nich.

exponenciální distribuce by měla přijít na mysl při přemýšlení o „čas do události“, možná „čas do selhání.“Ve skutečnosti je to tak důležité, že existují obecnější distribuce, které popisují čas od selhání, jako je distribuce Weibull., Zatímco exponenciální rozdělení je vhodné, když je rychlost opotřebení nebo například selhání konstantní, distribuce Weibull může modelovat rostoucí (nebo klesající) míry selhání v průběhu času. Exponenciální je pouze zvláštní případ.

přemýšlejte o „Weibull“, když se chat změní na time-to-failure.

Normal, Log-Normal, Student ‚ S T a Chi-squared

normální distribuce nebo Gaussovská distribuce je možná nejdůležitější ze všech. Jeho tvar zvonu je okamžitě rozpoznatelný., Stejně jako e, je to zvědavě konkrétní entita, která se objevuje všude, ze zdánlivě jednoduchých zdrojů. Vezměte spoustu hodnot po stejné distribuci – jakékoli distribuci-a sečtěte je. Rozdělení jejich součtu následuje (přibližně) normální rozdělení. Čím více věcí se sčítají, tím více se jejich rozdělení součtu shoduje s normálním rozdělením. (Upozornění: musí být dobře vychovaná distribuce, musí být nezávislá, má tendenci pouze k normálnímu rozdělení.) Skutečnost, že to platí bez ohledu na základní rozdělení, je úžasná.,

toto se nazývá věta o centrálním limitu a musíte vědět, že se to nazývá a co to znamená, Nebo budete okamžitě provokováni.

v tomto smyslu se týká všech distribucí. Souvisí to však zejména s rozdělením částek věcí. Součet testů Bernoulli následuje binomickou distribuci a s rostoucím počtem pokusů se Binomická distribuce stává spíše normální distribucí. Jeho bratranec hypergeometrická distribuce také dělá., Poissonova distribuce — extrémní forma binomického-se také blíží normálnímu rozdělení, jak se zvyšuje parametr rychlosti.

výsledek, který následuje po log-normální rozdělení, přebírá hodnoty, jejichž logaritmus je normálně distribuován. Nebo: exponentiace normálně distribuované hodnoty je log – normálně distribuována. Pokud jsou částky věcí normálně distribuovány, nezapomeňte, že produkty věcí jsou běžně distribuovány.

t-distribuce studenta je základem t-testu, který se mnoho nestatistů učí v jiných vědách., Používá se při uvažování o průměru normální distribuce a také se blíží k normální distribuci, jak se její parametr zvyšuje. Charakteristickým rysem t-rozdělení jsou jeho ocasy, které jsou tlustší než normální rozdělení.

v Případě, že tuk-ocas anekdota není dostatečně horká trvat páni svého souseda, jít do jeho mírně-zajímavé zpátky-storyconcerning pivo. Před více než 100 lety, Guinness používal statistiky, aby se lépe stout. Tam, William Sealy Gosset vyvinul nějakou zcela novou teorii statistik, jen aby rostl lepší ječmen., Gosset přesvědčil šéfa, že ostatní sládci nemohli přijít na to, jak používat nápady, a tak dostali povolení k publikování, ale pouze pod pseudonymem „Student“. Gossetovým nejznámějším výsledkem je t-distribuce, která je tak trochu pojmenována po něm.

konečně, distribuce chi-squared je rozdělení součtu čtverců normálně distribuovaných hodnot. Je to distribuce, která je základem testu chi-squared, který je sám o sobě založen na součtu čtverců rozdílů, které mají být normálně distribuovány.,

Gama a Beta

V tomto bodě, pokud mluvíte o chi-squared nic, pak rozhovor nemá vážné. Pravděpodobně mluvíte se skutečnými Statistiky a možná se budete chtít v tomto okamžiku omluvit, protože se mohou objevit věci jako distribuce gama. Jedná se o zobecnění jak exponenciálních, Tak chi-čtvercových distribucí. Spíše jako exponenciální distribuce se používá jako sofistikovaný model čekacích dob. Například distribuce gama přichází při modelování času, dokud nedojde k dalším událostem n., Objevuje se ve strojovém učení jako „konjugát před“ pár distribucí.

nenechte se do konverzace o konjugované záznam, ale pokud tak učiníte, ujistěte se, že jste mluvit o beta rozdělení, protože to je konjugát před většinou každý druhý distribuce zde uvedené. Pokud jde o vědce v oblasti dat, to je to, pro co byl postaven. Zmiňte to náhodně a přesuňte se ke dveřím.

začátek rozdělení pravděpodobnosti

je něco, o čem nemůžete vědět příliš mnoho., Opravdu zájem by se měl podívat na tuto neuvěřitelně podrobnou mapu všech univariátních distribucí. Doufejme, že tento neoficiální průvodce vám dává jistotu, že se objeví znalý a s-it v dnešní technické kultuře. Nebo alespoň způsob, jak s vysokou pravděpodobností zjistit, kdy byste měli najít méně nerdy koktejlovou párty.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Přejít k navigační liště