Distribuzioni di probabilità comuni: il foglio di calcolo dello scienziato dei dati

Ristampato da https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Gli scienziati dei dati hanno centinaia di distribuzioni di probabilità tra cui scegliere. Da dove cominciare?

La scienza dei dati, qualunque essa sia, rimane un grosso problema. “Uno scienziato dei dati è più bravo nelle statistiche di qualsiasi ingegnere del software”, potresti sentire un esperto dire, ai tuoi incontri e hackathon tecnologici locali. I matematici applicati hanno la loro vendetta, perché le statistiche non sono state così chiacchierate dai ruggenti anni ‘ 20., Hanno il loro diagramma di Venn legittimante di cui le persone non prendono in giro. Improvvisamente sei tu, l’ingegnere, lasciato fuori dalla chat sugli intervalli di confidenza invece di fare tutting agli analisti che non hanno mai sentito parlare del progetto Apache Bikeshed per la formattazione dei commenti distribuiti. Per adattarsi, per essere di nuovo la vita e l’anima di quella festa, hai bisogno di un corso accelerato in statistiche. Non abbastanza per farlo bene, ma abbastanza per sembrare come si potrebbe, facendo osservazioni di base.

Le distribuzioni di probabilità sono fondamentali per le statistiche, proprio come le strutture dati sono per l’informatica., Sono il posto dove iniziare a studiare se intendi parlare come uno scienziato dei dati. A volte puoi farla franca con un’analisi semplice usando R o scikit-learn senza capire abbastanza le distribuzioni, proprio come puoi gestire un programma Java senza capire le funzioni di hash. Ma sarebbe presto finire in lacrime, bug, risultati fasulli, o peggio: sospiri e eye-rolling da statistiche major.

Ci sono centinaia di distribuzioni di probabilità, alcune che sembrano mostri della leggenda medievale come Muth o Lomax. Solo circa 15 distribuzioni si presentano in modo coerente nella pratica però., Che cosa sono, e quali intuizioni intelligenti su ciascuno di essi si dovrebbe memorizzare?

Le cose accadono tutto il tempo: i dadi sono rotolati, piove, arrivano gli autobus. Dopo il fatto, i risultati specifici sono certi: i dadi si avvicinò 3 e 4, c’era mezzo pollice di pioggia oggi, l’autobus ha preso 3 minuti per arrivare. Prima, possiamo solo parlare di quanto siano probabili i risultati. Le distribuzioni di probabilità descrivono ciò che pensiamo sia la probabilità di ogni risultato, che a volte è più interessante sapere che semplicemente quale singolo risultato è più probabile., Sono disponibili in molte forme, ma in una sola dimensione: le probabilità in una distribuzione aggiungono sempre fino a 1.

Ad esempio, lanciare una moneta giusta ha due risultati: atterra testa o croce. (Supponiamo che non possa atterrare sul bordo o essere rubato da un gabbiano a mezz’aria.) Prima del flip, crediamo che ci sia una probabilità 1 su 2, o 0.5 probabilità, di teste. Lo stesso vale per tails. Questa è una distribuzione di probabilità sui due risultati del flip, e se riesci a seguire quella frase, hai già padroneggiato la distribuzione di Bernoulli.,

Nonostante i nomi esotici, le distribuzioni comuni si relazionano tra loro in modi intuitivi e interessanti che le rendono facili da ricordare e da osservare con un’aria di autorità. Molti seguono naturalmente dalla distribuzione di Bernoulli, per esempio. È tempo di rivelare una mappa delle relazioni.,

Comune di distribuzioni di probabilità e di alcune relazioni di chiave

Ogni distribuzione è illustrato un esempio della sua funzione di densità di probabilità (PDF). Questo post si occupa solo di distribuzioni di risultati che sono numeri singoli. Quindi, l’asse orizzontale in ogni casella è l’insieme di possibili risultati numerici. L’asse verticale descrive la probabilità di risultati., Alcune distribuzioni sono discrete, su risultati che devono essere interi come 0 o 5. Questi appaiono come linee sparse, una per ogni risultato, dove l’altezza della linea è la probabilità di tale risultato. Alcuni sono continui, per risultati che possono assumere qualsiasi valore numerico reale come -1.32 o 0.005. Queste appaiono come curve dense, dove sono le aree sotto le sezioni della curva che danno probabilità. Le somme delle altezze delle linee e delle aree sotto le curve sono sempre 1.

Stampa, taglia lungo la linea tratteggiata e portalo con te nel portafoglio o nella borsa., Questa è la tua guida sul campo per individuare le distribuzioni e i loro parenti.

Bernoulli e Uniform

Hai incontrato la distribuzione di Bernoulli sopra, su due risultati discreti: code o teste. Pensalo, tuttavia, come una distribuzione su 0 e 1, su 0 teste (cioè code) o 1 teste. Sopra, entrambi i risultati erano ugualmente probabili, ed è ciò che è illustrato nel diagramma. Il PDF di Bernoulli ha due linee di uguale altezza, che rappresentano i due risultati ugualmente probabili di 0 e 1 alle due estremità.,

La distribuzione di Bernoulli potrebbe rappresentare risultati che non sono altrettanto probabili, come il risultato di un lancio di monete ingiusto. Quindi, la probabilità di heads non è 0.5, ma qualche altro valore p, e la probabilità di tails è 1-p. Come molte distribuzioni, è in realtà una famiglia di distribuzioni definite da parametri, come p qui. Quando pensi “Bernoulli”, pensa solo ” (forse ingiusto) lancio della moneta.”

È un breve salto immaginare una distribuzione su molti risultati altrettanto probabili: la distribuzione uniforme, caratterizzata dal suo PDF piatto. Immagina di tirare un dado equo., I risultati da 1 a 6 sono ugualmente probabili. Può essere definito per qualsiasi numero di risultati n o anche come una distribuzione continua.

Associa la distribuzione uniforme a ” rolling a fair die.”

Binomio e ipergeometrico

La distribuzione binomiale può essere pensata come la somma dei risultati delle cose che seguono una distribuzione di Bernoulli. Lancia una moneta giusta 20 volte; quante volte viene fuori la testa? Questo conteggio è un risultato che segue la distribuzione binomiale. I suoi parametri sono n, il numero di prove e p, la probabilità di un “successo” (qui: teste o 1)., Ogni flip è un risultato Bernoulli-distribuito, o di prova. Raggiungere la distribuzione binomiale quando si conta il numero di successi in cose che agiscono come un lancio di monete, in cui ogni lancio è indipendente e ha la stessa probabilità di successo.

Oppure, immagina un’urna con un numero uguale di palline bianche e nere. Chiudi gli occhi e disegna una palla e nota se è nera, quindi rimettila. Ripetere. Quante volte hai disegnato una palla nera? Questo conteggio segue anche una distribuzione binomiale.,

Immaginare questa strana situazione ha un punto, perché rende semplice spiegare la distribuzione ipergeometrica. Questa è la distribuzione di quello stesso conteggio se le palle sono state disegnate senza sostituzione invece. Innegabilmente è un cugino della distribuzione binomiale, ma non lo stesso, perché la probabilità di successo cambia man mano che le palle vengono rimosse. Se il numero di palle è grande rispetto al numero di estrazioni, le distribuzioni sono simili perché la possibilità di successo cambia meno con ogni estrazione.,

Quando la gente parla di raccogliere palle da urne senza sostituzione, è quasi sempre sicuro di interject, “la distribuzione ipergeometrica, sì,” perché non ho mai incontrato nessuno che effettivamente riempito urne con le palle e poi scelto fuori, e li ha sostituiti o in altro modo, nella vita reale. (Non conosco nemmeno nessuno che possieda un’urna.) Più in generale, dovrebbe venire in mente quando si sceglie un sottoinsieme significativo di una popolazione come campione.

Poisson

Che dire del numero di clienti che chiamano una hotline di supporto ogni minuto?, Questo è un risultato la cui distribuzione sembra binomiale, se si pensa a ogni secondo come a una prova di Bernoulli in cui un cliente non chiama (0) o fa (1). Tuttavia, come sa la compagnia elettrica, quando il potere si spegne, 2 o anche centinaia di persone possono chiamare nello stesso secondo. Vederlo come prove di 60.000 millisecondi non risolve ancora il problema-molte più prove, probabilità molto più piccola di 1 chiamata, per non parlare di 2 o più, ma, ancora non tecnicamente una prova di Bernoulli. Tuttavia, portando questo alla sua infinita, logica conclusione funziona., Lascia che n vada all’infinito e lascia che p vada a 0 per abbinare in modo che np rimanga lo stesso. Questo è come dirigersi verso infinitamente molte fette di tempo infinitesimalmente piccole in cui la probabilità di una chiamata è infinitesimale. Il risultato limitante è la distribuzione di Poisson.

Come la distribuzione binomiale, la distribuzione di Poisson è la distribuzione di un conteggio — il conteggio delle volte in cui è successo qualcosa. È parametrizzato non da una probabilità p e numero di prove n ma da un tasso medio λ, che in questa analogia è semplicemente il valore costante di np., La distribuzione di Poisson è ciò a cui devi pensare quando cerchi di contare gli eventi in un tempo dato il tasso continuo di eventi che si verificano.

Quando cose come i pacchetti arrivano ai router, o i clienti arrivano in un negozio, o le cose aspettano in una sorta di coda, pensa “Poisson.”

Binomio geometrico e negativo

Da semplici prove di Bernoulli nasce un’altra distribuzione. Quante volte fa una moneta capovolta venire code prima che prima viene su teste? Questo conteggio delle code segue una distribuzione geometrica., Come la distribuzione di Bernoulli, è parametrizzata da p, la probabilità di quel successo finale. Non è parametrizzato da n, un numero di prove o flip, perché il numero di prove di fallimento è il risultato stesso.

Se la distribuzione binomiale è ” Quanti successi?”allora la distribuzione geometrica è” Quanti fallimenti fino a un successo?”

La distribuzione binomiale negativa è una semplice generalizzazione. È il numero di fallimenti fino a quando non si sono verificati successi r, non solo 1. È quindi parametrizzato anche da r. A volte è descritto come il numero di successi fino ai fallimenti di r., Come dice il mio life coach, il successo e il fallimento sono ciò che li definisci, quindi questi sono equivalenti, a patto che tu tenga dritto se p è la probabilità di successo o fallimento.

Se hai bisogno di un rompighiaccio, potresti sottolineare che le distribuzioni binomiali e ipergeometriche sono una coppia ovvia, ma anche le distribuzioni binomiali geometriche e negative sono piuttosto simili, e poi dire: “Voglio dire, chi nomina queste cose, ho ragione?”

Esponenziale e Weibull

Torna alle chiamate di assistenza clienti: quanto tempo prima che il cliente successivo chiama?, La distribuzione di questo tempo di attesa suona come potrebbe essere geometrica, perché ogni secondo che nessuno chiama è come un fallimento, fino a un secondo in cui finalmente un cliente chiama. Il numero di errori è come il numero dei secondi che nessuno ha chiamato, e questo è quasi il tempo di attesa fino alla chiamata successiva, ma quasi non è abbastanza vicino. Il problema questa volta è che la somma sarà sempre in interi secondi, ma questo non tiene conto dell’attesa entro quel secondo fino a quando il cliente non ha finalmente chiamato.,

Come prima, porta la distribuzione geometrica al limite, verso fette di tempo infinitesimali, e funziona. Si ottiene la distribuzione esponenziale, che descrive con precisione la distribuzione del tempo fino a quando una chiamata. È una distribuzione continua, la prima incontrata qui, perché il tempo di esito non deve essere secondi interi. Come la distribuzione di Poisson, è parametrizzata da un tasso λ.

Riecheggiando la relazione binomiale-geometrica, Poisson “Quanti eventi per volta?”si riferisce all’esponenziale” Quanto tempo manca a un evento?,”Dato eventi il cui conteggio per tempo segue una distribuzione di Poisson, allora il tempo tra gli eventi segue una distribuzione esponenziale con lo stesso parametro di velocità λ. Questa corrispondenza tra le due distribuzioni è essenziale per controllare il nome quando si discute di una di esse.

La distribuzione esponenziale dovrebbe venire in mente quando si pensa a “tempo fino all’evento”, forse “tempo fino al fallimento.” In realtà, questo è così importante che esistono distribuzioni più generali per descrivere il time-to-failure, come la distribuzione di Weibull., Mentre la distribuzione esponenziale è appropriata quando il tasso di usura, o guasto per esempio, è costante, la distribuzione di Weibull può modellare tassi crescenti (o decrescenti) di guasto nel tempo. L’esponenziale è semplicemente un caso speciale.

Pensa a “Weibull” quando la chat diventa time-to-failure.

Normale, Log-Normale, t di Student e Chi-quadrato

La distribuzione normale, o distribuzione gaussiana, è forse la più importante di tutte. La sua forma a campana è immediatamente riconoscibile., Come e, è un’entità curiosamente particolare che si presenta dappertutto, da fonti apparentemente semplici. Prendi un gruppo di valori che seguono la stessa distribuzione — qualsiasi distribuzione — e sommali. La distribuzione della loro somma segue (approssimativamente) la distribuzione normale. Più cose vengono sommate, più la distribuzione della loro somma corrisponde alla distribuzione normale. (Avvertenze: deve essere una distribuzione ben educata, deve essere indipendente, tende solo alla distribuzione normale.) Il fatto che questo sia vero indipendentemente dalla distribuzione sottostante è sorprendente.,

Questo è chiamato il teorema del limite centrale, e devi sapere che questo è ciò che viene chiamato e cosa significa, o sarai immediatamente disturbato.

In questo senso, si riferisce a tutte le distribuzioni. Tuttavia è particolarmente legato alle distribuzioni di somme di cose. La somma delle prove di Bernoulli segue una distribuzione binomiale e, man mano che il numero di prove aumenta, quella distribuzione binomiale diventa più simile alla distribuzione normale. Suo cugino la distribuzione ipergeometrica fa troppo., La distribuzione di Poisson — una forma estrema di binomio-si avvicina anche alla distribuzione normale all’aumentare del parametro di velocità.

Un risultato che segue una distribuzione log-normal assume valori il cui logaritmo è normalmente distribuito. Oppure: l’esponenziazione di un valore normalmente distribuito è log-normalmente distribuito. Se le somme di cose sono normalmente distribuite, ricorda che i prodotti di cose sono log-normalmente distribuiti.

La distribuzione t dello studente è la base del t-test che molti non statistici apprendono in altre scienze., Viene utilizzato nel ragionamento sulla media di una distribuzione normale e si avvicina anche alla distribuzione normale all’aumentare del suo parametro. La caratteristica distintiva della distribuzione t sono le sue code, che sono più grasse della distribuzione normale.

Se l’aneddoto della coda grassa non è abbastanza caldo per stupire il tuo vicino, vai alla sua birra leggermente interessante. Oltre 100 anni fa, Guinness stava usando le statistiche per rendere migliore stout. Lì, William Sealy Gosset ha sviluppato una nuova teoria delle statistiche solo per far crescere meglio l’orzo., Gosset convinse il capo che gli altri birrai non riuscivano a capire come usare le idee, e così ottenne il permesso di pubblicare, ma solo con lo pseudonimo “Student”. Il risultato più noto di Gosset è questa distribuzione t, che prende il suo nome.

Infine, la distribuzione chi-quadrato è la distribuzione della somma dei quadrati di valori normalmente distribuiti. È la distribuzione alla base del test chi-quadrato che si basa sulla somma dei quadrati delle differenze, che dovrebbero essere normalmente distribuiti.,

Gamma e Beta

A questo punto, se stai parlando di chi-quadrato, allora la conversazione è diventata seria. Probabilmente stai parlando con gli statistici reali, e potresti voler scusarti a questo punto, perché potrebbero sorgere cose come la distribuzione gamma. È una generalizzazione di entrambe le distribuzioni esponenziale e chi-quadrato. Più come la distribuzione esponenziale, è usato come un modello sofisticato di tempi di attesa. Ad esempio, la distribuzione gamma viene visualizzata durante la modellazione del tempo fino a quando si verificano i prossimi n eventi., Appare nell’apprendimento automatico come “coniugato prima” di una coppia di distribuzioni.

Non entrare in quella conversazione sui priori coniugati, ma se lo fai, assicurati che stai per parlare della distribuzione beta, perché è il coniugato prima della maggior parte di ogni altra distribuzione menzionata qui. Per quanto riguarda gli scienziati dei dati, è per questo che è stato costruito. Menzionalo casualmente e spostati verso la porta.

L’inizio della saggezza

Le distribuzioni di probabilità sono qualcosa di cui non puoi sapere troppo., I veri interessati dovrebbero controllare questa mappa incredibilmente dettagliata di tutte le distribuzioni univariate. Speriamo che questa guida aneddotica ti dia la sicurezza di apparire informato e con-it nella cultura tecnologica di oggi. O almeno, un modo per rilevare, con alta probabilità, quando si dovrebbe trovare un cocktail party meno nerd.

Avenir

Condominium

Distribuzioni di probabilità comuni: il foglio di calcolo dello scienziato dei dati