Common Probability Distributions: the Data Scientist's Presb Sheet

Reprinted from https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Data scientists have hundreds of probability distributions from which to choose. Por onde começar?a Ciência dos dados, seja lá o que for, continua a ser importante. “Um cientista de dados é melhor em Estatística do que qualquer engenheiro de software”, você pode ouvir um pundit dizer, em suas reuniões de tecnologia local e hackathons. Os matemáticos aplicados têm a sua vingança, porque as Estatísticas não são tão faladas desde os anos 20., Têm o seu próprio diagrama de Venn legitimador, do qual as pessoas não gozam. De repente é você, o engenheiro, deixado de fora da conversa sobre intervalos de confiança em vez de esticá-lo nos analistas que nunca ouviram falar do projeto Apache Bikeshed para formatação de comentários distribuídos. Para nos integrarmos, para sermos a vida e a alma daquela festa outra vez, precisamos de um curso intensivo de estatísticas. Não o suficiente para acertar, mas o suficiente para soar como você poderia, fazendo observações básicas.as distribuições de probabilidade são fundamentais para as Estatísticas, assim como as estruturas de dados são para a Ciência da computação., Eles são o lugar para começar a estudar se você quiser falar como um cientista de dados. Você pode às vezes escapar com uma análise simples usando R ou scikit-learn sem compreender bem as distribuições, assim como você pode gerenciar um programa Java sem entender as funções de hash. Mas em breve terminaria em lágrimas, insectos, resultados falsos,ou pior: Suspiros e lamúrias de estatísticas.

existem centenas de distribuições de probabilidade, algumas soando como monstros de lendas medievais como o Muth ou Lomax. No entanto, apenas cerca de 15 distribuições aparecem consistentemente na prática., O que são eles, e que insights inteligentes sobre cada um deles você deve memorizar?

coisas acontecem o tempo todo: os dados são rolados, chove, ônibus chegam. Depois do fato, os resultados específicos são certos: os dados surgiram 3 e 4, houve meia polegada de chuva hoje, o ônibus levou 3 minutos para chegar. Antes, só podemos falar de como os resultados são prováveis. Distribuições de probabilidade descrevem o que pensamos que a probabilidade de cada resultado é, o que às vezes é mais interessante de saber do que simplesmente qual resultado único é mais provável., Eles vêm em muitas formas, mas em apenas um tamanho: probabilidades em uma distribuição sempre somam até 1.por exemplo, lançar uma moeda tem dois resultados: aterra cara ou Coroa. (Suponha que não pode aterrar na borda ou ser roubado por uma gaivota no ar.) Antes da virada, acreditamos que há uma chance de 1 em 2, ou 0.5 probabilidade, de caras. O mesmo se aplica às caudas. Isso é uma distribuição de probabilidade sobre os dois resultados do flip, e se você pode seguir essa frase, você já dominou a distribuição Bernoulli.,

apesar dos nomes exóticos, as distribuições comuns relacionam-se umas com as outras de formas intuitivas e interessantes que as tornam fáceis de recordar, e comentam com um ar de autoridade. Vários seguem naturalmente a partir da distribuição Bernoulli, por exemplo. Está na hora de revelar um mapa das relações.,

Comum distribuições de probabilidade e algumas relações de chave

Cada distribuição é ilustrado através de um exemplo de sua função de densidade de probabilidade (PDF). Este post trata apenas de distribuições de resultados que são números únicos. Assim, o eixo horizontal em cada caixa é o conjunto de possíveis resultados numéricos. O eixo vertical descreve a probabilidade de resultados., Algumas distribuições são discretas, sobre resultados que devem ser inteiros como 0 ou 5. Estas aparecem como linhas esparsas, uma para cada resultado, onde a altura da linha é a probabilidade desse resultado. Alguns são contínuos, para resultados que podem assumir qualquer valor numérico real como -1.32 ou 0.005. Estas aparecem como curvas densas, onde são áreas sob seções da curva que dão probabilidades. As somas das alturas das linhas, e as áreas sob as curvas, são sempre 1.imprimir, cortar ao longo da linha pontilhada e levá-la consigo na sua carteira ou bolsa., Este é o seu guia de campo para detectar distribuições e seus parentes.

Bernoulli and Uniform

you met the Bernoulli distribution above, over two discrete outcomes-tails or heads. Pense nisso, no entanto, como uma distribuição por 0 e 1, por 0 cabeças (ou seja, caudas) ou 1 cabeças. Acima, ambos os resultados eram igualmente prováveis, e isso é o que é ilustrado no diagrama. O PDF de Bernoulli tem duas linhas de altura igual, representando os dois resultados igualmente prováveis de 0 e 1 em cada extremidade.,

a distribuição de Bernoulli pode representar resultados que não são igualmente prováveis, como o resultado de uma moeda ao ar livre injusta. Então, a probabilidade de cabeças não é 0.5, mas algum outro valor p, e a probabilidade de caudas é 1-p. Como muitas distribuições, é na verdade uma família de distribuições definidas por parâmetros, como p Aqui. Quando você pensa “Bernoulli”, apenas pense ” (possivelmente injusto) moeda ao ar.”

é um curto salto para imaginar uma distribuição sobre muitos resultados igualmente prováveis: a distribuição uniforme, caracterizada por seu PDF plano. Imagina uma morte justa., Os resultados 1 a 6 são igualmente prováveis. Pode ser definida para qualquer número de resultados N ou mesmo como uma distribuição contínua.

associar a distribuição uniforme com “rolar um furo.”

Binomial and Hypergeometric

the binomial distribution may be thought of the sum of outcomes of things that follow a Bernoulli distribution. Atira uma moeda justa 20 vezes; quantas vezes é que aparece cara a cara? Esta contagem é um resultado que segue a distribuição binomial. Seus parâmetros são n, o número de ensaios, e p, a probabilidade de um “sucesso” (aqui: cabeças, ou 1)., Cada flip é um resultado distribuído por Bernoulli, ou julgamento. Alcançar a distribuição binomial ao contar o número de sucessos em coisas que agem como uma moeda ao ar livre, onde cada flip é independente e tem a mesma probabilidade de sucesso.

ou, imagine uma urna com números iguais de bolas brancas e pretas. Feche os olhos e desenhe uma bola e note se é preta, em seguida, colocá-la de volta. Repetir. Quantas vezes desenhaste uma bola preta? Esta Contagem também segue uma distribuição binomial.,imaginar esta situação estranha tem um ponto, porque torna simples explicar a distribuição hipergeométrica. Esta é a distribuição dessa mesma contagem se as bolas foram desenhadas sem substituição em vez disso. Inegavelmente é um primo da distribuição binomial, mas não o mesmo, porque a probabilidade de sucesso muda à medida que as bolas são removidas. Se o número de bolas é grande em relação ao número de empates, as distribuições são semelhantes porque a chance de sucesso muda menos com cada empate.,

Quando as pessoas falam sobre a escolha de bolas de urnas sem substituição, é quase sempre mais seguro para interpor, “o hypergeometric de distribuição, sim,” porque eu nunca conheci ninguém que realmente cheio de urnas com bolas e, em seguida, pegou-os para fora, e a substituí-las ou não, na vida real. (Nem sequer conheço ninguém que tenha uma urna.) Mais amplamente, ele deve vir à mente ao escolher um subconjunto significativo de uma população como uma amostra.

Poisson

e a contagem de clientes chamando uma linha de apoio a cada minuto?, Esse é um resultado cuja distribuição soa binomial, se você pensar em cada segundo como um teste Bernoulli no qual um cliente não liga (0) ou faz (1). No entanto, como a companhia de energia sabe, quando a energia falha, 2 ou mesmo centenas de pessoas podem ligar no mesmo segundo. Vendo-o como 60.000 testes de tamanho de milissegundo ainda não consegue contornar o problema-muitos mais testes, probabilidade muito menor de 1 chamada, muito menos 2 ou mais, mas, ainda tecnicamente, não é um teste de Bernoulli. No entanto, levar isto para a sua infinita e lógica conclusão funciona., Deixe n ir para o infinito e deixe p ir para 0 para combinar de modo que np permanece o mesmo. Isto é como dirigir-se para infinitamente muitas fatias infinitesimalmente pequenas em que a probabilidade de uma chamada é infinitesimal. O resultado limitante é a distribuição de Poisson.como a distribuição binomial, a distribuição de Poisson é a distribuição de uma contagem — a contagem de vezes que algo aconteceu. É parametrizado não por uma probabilidade P e número de ensaios n, mas por uma taxa média λ, Que nesta analogia é simplesmente o valor constante de np., A distribuição de Poisson é o que você deve pensar ao tentar contar eventos ao longo de um tempo dada a taxa contínua de eventos que ocorrem.

Quando coisas como pacotes chegam em roteadores, ou os clientes chegam em uma loja, ou as coisas esperam em algum tipo de fila, pense “Poisson.”

Binomial geométrico e negativo

de simples ensaios de Bernoulli surge outra distribuição. Quantas vezes é que uma moeda ao ar sai Coroa antes de sair cara? Este número de caudas segue uma distribuição geométrica., Como a distribuição de Bernoulli, é parametrizada por p, a probabilidade desse sucesso final. Não é parametrizado por n, uma série de tentativas ou voltas, porque o número de tentativas de falha é o resultado em si.se a distribuição binomial é ” quantos sucessos?”então a distribuição geométrica é” quantas falhas até um sucesso?”

a distribuição binomial negativa é uma generalização simples. É o número de fracassos até que os sucessos r tenham ocorrido, não apenas 1. É, portanto, parametrizado também por R. às vezes é descrito como o número de sucessos até os fracassos R., Como diz O meu treinador de vida, sucesso e fracasso são o que você define como sendo, então estes são equivalentes, desde que você se mantenha direito se P é a probabilidade de sucesso ou fracasso.

Se você precisa de um quebra-gelo, você pode apontar que as distribuições binomiais e hipergeométricas são um par óbvio, mas as distribuições binomiais geométricas e negativas também são muito semelhantes, e então dizer, “quero dizer, quem nomeia essas coisas, estou certo?”

exponencial e Weibull

back to customer support calls: how long until the next customer calls?, A distribuição deste tempo de espera parece ser geométrica, porque a cada segundo que ninguém chama é como um fracasso, até um segundo em que finalmente um cliente chama. O número de falhas é como o número de segundos que ninguém ligou, e esse é quase o tempo de espera até a próxima chamada, mas quase não está perto o suficiente. A captura desta vez é que a soma será sempre em segundos inteiros, mas isso não contabiliza a espera dentro desse segundo até que o cliente finalmente ligou.,

Como antes, levar a distribuição geométrica ao limite, em direção a fatias infinitesimais de tempo, e ele funciona. Você obtém a distribuição exponencial, que descreve com precisão a distribuição do tempo até uma chamada. É uma distribuição contínua, a primeira encontrada aqui, porque o tempo do resultado não precisa ser de segundos inteiros. Como a distribuição de Poisson, é parametrizada por uma taxa λ.”How many events per time?”relaciona-se com o exponencial “Quanto tempo até um evento?,”Dados eventos cuja contagem por tempo segue uma distribuição de Poisson, então o tempo entre eventos segue uma distribuição exponencial com o mesmo parâmetro de taxa λ. Esta correspondência entre as duas distribuições é essencial para verificar o nome ao discutir qualquer uma delas.

a distribuição exponencial deve vir à mente quando se pensa em “tempo até o evento”, talvez “tempo até o fracasso.”Na verdade, isso é tão importante que distribuições mais gerais existem para descrever o tempo-a-falha, como a distribuição Weibull., Considerando que a distribuição exponencial é apropriada quando a taxa de desgaste, ou falha, por exemplo, é constante, a distribuição Weibull pode modelar aumentando (ou diminuindo) as taxas de falha ao longo do tempo. O exponencial é apenas um caso especial.

pense em “Weibull” quando o chat se transforma em time-to-failure.

Normal, Log-Normal, student’s t, and Chi-squared

a distribuição normal, ou distribuição gaussiana, é talvez a mais importante de todas. Sua forma de sino é instantaneamente reconhecível., Como o e, é uma entidade curiosamente particular que aparece por todo o lado, de fontes aparentemente simples. Pegue um monte de valores seguindo a mesma distribuição — qualquer distribuição — e somá-los. A distribuição da sua soma segue (aproximadamente) a distribuição normal. Quanto mais coisas são somadas, mais a distribuição de sua soma corresponde à distribuição normal. (Ressalvas: deve ser uma distribuição bem comportada, deve ser independente, só tende para a distribuição normal.) O fato de que isso é verdade independentemente da distribuição subjacente é incrível.,

isto é chamado de teorema do limite central, e você deve saber que isto é o que ele é chamado e o que ele significa, ou você será imediatamente interpelado.

neste sentido, relaciona-se com todas as distribuições. No entanto, está particularmente relacionado com a distribuição de somas de coisas. A soma dos ensaios de Bernoulli segue uma distribuição binomial, e à medida que o número de ensaios aumenta, essa distribuição binomial torna-se mais como a distribuição normal. A sua prima, a distribuição hipergeométrica, também., A distribuição de Poisson — uma forma extrema de binomial-também se aproxima da distribuição normal à medida que o parâmetro da taxa aumenta.

um resultado que segue uma distribuição log-normal toma valores cujo logaritmo é normalmente distribuído. Or: the exponentiation of a normally-distributed value is log-normally distributed. Se as somas das coisas são normalmente distribuídas, então lembre-se que os produtos das coisas são log-normalmente distribuídos.

a distribuição-t do estudante é a base do teste-t que muitos não-estaticistas aprendem em outras ciências., É usado no raciocínio sobre a média de uma distribuição normal, e também aborda a distribuição normal à medida que seu parâmetro aumenta. A característica distintiva da distribuição-t são suas caudas, que são mais gordas do que a distribuição normal.

Se a anedota de cauda-gorda não é uma tomada quente o suficiente para impressionar o seu vizinho, vá para o seu meio-interessante back-storycerning cerveja. Há mais de 100 anos, o Guinness estava a usar estatísticas para melhorar a posição. Lá, William Sealy Gosset desenvolveu uma nova teoria de estatísticas só para cultivar cevada melhor., Gosset convenceu o chefe de que os outros cervejeiros não conseguiam descobrir como usar as ideias, e assim obteve permissão para publicar, mas apenas sob o pseudônimo “estudante”. O resultado mais conhecido de Gosset é esta t-distribution, que tem o nome dele.

finalmente, a distribuição chi-ao quadrado é a distribuição da soma dos quadrados dos valores normalmente distribuídos. É a distribuição subjacente ao teste chi-quadrado que se baseia na soma dos quadrados das diferenças, que supostamente são normalmente distribuídos.,

Gama e Beta

neste ponto, se você está falando sobre chi-quadrado qualquer coisa, então a conversa tornou-se séria. Provavelmente está a falar com estatísticos reais, e talvez queira desculpar-se neste momento, porque coisas como a distribuição Gama podem surgir. É uma generalização tanto das distribuições exponencial quanto chi-quadrado. Mais como a distribuição exponencial, é usado como um modelo sofisticado de tempos de espera. Por exemplo, a distribuição gama aparece ao modelar o tempo até que os próximos n eventos ocorram., Ele aparece na aprendizagem de máquinas como o “conjugado antes” de algumas distribuições.

não entre nessa conversa sobre priores conjugados, mas se entrar, certifique-se de que está prestes a falar sobre a distribuição beta, porque é o conjugado antes da maioria das outras distribuições mencionadas aqui. No que diz respeito aos cientistas de dados, foi para isso que foi construído. Mencione isso casualmente, e mova-se em direção à porta.

o início da sabedoria

distribuições de probabilidade são algo que você não pode saber muito sobre., O verdadeiramente interessado deve verificar este mapa incrivelmente detalhado de todas as distribuições univariadas. Esperançosamente, este guia anedótico dá-Lhe a confiança para parecer conhecedor e com-ele na cultura de tecnologia de hoje. Ou, pelo menos, uma maneira de detectar, com alta probabilidade, quando você deve encontrar um cocktail menos Nerd.

Avenir

Condominium

Common Probability Distributions: the Data Scientist’s Presb Sheet