distribuciones de probabilidad comunes: la hoja de cuna del científico de datos

reimpresa de https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Los científicos de datos tienen cientos de distribuciones de probabilidad entre las que elegir. Por dónde empezar?

La Ciencia de datos, sea lo que sea, sigue siendo un gran problema. «Un científico de datos es mejor en estadísticas que cualquier ingeniero de software», puede escuchar a un experto decir, en sus reuniones de tecnología locales y hackathons. Los matemáticos aplicados tienen su venganza, porque las estadísticas no se han hablado tanto desde los años 20., Tienen su propio diagrama de Venn legitimador del cual la gente no se burla. De repente eres tú, el ingeniero, dejado fuera de la charla sobre los intervalos de confianza en lugar de tutear a los analistas que nunca han oído hablar del proyecto Apache Bikeshed para el formato de comentarios distribuidos. Para encajar, para ser la vida y el alma de esa fiesta de nuevo, necesitas un curso intensivo de estadísticas. No lo suficiente para hacerlo bien, pero lo suficiente para sonar como si pudieras, haciendo observaciones básicas.

Las distribuciones de probabilidad son fundamentales para las estadísticas, al igual que las estructuras de datos lo son para la informática., Son el lugar para empezar a estudiar si quieres hablar como un científico de datos. A veces puede salirse con la suya con un análisis simple usando r o scikit-learn sin comprender las distribuciones, al igual que puede administrar un programa Java sin comprender las funciones hash. Pero pronto terminaría en lágrimas, errores, resultados falsos o peor: suspiros y vueltas de ojos de las carreras de estadísticas.

hay cientos de distribuciones de probabilidad, algunas suenan como monstruos de leyendas medievales como el Muth o Lomax. Sin embargo, solo unas 15 distribuciones aparecen consistentemente en la práctica., ¿Qué son y qué ideas inteligentes sobre cada uno de ellos debe memorizar?

Las cosas pasan todo el tiempo: se tiran los dados, llueve, llegan los autobuses. Después del hecho, los resultados específicos son ciertos: los dados subieron 3 y 4, hubo media pulgada de Lluvia hoy, el autobús tardó 3 minutos en llegar. Antes, solo podemos hablar de cuán probables son los resultados. Las distribuciones de probabilidad describen lo que creemos que es la probabilidad de cada resultado, que a veces es más interesante saber que simplemente qué resultado es más probable., Vienen en muchas formas, pero en un solo tamaño: las probabilidades en una distribución siempre suman 1.

por ejemplo, voltear una moneda justa tiene dos resultados: cae cara o cruz. (Supongamos que no puede aterrizar en el borde o ser robado por una gaviota en el aire.) Antes de la vuelta, creemos que hay una probabilidad de 1 en 2, o probabilidad de 0.5, de cara. Lo mismo es cierto para tails. Esa es una distribución de probabilidad sobre los dos resultados del flip, y si puedes seguir esa oración, ya has dominado la distribución de Bernoulli.,

a pesar de los nombres exóticos, las distribuciones comunes se relacionan entre sí de maneras intuitivas e interesantes que las hacen fáciles de recordar, y remarcan con un aire de autoridad. Varios siguen naturalmente de la distribución de Bernoulli, por ejemplo. Es hora de revelar un mapa de las relaciones.,

Común de las distribuciones de probabilidad y algunas relaciones de clave

Cada distribución se ilustra con un ejemplo de su función de densidad de probabilidad (PDF). Este post trata solo con distribuciones de resultados que son números individuales. Por lo tanto, el eje horizontal en cada caja es el conjunto de posibles resultados numéricos. El eje vertical describe la probabilidad de resultados., Algunas distribuciones son discretas, sobre los resultados que deben ser enteros como 0 o 5. Estas aparecen como líneas dispersas, una para cada resultado, donde la altura de la línea es la probabilidad de ese resultado. Algunos son continuos, para resultados que pueden tomar cualquier valor numérico real como -1.32 o 0.005. Estos aparecen como curvas densas, donde son las áreas bajo secciones de la curva las que dan probabilidades. Las sumas de las alturas de las líneas, y las áreas bajo las curvas, son siempre 1.

imprima, corte a lo largo de la línea de puntos y llévelo con usted en su billetera o bolso., Esta es su guía de campo para detectar distribuciones y sus familiares.

Bernoulli y uniforme

usted encontró la distribución de Bernoulli arriba, sobre dos resultados discretos-colas o cabezas. Piense en ello, sin embargo, como una distribución sobre 0 y 1, sobre 0 cabezas (es decir, colas) o 1 cabezas. Arriba, ambos resultados fueron igualmente probables, y eso es lo que se ilustra en el diagrama. El PDF de Bernoulli tiene dos líneas de igual altura, representando los dos resultados igualmente probables de 0 y 1 en cada extremo.,

la distribución de Bernoulli podría representar resultados que no son igualmente probables, como el resultado de un lanzamiento de moneda injusto. Entonces, la probabilidad de cabezas no es 0.5, pero algún otro valor p, y la probabilidad de colas es 1-p. como muchas distribuciones, es realmente una familia de distribuciones definidas por parámetros, como P aquí. Cuando piensas «Bernoulli», solo piensa » (posiblemente injusto) lanzar una moneda.»

es un salto corto imaginar una distribución sobre muchos resultados igualmente probables: la distribución uniforme, caracterizada por su PDF plano. Imagina hacer rodar un dado justo., Los resultados 1 a 6 son igualmente probables. Se puede definir para cualquier número de resultados n o incluso como una distribución continua.

asocie la distribución uniforme con » rolling a fair die.»

Binomio e Hipergeométrico

la distribución binomial puede ser pensada como la suma de resultados de cosas que siguen una distribución de Bernoulli. Lanza una moneda justa 20 veces; ¿cuántas veces sale cara? Este recuento es un resultado que sigue la distribución binomial. Sus parámetros son n, El número de ensayos, y p, la probabilidad de un» éxito » (aquí: cabezas, o 1)., Cada flip es un resultado distribuido por Bernoulli,o ensayo. Busque la distribución binomial al contar el número de éxitos en cosas que actúan como un lanzamiento de moneda, donde cada lanzamiento es independiente y tiene la misma probabilidad de éxito.

o, imagine una urna con el mismo número de bolas blancas y negras. Cierra los ojos y dibuja una bola y observa si es negra, luego ponla de nuevo. Repetir. ¿Cuántas veces dibujaste una bola negra? Este recuento también sigue una distribución binomial.,

imaginar esta extraña situación tiene un punto, porque hace que sea sencillo explicar la distribución hipergeométrica. Esta es la distribución de ese mismo Conteo si las bolas se sacaron sin reemplazo en su lugar. Innegablemente es un primo de la distribución binomial, pero no lo mismo, porque la probabilidad de éxito cambia a medida que se eliminan las bolas. Si el número de bolas es grande en relación con el número de proyectos, las distribuciones son similares porque la probabilidad de éxito cambia menos con cada proyecto.,

Cuando la gente habla de recoger bolas de urnas sin reemplazo, casi siempre es Seguro interrumpir, «la distribución hipergeométrica, sí», porque nunca he conocido a nadie que realmente llenara urnas con bolas y luego las escogiera y las reemplazara o de otra manera, en la vida real. (Ni siquiera conozco a nadie que tenga una urna.) En términos más GENERALES, Debe venir a la mente cuando se selecciona un subconjunto significativo de una población como muestra.

Poisson

¿Qué pasa con el número de clientes que llaman a una línea directa de soporte cada minuto?, Ese es un resultado cuya distribución suena binomial, si piensas en cada segundo como una prueba de Bernoulli en la que un cliente no llama (0) o llama (1). Sin embargo, como sabe la compañía de energía, cuando se apaga la energía, 2 o incluso cientos de personas pueden llamar en el mismo segundo. Verlo como pruebas de tamaño de 60,000 milisegundos todavía no resuelve el problema: muchas más pruebas, una probabilidad mucho menor de 1 llamada, y mucho menos 2 o más, pero aún no es técnicamente una prueba de Bernoulli. Sin embargo, llevar esto a su infinita conclusión lógica funciona., Deje que n vaya al infinito y deje que p vaya a 0 para que coincida para que np permanezca igual. Esto es como dirigirse hacia infinitamente muchas rebanadas de tiempo infinitesimalmente pequeñas en las que la probabilidad de una llamada es infinitesimal. El resultado limitante es la distribución de Poisson.

al igual que la distribución binomial, la distribución de Poisson es la distribución de un Conteo — el conteo de veces que algo sucedió. Está parametrizado no por una probabilidad p y número de ensayos n sino por una tasa promedio λ, que en esta analogía es simplemente el valor constante de np., La distribución de Poisson es lo que debe pensar cuando se trata de contar eventos en un tiempo dado el ritmo continuo de eventos que ocurren.

Cuando cosas como los paquetes llegan a los enrutadores, o los clientes llegan a una tienda, o las cosas esperan en algún tipo de cola, piense «Poisson.»

Binomio geométrico y negativo

de los ensayos simples de Bernoulli surge otra distribución. ¿Cuántas veces una moneda lanzada sale cruz antes de que salga cara? Este Conteo de colas sigue una distribución geométrica., Al igual que la distribución de Bernoulli, es parametrizado por p, la probabilidad de que el éxito final. No está parametrizado por n, un número de ensayos o volteos, porque el número de ensayos de fracaso es el resultado en sí.

si la distribución binomial es » ¿cuántos éxitos?»entonces la distribución geométrica es» ¿cuántos fracasos hasta un éxito?»

la distribución binomial negativa es una simple generalización. Es el número de fracasos hasta que r éxitos han ocurrido, no solo 1. Por lo tanto es parametrizado también por r. A veces se describe como el número de éxitos hasta fracasos R., Como dice mi entrenador de vida, el éxito y el fracaso son lo que los define como, por lo que estos son equivalentes, siempre y cuando se mantenga recto si p es la probabilidad de éxito o fracaso.

si necesita un rompehielos, puede señalar que las distribuciones binomiales e hipergeométricas son un par obvio, pero las distribuciones binomiales geométricas y negativas también son bastante similares, y luego decir: «quiero decir, ¿quién nombra estas cosas, tengo razón?»

Exponential y Weibull

volver a las llamadas de atención al cliente: ¿cuánto falta para que el siguiente cliente llame?, La distribución de este tiempo de espera suena como que podría ser geométrico, porque cada segundo que nadie llama es como un fracaso, hasta un segundo en el que finalmente un cliente llama. El número de fallos es como el número de segundos que nadie llamó, y eso es casi el tiempo de espera hasta la siguiente llamada, pero casi no está lo suficientemente cerca. La trampa esta vez es que la suma siempre será en segundos enteros, pero esto no tiene en cuenta la espera dentro de ese segundo hasta que el cliente finalmente llamó.,

como antes, lleve la distribución geométrica al límite, hacia rebanadas de tiempo infinitesimales, y funciona. Obtienes la distribución exponencial, que describe con precisión la distribución del tiempo hasta una llamada. Es una distribución continua, la primera encontrada aquí, porque el tiempo de resultado no necesita ser segundos enteros. Al igual que la distribución de Poisson, se parametriza por una tasa λ.

haciéndose eco de la relación binomial-geométrica, » How many events per time?»relates to the exponential «How long until an event?,»Dados los eventos cuyo Conteo por tiempo sigue una distribución de Poisson, entonces el tiempo entre eventos sigue una distribución exponencial con el mismo parámetro de Velocidad λ. Esta correspondencia entre las dos distribuciones es esencial para la comprobación de nombres al discutir cualquiera de ellas.

la distribución exponencial debe venir a la mente cuando se piensa en «tiempo hasta el evento», tal vez » tiempo hasta el fracaso.»De hecho, esto es tan importante que existen distribuciones más generales para describir el tiempo hasta el fracaso, como la distribución de Weibull., Mientras que la distribución exponencial es apropiada cuando la tasa de desgaste, o falla, por ejemplo, es constante, la distribución de Weibull puede modelar tasas de falla crecientes (o decrecientes) con el tiempo. El exponencial es simplemente un caso especial.

piensa en «Weibull» cuando el chat se convierte en time-to-failure.

Normal, Log-Normal, T de Student y Chi-cuadrado

la distribución normal, o distribución gaussiana, es quizás la más importante de todas. Su forma de campana es reconocible al instante., Al igual que e, es una entidad curiosamente particular que aparece por todas partes, de fuentes aparentemente simples. Tome un montón de valores que siguen la misma distribución — cualquier distribución-y sume. La distribución de su suma sigue (aproximadamente) la distribución normal. Cuantas más cosas se sumen, más la distribución de su suma coincide con la distribución normal. (Advertencias: debe ser una distribución de buen comportamiento, debe ser independiente, solo tiende a la distribución normal.) El hecho de que esto es cierto independientemente de la distribución subyacente es sorprendente.,

esto se llama el teorema del límite central, y debes saber que esto es lo que se llama y lo que significa, o serás interrumpido inmediatamente.

En este sentido, se refiere a todas las distribuciones. Sin embargo, está particularmente relacionado con las distribuciones de sumas de cosas. La suma de los ensayos de Bernoulli sigue una distribución binomial, y a medida que aumenta el número de ensayos, esa distribución binomial se asemeja más a la distribución normal. Su primo la distribución hipergeométrica también lo hace., La distribución de Poisson — una forma extrema de Binomio-también se acerca a la distribución normal a medida que aumenta el parámetro de velocidad.

un resultado que sigue una distribución log-normal toma valores cuyo logaritmo se distribuye normalmente. O: la exponenciación de un valor normalmente distribuido es log-normalmente distribuido. Si las sumas de las cosas se distribuyen normalmente, entonces recuerde que los productos de las cosas son log-normalmente distribuidos.

La distribución T de Student es la base de la prueba t que muchos no estadísticos aprenden en otras ciencias., Se utiliza en el razonamiento sobre la media de una distribución normal, y también se acerca a la distribución normal como su parámetro aumenta. La característica distintiva de la distribución t son sus colas, que son más gordas que las de la distribución normal.

si la anécdota de la cola gorda no es lo suficientemente caliente como para sorprender a su vecino, vaya a su historia secundaria ligeramente interesante sobre la cerveza. Hace más de 100 años, Guinness estaba usando estadísticas para hacer mejor stout. Allí, William Sealy Gosset desarrolló una nueva teoría de estadísticas para cultivar mejor cebada., Gosset convenció al jefe de que los otros cerveceros no podían encontrar la manera de usar las ideas, por lo que obtuvo permiso para publicar, pero solo bajo el seudónimo de «estudiante». El resultado más conocido de Gosset es esta distribución t, que lleva su nombre.

finalmente, la distribución chi-cuadrado es la distribución de la suma de cuadrados de valores normalmente distribuidos. Es la distribución que sustenta la prueba de chi-cuadrado que se basa en la suma de cuadrados de diferencias, que se supone que se distribuyen normalmente.,

Gamma y Beta

en este punto, si estás hablando de chi-cuadrado cualquier cosa, entonces la conversación se ha vuelto seria. Es probable que esté hablando con estadísticos reales, y es posible que desee excusarse en este punto, porque cosas como la distribución gamma pueden surgir. Es una generalización de las distribuciones exponencial y chi-cuadrado. Más como la distribución exponencial, se utiliza como un modelo sofisticado de tiempos de espera. Por ejemplo, la distribución gamma aparece cuando se modela el tiempo hasta que ocurran los siguientes N eventos., Aparece en el aprendizaje automático como el «conjugar antes» de un par de distribuciones.

no entres en esa conversación sobre los antecedentes conjugados, pero si lo haces, asegúrate de que estás a punto de hablar sobre la distribución beta, porque es el conjugado anterior a la mayoría de las otras distribuciones mencionadas aquí. En lo que respecta a los científicos de datos, para eso fue construido. Mencione esto casualmente, y muévase hacia la puerta.

el comienzo de la sabiduría

las distribuciones de probabilidad son algo de lo que no puedes saber demasiado., Los verdaderamente interesados deben echar un vistazo a este mapa increíblemente detallado de todas las distribuciones univariadas. Con suerte, esta guía anecdótica le da la confianza para parecer conocedor y con-it en la cultura tecnológica de hoy. O al menos, una forma de detectar, con alta probabilidad, cuándo deberías encontrar un cóctel menos Nerd.

Avenir

Condominium

distribuciones de probabilidad comunes: la hoja de cuna del científico de datos