Valor esperado

Valor medio de una variable aleatoria

En teoría de la probabilidad , el valor esperado (también llamado expectativa , expectativa , operador de expectativa , expectativa matemática , media , valor esperado o primer momento ) es una generalización del promedio ponderado . De manera informal, el valor esperado es la media de los posibles valores que puede tomar una variable aleatoria , ponderada por la probabilidad de esos resultados. Dado que se obtiene mediante aritmética, a veces el valor esperado ni siquiera puede estar incluido en el conjunto de datos de muestra; no es el valor que "esperaría" obtener en la realidad.

El valor esperado de una variable aleatoria con un número finito de resultados es un promedio ponderado de todos los resultados posibles. En el caso de un continuo de resultados posibles, la expectativa se define mediante la integración . En la base axiomática de la probabilidad proporcionada por la teoría de la medida , la expectativa se da mediante la integración de Lebesgue .

El valor esperado de una variable aleatoria $X$ se denota a menudo por $E(X)$ , $E[X]$ o $E X$ , donde $E$ también suele estilizarse como o $E$ . ^[1]^[2]^[3] $\mathbb {E}$

Historia

La idea del valor esperado se originó a mediados del siglo XVII a partir del estudio del llamado problema de los puntos , que busca dividir las apuestas de manera justa entre dos jugadores, que tienen que terminar su juego antes de que este termine adecuadamente. ^[4] Este problema había sido debatido durante siglos. Muchas propuestas y soluciones conflictivas se habían sugerido a lo largo de los años cuando fue planteado a Blaise Pascal por el escritor francés y matemático aficionado Chevalier de Méré en 1654. Méré afirmó que este problema no podía resolverse y que mostraba cuán defectuosas eran las matemáticas cuando se trataba de su aplicación al mundo real. Pascal, siendo matemático, se sintió provocado y decidido a resolver el problema de una vez por todas.

Comenzó a discutir el problema en la famosa serie de cartas a Pierre de Fermat . Al poco tiempo, ambos encontraron una solución de forma independiente. Resolvieron el problema de diferentes maneras computacionales, pero sus resultados fueron idénticos porque sus cálculos se basaban en el mismo principio fundamental. El principio es que el valor de una ganancia futura debe ser directamente proporcional a la probabilidad de obtenerla. Este principio parecía haber surgido de forma natural para ambos. Estaban muy contentos por el hecho de que habían encontrado esencialmente la misma solución, y esto a su vez los convenció absolutamente de que habían resuelto el problema de manera concluyente; sin embargo, no publicaron sus hallazgos. Solo informaron sobre ello a un pequeño círculo de amigos científicos mutuos en París. ^[5]

En su libro, el matemático holandés Christiaan Huygens analizó el problema de los puntos y presentó una solución basada en el mismo principio que las soluciones de Pascal y Fermat. Huygens publicó su tratado en 1657 (véase Huygens (1657)) " De ratiociniis in ludo aleæ " sobre la teoría de la probabilidad justo después de visitar París. El libro amplió el concepto de expectativa añadiendo reglas sobre cómo calcular las expectativas en situaciones más complicadas que el problema original (por ejemplo, para tres o más jugadores), y puede considerarse el primer intento exitoso de sentar las bases de la teoría de la probabilidad .

En el prólogo de su tratado, Huygens escribió:

Hay que decir también que desde hace algún tiempo algunos de los mejores matemáticos de Francia se han ocupado de esta especie de cálculo, de modo que nadie me atribuya el honor de haberlo inventado primero. Esto no me corresponde. Pero estos sabios, aunque se ponen a prueba unos a otros proponiéndose muchas cuestiones difíciles de resolver, han ocultado sus métodos. He tenido, pues, que examinar y profundizar por mí mismo en esta materia, empezando por los elementos, y me es imposible, por esta razón, afirmar que he partido siquiera del mismo principio. Pero, finalmente, he comprobado que mis respuestas, en muchos casos, no difieren de las suyas.
—Edwards (2002)

A mediados del siglo XIX, Pafnuty Chebyshev se convirtió en la primera persona en pensar sistemáticamente en términos de las expectativas de variables aleatorias . ^[6]

Etimología

Ni Pascal ni Huygens utilizaron el término "expectativa" en su sentido moderno. En particular, Huygens escribe: ^[7]

Que cualquier posibilidad o expectativa de ganar algo vale exactamente la misma suma que se obtendría con la misma posibilidad y expectativa en una apuesta justa. ... Si espero a o b, y tengo la misma posibilidad de ganarlos, mi expectativa vale (a+b)/2.

Más de cien años después, en 1814, Pierre-Simon Laplace publicó su tratado " Théorie analytique des probabilités ", donde se definía explícitamente el concepto de valor esperado: ^[8]

... esta ventaja en la teoría del azar es el producto de la suma esperada por la probabilidad de obtenerla; es la suma parcial que debe resultar cuando no queremos correr los riesgos del evento al suponer que la división se hace proporcional a las probabilidades. Esta división es la única equitativa cuando se eliminan todas las circunstancias extrañas; porque un grado igual de probabilidad da un derecho igual a la suma esperada. Llamaremos a esta ventaja esperanza matemática.

Notaciones

El uso de la letra $E$ para denotar "valor esperado" se remonta a W. A. Whitworth en 1901. ^[9] Desde entonces, el símbolo se ha vuelto popular entre los escritores ingleses. En alemán, $E$ significa Erwartungswert , en español, esperanza matemática , y en francés, espérance mathématique. ^[10]

Cuando se utiliza "E" para denotar "valor esperado", los autores utilizan una variedad de estilizaciones: el operador de expectativa se puede estilizar como $E$ (vertical), $E$ (cursiva) o (en negrita de pizarra ), mientras que se utilizan una variedad de notaciones entre corchetes (como $E($ $X$ $)$ , $E[$ $X$ $]$ y $E$ $X$ ). $\mathbb {E}$

Otra notación popular es $μ X$ . $⟨ X ⟩$ , $⟨ X ⟩ av$ , y se utilizan comúnmente en física. ^[11] $M($ $X$ $)$ se utiliza en la literatura en idioma ruso. ${\overline {X}}$

Definición

Como se ha comentado anteriormente, existen varias formas de definir el valor esperado que dependen del contexto. La definición más simple y original se ocupa del caso de un número finito de resultados posibles, como en el lanzamiento de una moneda. Con la teoría de series infinitas, esto se puede extender al caso de un número contable de resultados posibles. También es muy común considerar el caso específico de las variables aleatorias dictadas por funciones de densidad de probabilidad continuas (por partes) , ya que estas surgen en muchos contextos naturales. Todas estas definiciones específicas pueden considerarse casos especiales de la definición general basada en las herramientas matemáticas de la teoría de la medida y la integración de Lebesgue , que proporcionan a estos diferentes contextos una base axiomática y un lenguaje común.

Cualquier definición de valor esperado puede extenderse para definir un valor esperado de una variable aleatoria multidimensional, es decir, un vector aleatorio $X$ . Se define componente por componente, como $E[X] i = E[X i]$ . De manera similar, se puede definir el valor esperado de una matriz aleatoria $X$ con componentes $X ij$ como $E[X] ij = E[X ij]$ .

Variables aleatorias con un número finito de resultados

Consideremos una variable aleatoria $X$ con una lista finita $x 1, ..., x k$ de resultados posibles, cada uno de los cuales (respectivamente) tiene una probabilidad $p 1, ..., p k$ de ocurrir. La esperanza de $X$ se define como ^[12] $\operatorname {E} [X]=x_{1}p_{1}+x_{2}p_{2}+\cdots +x_{k}p_{k}.$

Dado que las probabilidades deben satisfacer $p 1 + \cdot\cdot\cdot + p k = 1$ , es natural interpretar $E[X]$ como un promedio ponderado de los valores $x i$ , con pesos dados por sus probabilidades $p i$ .

En el caso especial de que todos los resultados posibles sean equiprobables (es decir, $p 1 = \cdot\cdot\cdot = p k$ ), el promedio ponderado viene dado por el promedio estándar . En el caso general, el valor esperado tiene en cuenta el hecho de que algunos resultados son más probables que otros.

Ejemplos

Una ilustración de la convergencia de los promedios de secuencia de tiradas de un dado al valor esperado de 3,5 a medida que aumenta el número de tiradas (ensayos)

Sea , el resultado de una tirada de un dado de seis caras . Más específicamente, será el número de puntos que aparecen en la cara superior del dado después del lanzamiento. Los valores posibles para son 1, 2, 3, 4, 5 y 6, todos los cuales tienen la misma probabilidad con una probabilidad de ⁠ $X$ $X$ $X$ 1/6⁠ . La expectativa de es Si uno lanza los dados veces y calcula el promedio ( media aritmética ) de los resultados, entonces, a medida que crece, el promedio casi seguramente convergerá al valor esperado, un hecho conocido como la ley fuerte de los grandes números . $X$ $\operatorname {E} [X]=1\cdot {\frac {1}{6}}+2\cdot {\frac {1}{6}}+3\cdot {\frac {1}{6}}+4\cdot {\frac {1}{6}}+5\cdot {\frac {1}{6}}+6\cdot {\frac {1}{6}}=3.5.$ $n$ $n$
El juego de la ruleta consiste en una bola pequeña y una rueda con 38 casillas numeradas alrededor del borde. A medida que gira la rueda, la bola rebota aleatoriamente hasta que se asienta en una de las casillas. Supongamos que la variable aleatoria representa el resultado (monetario) de una apuesta de $1 a un solo número (apuesta "directa"). Si la apuesta gana (lo que sucede con probabilidad ⁠ $X$ 1/38⁠ en la ruleta americana), el pago es de $35; de lo contrario, el jugador pierde la apuesta. La ganancia esperada de tal apuesta será Es decir, el valor esperado que se ganará con una apuesta de $1 es − $ $\operatorname {E} [\,{\text{gain from }}\$1{\text{ bet}}\,]=-\$1\cdot {\frac {37}{38}}+\$35\cdot {\frac {1}{38}}=-\${\frac {1}{19}}.$ 1/19⁠ . Por lo tanto, en 190 apuestas, la pérdida neta probablemente será de unos 10$.

Variables aleatorias con un número infinito de resultados contables

De manera informal, la expectativa de una variable aleatoria con un conjunto infinito numerable de resultados posibles se define análogamente como el promedio ponderado de todos los resultados posibles, donde los pesos están dados por las probabilidades de realizar cada valor dado. Esto quiere decir que donde $x$ $1$ $,$ $x$ $2$ $, ...$ son los resultados posibles de la variable aleatoria $X$ y $p$ $1$ $,$ $p$ $2$ $, ...$ son sus probabilidades correspondientes. En muchos libros de texto no matemáticos, esto se presenta como la definición completa de valores esperados en este contexto. ^[13] $\operatorname {E} [X]=\sum _{i=1}^{\infty }x_{i}\,p_{i},$

Sin embargo, la suma infinita tiene algunas sutilezas, por lo que la fórmula anterior no es adecuada como definición matemática. En particular, el teorema de la serie de Riemann del análisis matemático ilustra que el valor de ciertas sumas infinitas que involucran sumandos positivos y negativos depende del orden en el que se dan los sumandos. Dado que los resultados de una variable aleatoria no tienen un orden dado de manera natural, esto crea una dificultad para definir el valor esperado con precisión.

Por esta razón, muchos libros de texto de matemáticas sólo consideran el caso en que la suma infinita dada anteriormente converge absolutamente , lo que implica que la suma infinita es un número finito independiente del orden de los sumandos. ^[14] En el caso alternativo de que la suma infinita no converja absolutamente, se dice que la variable aleatoria no tiene expectativa finita. ^[14]

Ejemplos

Supongamos que y para donde es el factor de escala que hace que las probabilidades sumen 1. Entonces tenemos $x_{i}=i$ $p_{i}={\tfrac {c}{i\cdot 2^{i}}}$ $i=1,2,3,\ldots ,$ $c={\tfrac {1}{\ln 2}}$ $\operatorname {E} [X]\,=\sum _{i}x_{i}p_{i}=1({\tfrac {c}{2}})+2({\tfrac {c}{8}})+3({\tfrac {c}{24}})+\cdots \,=\,{\tfrac {c}{2}}+{\tfrac {c}{4}}+{\tfrac {c}{8}}+\cdots \,=\,c\,=\,{\tfrac {1}{\ln 2}}.$

Variables aleatorias con densidad

Ahora considere una variable aleatoria $X$ que tiene una función de densidad de probabilidad dada por una función $f$ en la línea de números reales . Esto significa que la probabilidad de que $X$ tome un valor en cualquier intervalo abierto dado está dada por la integral de $f$ en ese intervalo. La esperanza de $X$ está dada entonces por la integral ^[15] Una formulación general y matemáticamente precisa de esta definición utiliza la teoría de la medida y la integración de Lebesgue , y la teoría correspondiente de variables aleatorias absolutamente continuas se describe en la siguiente sección. Las funciones de densidad de muchas distribuciones comunes son continuas por partes , y como tal, la teoría a menudo se desarrolla en este entorno restringido. ^[16] Para tales funciones, es suficiente considerar solo la integración estándar de Riemann . A veces, las variables aleatorias continuas se definen como aquellas correspondientes a esta clase especial de densidades, aunque el término se usa de manera diferente por varios autores. $\operatorname {E} [X]=\int _{-\infty }^{\infty }xf(x)\,dx.$

De manera análoga al caso numerable-infinito anterior, esta expresión tiene sutilezas debido a la región infinita de integración. Dichas sutilezas se pueden ver concretamente si la distribución de $X$ está dada por la distribución de Cauchy $Cauchy(0, π)$ , de modo que $f (x) = (x 2 + π 2) -1$ . Es sencillo calcular en este caso que El límite de esta expresión cuando $a$ $\to -\infty$ y $b$ $\to \infty$ no existe: si los límites se toman de modo que $a$ $= -$ $b$ , entonces el límite es cero, mientras que si se toma la restricción $2$ $a$ $= -$ $b$ $, entonces el límite es ln(2)$ . $\int _{a}^{b}xf(x)\,dx=\int _{a}^{b}{\frac {x}{x^{2}+\pi ^{2}}}\,dx={\frac {1}{2}}\ln {\frac {b^{2}+\pi ^{2}}{a^{2}+\pi ^{2}}}.$

Para evitar tales ambigüedades, en los libros de texto de matemáticas es común requerir que la integral dada converja absolutamente , dejando $E[X]$ sin definir en caso contrario. ^[17] Sin embargo, las nociones de teoría de la medida que se dan a continuación se pueden utilizar para dar una definición sistemática de $E[X]$ para variables aleatorias más generales $X$ .

Variables aleatorias arbitrarias de valor real

Todas las definiciones del valor esperado pueden expresarse en el lenguaje de la teoría de la medida . En general, si $X$ es una variable aleatoria de valor real definida en un espacio de probabilidad $(Ω, Σ, P)$ , entonces el valor esperado de $X$ , denotado por $E[X]$ , se define como la integral de Lebesgue ^[18]. A pesar de la situación recientemente abstracta, esta definición es extremadamente similar en naturaleza a la definición más simple de valores esperados, dada anteriormente, como ciertos promedios ponderados. Esto se debe a que, en la teoría de la medida, el valor de la integral de Lebesgue de $X$ se define a través de promedios ponderados de aproximaciones de $X$ que toman un número finito de valores. ^[19] Además, si se da una variable aleatoria con un número finito o contable de valores posibles, la teoría de Lebesgue de la expectativa es idéntica a las fórmulas de suma dadas anteriormente. Sin embargo, la teoría de Lebesgue aclara el alcance de la teoría de las funciones de densidad de probabilidad. Se dice que una variable aleatoria $X$ es absolutamente continua si se cumple alguna de las siguientes condiciones: $\operatorname {E} [X]=\int _{\Omega }X\,d\operatorname {P} .$

Existe una función medible no negativa $f$ en la recta real tal que para cualquier conjunto de Borel $A$ , en el que la integral es Lebesgue. $\operatorname {P} (X\in A)=\int _{A}f(x)\,dx,$
La función de distribución acumulativa de $X$ es absolutamente continua .
Para cualquier conjunto de Borel $A$ de números reales con medida de Lebesgue igual a cero, la probabilidad de que $X$ tenga valor en $A$ también es igual a cero.
para cualquier número positivo $ε$ existe un número positivo $δ$ tal que: si $A$ es un conjunto de Borel con medida de Lebesgue menor que $δ$ , entonces la probabilidad de que $X$ tenga valor en $A$ es menor que $ε$ .

Estas condiciones son todas equivalentes, aunque no es trivial establecerlo. ^[20] En esta definición, $f$ se denomina función de densidad de probabilidad de $X$ (relativa a la medida de Lebesgue). Según la fórmula de cambio de variables para la integración de Lebesgue, ^[21] combinada con la ley del estadístico inconsciente , ^[22] se deduce que para cualquier variable aleatoria absolutamente continua $X$ . La discusión anterior de las variables aleatorias continuas es, por lo tanto, un caso especial de la teoría general de Lebesgue, debido al hecho de que toda función continua por partes es medible. $\operatorname {E} [X]\equiv \int _{\Omega }X\,d\operatorname {P} =\int _{\mathbb {R} }xf(x)\,dx$

El valor esperado de cualquier variable aleatoria de valor real también se puede definir en el gráfico de su función de distribución acumulativa mediante una igualdad cercana de áreas. De hecho, con un número real si y solo si las dos superficies en el plano - , descritas por respectivamente, tienen la misma área finita, es decir, si y ambas integrales impropias de Riemann convergen. Finalmente, esto es equivalente a la representación $X$ $F$ $\operatorname {E} [X]=\mu$ $\mu$ $x$ $y$ $x\leq \mu ,\;\,0\leq y\leq F(x)\quad {\text{or}}\quad x\geq \mu ,\;\,F(x)\leq y\leq 1$ $\int _{-\infty }^{\mu }F(x)\,dx=\int _{\mu }^{\infty }{\big (}1-F(x){\big )}\,dx$ $\operatorname {E} [X]=\int _{0}^{\infty }{\bigl (}1-F(x){\bigr )}\,dx-\int _{-\infty }^{0}F(x)\,dx,$ También con integrales convergentes. ^[23]

Valores esperados infinitos

Los valores esperados como se definieron anteriormente son automáticamente números finitos. Sin embargo, en muchos casos es fundamental poder considerar valores esperados de $\pm\infty$ . Esto es intuitivo, por ejemplo, en el caso de la paradoja de San Petersburgo , en la que se considera una variable aleatoria con resultados posibles $x i = 2 i$ , con probabilidades asociadas $p i = 2 - i$ , para $i$ que abarcan todos los números enteros positivos. Según la fórmula de suma en el caso de variables aleatorias con un número contable de resultados, se tiene Es natural decir que el valor esperado es igual a $+\infty$ . $\operatorname {E} [X]=\sum _{i=1}^{\infty }x_{i}\,p_{i}=2\cdot {\frac {1}{2}}+4\cdot {\frac {1}{4}}+8\cdot {\frac {1}{8}}+16\cdot {\frac {1}{16}}+\cdots =1+1+1+1+\cdots .$

Existe una rigurosa teoría matemática subyacente a tales ideas, que a menudo se toma como parte de la definición de la integral de Lebesgue. ^[19] La primera observación fundamental es que, cualquiera de las definiciones anteriores que se sigan, a cualquier variable aleatoria no negativa se le puede dar un valor esperado inequívoco; siempre que la convergencia absoluta falle, entonces el valor esperado se puede definir como $+\infty$ . La segunda observación fundamental es que cualquier variable aleatoria se puede escribir como la diferencia de dos variables aleatorias no negativas. Dada una variable aleatoria $X$ , se definen las partes positiva y negativa por $X + = max(X, 0)$ y $X - = -min(X, 0)$ . Estas son variables aleatorias no negativas, y se puede verificar directamente que $X = X + - X -$ . Dado que $E[X +]$ y $E[X -]$ se definen entonces como números no negativos o $+\infty$ , es natural definir: $\operatorname {E} [X]={\begin{cases}\operatorname {E} [X^{+}]-\operatorname {E} [X^{-}]&{\text{if }}\operatorname {E} [X^{+}]<\infty {\text{ and }}\operatorname {E} [X^{-}]<\infty ;\\+\infty &{\text{if }}\operatorname {E} [X^{+}]=\infty {\text{ and }}\operatorname {E} [X^{-}]<\infty ;\\-\infty &{\text{if }}\operatorname {E} [X^{+}]<\infty {\text{ and }}\operatorname {E} [X^{-}]=\infty ;\\{\text{undefined}}&{\text{if }}\operatorname {E} [X^{+}]=\infty {\text{ and }}\operatorname {E} [X^{-}]=\infty .\end{cases}}$

Según esta definición, $E[X]$ existe y es finito si y solo si $E[X +]$ y $E[X -]$ son ambos finitos. Debido a la fórmula $| X | = X + + X -$ , este es el caso si y solo si $E| X |$ es finito, y esto es equivalente a las condiciones de convergencia absoluta en las definiciones anteriores. Como tal, las presentes consideraciones no definen valores esperados finitos en ningún caso no considerado previamente; solo son útiles para expectativas infinitas.

En el caso de la paradoja de San Petersburgo, se tiene $X - = 0$ y por lo tanto $E[X] = +\infty$ como se deseaba.
Supóngase que la variable aleatoria $X$ toma valores $1, -2,3, -4, ...$ con probabilidades respectivas $6π -2, 6(2π) -2, 6(3π) -2, 6(4π) -2, ...$ . Entonces se deduce que $X +$ toma valor $2 k -1$ con probabilidad $6((2 k -1)π) -2$ para cada entero positivo $k$ , y toma valor $0$ con probabilidad restante. De manera similar, $X -$ toma valor $2 k$ con probabilidad $6(2 k π) -2$ para cada entero positivo $k$ y toma valor $0$ con probabilidad restante. Usando la definición para variables aleatorias no negativas, uno puede mostrar que tanto $E[X +] = \infty$ como $E[X -] = \infty$ (ver Series armónicas ). Por lo tanto, en este caso la expectativa de $X$ no está definida.
De manera similar, la distribución de Cauchy, como se discutió anteriormente, tiene una expectativa indefinida.

Valores esperados de distribuciones comunes

La siguiente tabla muestra los valores esperados de algunas distribuciones de probabilidad que se dan con frecuencia . La tercera columna muestra los valores esperados tanto en la forma que se da inmediatamente en la definición como en la forma simplificada que se obtiene mediante el cálculo a partir de ella. Los detalles de estos cálculos, que no siempre son sencillos, se pueden encontrar en las referencias indicadas.

Distribución	Notación	Media E(X)
Bernoulli ^[24]	$X\sim ~b(1,p)$	$0\cdot (1-p)+1\cdot p=p$
Binomio ^[25]	$X\sim B(n,p)$	$\sum _{i=0}^{n}i{n \choose i}p^{i}(1-p)^{n-i}=np$
Pescado ^[26]	$X\sim \mathrm {Po} (\lambda )$	$\sum _{i=0}^{\infty }{\frac {ie^{-\lambda }\lambda ^{i}}{i!}}=\lambda$
Geométrico ^[27]	$X\sim \mathrm {Geometric} (p)$	$\sum _{i=1}^{\infty }ip(1-p)^{i-1}={\frac {1}{p}}$
Uniforme ^[28]	$X\sim U(a,b)$	$\int _{a}^{b}{\frac {x}{b-a}}\,dx={\frac {a+b}{2}}$
Exponencial ^[29]	$X\sim \exp(\lambda )$	$\int _{0}^{\infty }\lambda xe^{-\lambda x}\,dx={\frac {1}{\lambda }}$
Normal ^[30]	$X\sim N(\mu ,\sigma ^{2})$	${\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\int _{-\infty }^{\infty }x\,e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}\,dx=\mu$
Normal estándar ^[31]	$X\sim N(0,1)$	${\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }xe^{-x^{2}/2}\,dx=0$
Pareto ^[32]	$X\sim \mathrm {Par} (\alpha ,k)$	$\int _{k}^{\infty }\alpha k^{\alpha }x^{-\alpha }\,dx={\begin{cases}{\frac {\alpha k}{\alpha -1}}&{\text{if }}\alpha >1\\\infty &{\text{if }}0<\alpha \leq 1\end{cases}}$
Cauchy ^[33]	$X\sim \mathrm {Cauchy} (x_{0},\gamma )$	${\frac {1}{\pi }}\int _{-\infty }^{\infty }{\frac {\gamma x}{(x-x_{0})^{2}+\gamma ^{2}}}\,dx$ no está definido

Propiedades

Las propiedades básicas que se muestran a continuación (y sus nombres en negrita) replican o se derivan inmediatamente de las de la integral de Lebesgue . Nótese que las letras "como" significan " casi con seguridad ", una propiedad central de la integral de Lebesgue. Básicamente, se dice que una desigualdad como es cierta casi con seguridad, cuando la medida de probabilidad atribuye masa cero al evento complementario. $X\geq 0$ $\left\{X<0\right\}.$

No negatividad: Si (como), entonces $X\geq 0$ $\operatorname {E} [X]\geq 0.$
Linealidad de la expectativa:^[34] El operador de valor esperado (u operador de expectativa )es lineal en el sentido de que, para cualquier variable aleatoriayy una constantesiempre que el lado derecho esté bien definido. Por inducción , esto significa que el valor esperado de la suma de cualquier número finito de variables aleatorias es la suma de los valores esperados de las variables aleatorias individuales, y el valor esperado escala linealmente con una constante multiplicativa. Simbólicamente, paravariables aleatoriasy constantestenemosSi pensamos en el conjunto de variables aleatorias con valor esperado finito como formando un espacio vectorial, entonces la linealidad de la expectativa implica que el valor esperado es una forma lineal en este espacio vectorial. $\operatorname {E} [\cdot ]$ $X$ $Y,$ $a,$ ${\begin{aligned}\operatorname {E} [X+Y]&=\operatorname {E} [X]+\operatorname {E} [Y],\\\operatorname {E} [aX]&=a\operatorname {E} [X],\end{aligned}}$ $N$ $X_{i}$ $a_{i}(1\leq i\leq N),$ ${\textstyle \operatorname {E} \left[\sum _{i=1}^{N}a_{i}X_{i}\right]=\sum _{i=1}^{N}a_{i}\operatorname {E} [X_{i}].}$
Monotonía: Si (como) , y ambos y existen, entonces $X\leq Y$ $\operatorname {E} [X]$ $\operatorname {E} [Y]$ $\operatorname {E} [X]\leq \operatorname {E} [Y].$
La prueba se deduce de la linealidad y la propiedad de no negatividad para ya que (como). $Z=Y-X,$ $Z\geq 0$
No degeneración: Si entonces (como). $\operatorname {E} [|X|]=0,$ $X=0$
Si (como) , entonces En otras palabras, si X e Y son variables aleatorias que toman valores diferentes con probabilidad cero, entonces la expectativa de X será igual a la expectativa de Y. $X=Y$ $\operatorname {E} [X]=\operatorname {E} [Y].$
Si (como) para algún número real $c$ , entonces En particular, para una variable aleatoria con esperanza bien definida, Una esperanza bien definida implica que hay un número, o más bien, una constante que define el valor esperado. Por lo tanto, se deduce que la esperanza de esta constante es simplemente el valor esperado original. $X=c$ $\operatorname {E} [X]=c.$ $X$ $\operatorname {E} [\operatorname {E} [X]]=\operatorname {E} [X].$
Como consecuencia de la fórmula $| X | = X + + X -$ como se discutió anteriormente, junto con la desigualdad triangular , se deduce que para cualquier variable aleatoria con una expectativa bien definida, se tiene $X$ $|\operatorname {E} [X]|\leq \operatorname {E} |X|.$
Sea $1 A$ la función indicadora de un evento $A$ , entonces $E[1 A]$ viene dado por la probabilidad de $A$ . Esto no es más que una forma diferente de expresar la expectativa de una variable aleatoria de Bernoulli , como se calcula en la tabla anterior.
Fórmulas en términos de CDF: Si es la función de distribución acumulativa de una variable aleatoria $X$ , entonces donde los valores en ambos lados están bien definidos o no bien definidos simultáneamente, y la integral se toma en el sentido de Lebesgue-Stieltjes . Como consecuencia de la integración por partes tal como se aplica a esta representación de $E[$ $X$ $]$ , se puede demostrar que con las integrales tomadas en el sentido de Lebesgue. ^[35] Como caso especial, para cualquier variable aleatoria $X$ valorada en los enteros no negativos ${0, 1, 2, 3, ...}$ , se tiene donde $P$ denota la medida de probabilidad subyacente. $F(x)$ $\operatorname {E} [X]=\int _{-\infty }^{\infty }x\,dF(x),$ $\operatorname {E} [X]=\int _{0}^{\infty }(1-F(x))\,dx-\int _{-\infty }^{0}F(x)\,dx,$ $\operatorname {E} [X]=\sum _{n=0}^{\infty }\Pr(X>n),$
No multiplicatividad: En general, el valor esperado no es multiplicativo, es decir, no es necesariamente igual a Si y son independientes , entonces se puede demostrar que Si las variables aleatorias son dependientes , entonces generalmente, aunque en casos especiales de dependencia, la igualdad puede cumplirse. $\operatorname {E} [XY]$ $\operatorname {E} [X]\cdot \operatorname {E} [Y].$ $X$ $Y$ $\operatorname {E} [XY]=\operatorname {E} [X]\operatorname {E} [Y].$ $\operatorname {E} [XY]\neq \operatorname {E} [X]\operatorname {E} [Y],$
Ley del estadístico inconsciente : El valor esperado de una función medible de dado que tiene una función de densidad de probabilidad está dado por el producto interno de y : ^[34] Esta fórmula también se cumple en el caso multidimensional, cuando es una función de varias variables aleatorias, y es su densidad conjunta . ^[34]^[36] $X,$ $g(X),$ $X$ $f(x),$ $f$ $g$ $\operatorname {E} [g(X)]=\int _{\mathbb {R} }g(x)f(x)\,dx.$ $g$ $f$

Desigualdades

Las desigualdades de concentración controlan la probabilidad de que una variable aleatoria adopte valores grandes. La desigualdad de Markov es una de las más conocidas y sencillas de demostrar: para una variable aleatoria no negativa $X$ y cualquier número positivo $a$ , establece que ^[37] $\operatorname {P} (X\geq a)\leq {\frac {\operatorname {E} [X]}{a}}.$

Si $X$ es cualquier variable aleatoria con expectativa finita, entonces la desigualdad de Markov puede aplicarse a la variable aleatoria $| X -E[X]| 2$ para obtener la desigualdad de Chebyshev donde $Var$ es la varianza . ^[37] Estas desigualdades son significativas por su casi total falta de supuestos condicionales. Por ejemplo, para cualquier variable aleatoria con expectativa finita, la desigualdad de Chebyshev implica que hay al menos un 75% de probabilidad de que un resultado esté dentro de dos desviaciones estándar del valor esperado. Sin embargo, en casos especiales las desigualdades de Markov y Chebyshev a menudo dan información mucho más débil que la que está disponible de otra manera. Por ejemplo, en el caso de un dado no ponderado, la desigualdad de Chebyshev dice que las probabilidades de obtener un número entre 1 y 6 son al menos del 53%; en realidad, las probabilidades son, por supuesto, del 100%. ^[38] La desigualdad de Kolmogorov extiende la desigualdad de Chebyshev al contexto de sumas de variables aleatorias. ^[39] $\operatorname {P} (|X-{\text{E}}[X]|\geq a)\leq {\frac {\operatorname {Var} [X]}{a^{2}}},$

Las siguientes tres desigualdades son de importancia fundamental en el campo del análisis matemático y sus aplicaciones a la teoría de la probabilidad.

Desigualdad de Jensen : Sea $f : R \to R$ una función convexa y $X$ una variable aleatoria con esperanza finita. Entonces ^[40] Parte de la afirmación es que la parte negativa de $f$ $($ $X$ $)$ tiene esperanza finita, de modo que el lado derecho está bien definido (posiblemente infinito). La convexidad de $f$ se puede expresar como que la salida del promedio ponderado de dos entradas subestima el mismo promedio ponderado de las dos salidas; la desigualdad de Jensen extiende esto al contexto de promedios ponderados completamente generales, como se representa por la esperanza. En el caso especial de que $f$ $($ $x$ $) = |$ $x$ $|$ $t$ $/$ $s$ para números positivos $s$ $<$ $t$ , se obtiene la desigualdad de Lyapunov ^[41] Esto también se puede demostrar mediante la desigualdad de Hölder. ^[40] En la teoría de la medida, esto es particularmente notable para demostrar la inclusión $L$ $s$ $\subset L$ $t$ de $L$ $p$ $espacios$ , en el caso especial de espacios de probabilidad . $f(\operatorname {E} (X))\leq \operatorname {E} (f(X)).$ $\left(\operatorname {E} |X|^{s}\right)^{1/s}\leq \left(\operatorname {E} |X|^{t}\right)^{1/t}.$
Desigualdad de Hölder : si $p > 1$ y $q > 1$ son números que satisfacen $p -1 + q -1 = 1$ , entonces para cualesquiera variables aleatorias $X$ e $Y$ . ^[40] El caso especial de $p$ $=$ $q$ $= 2$ se llama desigualdad de Cauchy-Schwarz , y es particularmente conocido. ^[40] $\operatorname {E} |XY|\leq (\operatorname {E} |X|^{p})^{1/p}(\operatorname {E} |Y|^{q})^{1/q}.$
Desigualdad de Minkowski : dado cualquier número $p \geq 1$ , para cualesquiera variables aleatorias $X$ e $Y$ con $E| X | p$ y $E| Y | p$ ambas finitas, se deduce que $E| X + Y | p$ también es finito y ^[42] ${\Bigl (}\operatorname {E} |X+Y|^{p}{\Bigr )}^{1/p}\leq {\Bigl (}\operatorname {E} |X|^{p}{\Bigr )}^{1/p}+{\Bigl (}\operatorname {E} |Y|^{p}{\Bigr )}^{1/p}.$

Las desigualdades de Hölder y Minkowski se pueden extender a espacios de medida generales y suelen darse en ese contexto. Por el contrario, la desigualdad de Jensen es específica del caso de los espacios de probabilidad.

Expectativas bajo convergencia de variables aleatorias

En general, no es el caso de que, incluso si es puntual, no se pueden intercambiar límites y expectativas sin condiciones adicionales sobre las variables aleatorias. Para ver esto, sea una variable aleatoria distribuida uniformemente en Para definir una secuencia de variables aleatorias con siendo la función indicadora del evento Entonces, se sigue que es puntual. Pero, para cada Por lo tanto, $\operatorname {E} [X_{n}]\to \operatorname {E} [X]$ $X_{n}\to X$ $U$ $[0,1].$ $n\geq 1,$ $X_{n}=n\cdot \mathbf {1} \left\{U\in \left(0,{\tfrac {1}{n}}\right)\right\},$ $\mathbf {1} \{A\}$ $A.$ $X_{n}\to 0$ $\operatorname {E} [X_{n}]=n\cdot \Pr \left(U\in \left[0,{\tfrac {1}{n}}\right]\right)=n\cdot {\tfrac {1}{n}}=1$ $n.$ $\lim _{n\to \infty }\operatorname {E} [X_{n}]=1\neq 0=\operatorname {E} \left[\lim _{n\to \infty }X_{n}\right].$

De manera análoga, para una secuencia general de variables aleatorias, el operador de valor esperado no es -aditivo, es decir $\{Y_{n}:n\geq 0\},$ $\sigma$ $\operatorname {E} \left[\sum _{n=0}^{\infty }Y_{n}\right]\neq \sum _{n=0}^{\infty }\operatorname {E} [Y_{n}].$

Se obtiene fácilmente un ejemplo estableciendo y para donde es como en el ejemplo anterior. $Y_{0}=X_{1}$ $Y_{n}=X_{n+1}-X_{n}$ $n\geq 1,$ $X_{n}$

Una serie de resultados de convergencia especifican condiciones exactas que permiten intercambiar límites y expectativas, como se especifica a continuación.

Teorema de convergencia monótona : Sea una secuencia de variables aleatorias, con (as) para cada una Además, sea puntual. Entonces, el teorema de convergencia monótona establece que $\{X_{n}:n\geq 0\}$ $0\leq X_{n}\leq X_{n+1}$ $n\geq 0.$ $X_{n}\to X$ $\lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [X].$
Utilizando el teorema de convergencia monótona, se puede demostrar que la expectativa satisface efectivamente la aditividad contable para variables aleatorias no negativas. En particular, sean variables aleatorias no negativas. Del teorema de convergencia monótona se deduce que $\{X_{i}\}_{i=0}^{\infty }$ $\operatorname {E} \left[\sum _{i=0}^{\infty }X_{i}\right]=\sum _{i=0}^{\infty }\operatorname {E} [X_{i}].$
Lema de Fatou : Sea una secuencia de variables aleatorias no negativas. El lema de Fatou establece que $\{X_{n}\geq 0:n\geq 0\}$ $\operatorname {E} [\liminf _{n}X_{n}]\leq \liminf _{n}\operatorname {E} [X_{n}].$
Corolario. Sea con para todo Si (como), entonces $X_{n}\geq 0$ $\operatorname {E} [X_{n}]\leq C$ $n\geq 0.$ $X_{n}\to X$ $\operatorname {E} [X]\leq C.$
La prueba se obtiene observando que (como) y aplicando el lema de Fatou. ${\textstyle X=\liminf _{n}X_{n}}$
Teorema de convergencia dominada : Sea una secuencia de variables aleatorias. Si puntualmente (as), (as), y Entonces, según el teorema de convergencia dominada, $\{X_{n}:n\geq 0\}$ $X_{n}\to X$ $|X_{n}|\leq Y\leq +\infty$ $\operatorname {E} [Y]<\infty .$
- $\operatorname {E} |X|\leq \operatorname {E} [Y]<\infty$ ;
- $\lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [X]$
- $\lim _{n}\operatorname {E} |X_{n}-X|=0.$
Integrabilidad uniforme : en algunos casos, la igualdad se cumple cuando la secuencia es uniformemente integrable. $\lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [\lim _{n}X_{n}]$ $\{X_{n}\}$

Relación con la función característica

La función de densidad de probabilidad de una variable aleatoria escalar está relacionada con su función característica mediante la fórmula de inversión: $f_{X}$ $X$ $\varphi _{X}$ $f_{X}(x)={\frac {1}{2\pi }}\int _{\mathbb {R} }e^{-itx}\varphi _{X}(t)\,dt.$

Para el valor esperado de (donde es una función de Borel ), podemos usar esta fórmula de inversión para obtener $g(X)$ $g:{\mathbb {R} }\to {\mathbb {R} }$ $\operatorname {E} [g(X)]={\frac {1}{2\pi }}\int _{\mathbb {R} }g(x)\left[\int _{\mathbb {R} }e^{-itx}\varphi _{X}(t)\,dt\right]dx.$

Si es finito, cambiando el orden de integración, obtenemos, de acuerdo con el teorema de Fubini-Tonelli , donde es la transformada de Fourier de La expresión para también se sigue directamente del teorema de Plancherel . $\operatorname {E} [g(X)]$ $\operatorname {E} [g(X)]={\frac {1}{2\pi }}\int _{\mathbb {R} }G(t)\varphi _{X}(t)\,dt,$ $G(t)=\int _{\mathbb {R} }g(x)e^{-itx}\,dx$ $g(x).$ $\operatorname {E} [g(X)]$

Usos y aplicaciones

La expectativa de una variable aleatoria juega un papel importante en una variedad de contextos.

En estadística , cuando se buscan estimaciones para parámetros desconocidos en función de los datos disponibles obtenidos de muestras , la media de la muestra sirve como estimación de la expectativa y es en sí misma una variable aleatoria. En tales contextos, se considera que la media de la muestra cumple el criterio deseable para que un estimador "bueno" sea imparcial ; es decir, el valor esperado de la estimación es igual al valor verdadero del parámetro subyacente.

Por poner un ejemplo diferente, en la teoría de decisiones , a menudo se supone que un agente que toma una decisión óptima en el contexto de información incompleta maximiza el valor esperado de su función de utilidad .

Es posible construir un valor esperado igual a la probabilidad de un evento tomando la esperanza de una función indicadora que es uno si el evento ha ocurrido y cero en caso contrario. Esta relación se puede utilizar para traducir propiedades de valores esperados en propiedades de probabilidades, por ejemplo, utilizando la ley de los grandes números para justificar la estimación de probabilidades por frecuencias .

Los valores esperados de las potencias de X se denominan momentos de X ; los momentos respecto a la media de X son valores esperados de potencias de $X - E[X]$ . Los momentos de algunas variables aleatorias se pueden utilizar para especificar sus distribuciones, a través de sus funciones generadoras de momentos .

Para estimar empíricamente el valor esperado de una variable aleatoria, se miden repetidamente las observaciones de la variable y se calcula la media aritmética de los resultados. Si el valor esperado existe, este procedimiento estima el valor esperado real de manera imparcial y tiene la propiedad de minimizar la suma de los cuadrados de los residuos (la suma de las diferencias al cuadrado entre las observaciones y la estimación). La ley de los grandes números demuestra (en condiciones bastante moderadas) que, a medida que aumenta el tamaño de la muestra, la varianza de esta estimación se hace menor.

Esta propiedad se explota a menudo en una amplia variedad de aplicaciones, incluidos problemas generales de estimación estadística y aprendizaje automático , para estimar cantidades (probabilísticas) de interés a través de métodos de Monte Carlo , ya que la mayoría de las cantidades de interés se pueden escribir en términos de expectativa, por ejemplo, donde es la función indicadora del conjunto. $\operatorname {P} ({X\in {\mathcal {A}}})=\operatorname {E} [{\mathbf {1} }_{\mathcal {A}}],$ ${\mathbf {1} }_{\mathcal {A}}$ ${\mathcal {A}}.$

En mecánica clásica , el centro de masas es un concepto análogo a la expectativa. Por ejemplo, supongamos que X es una variable aleatoria discreta con valores x _i y probabilidades correspondientes p _i . Ahora consideremos una varilla sin peso sobre la que se colocan pesas, en posiciones x _i a lo largo de la varilla y que tienen masas p _i (cuya suma es uno). El punto en el que la varilla se equilibra es E[ X ].

Los valores esperados también se pueden utilizar para calcular la varianza, mediante la fórmula de cálculo de la varianza. $\operatorname {Var} (X)=\operatorname {E} [X^{2}]-(\operatorname {E} [X])^{2}.$

Una aplicación muy importante del valor esperado se encuentra en el campo de la mecánica cuántica . El valor esperado de un operador mecánico cuántico que opera sobre un vector de estado cuántico se escribe como La incertidumbre en se puede calcular mediante la fórmula . ${\hat {A}}$ $|\psi \rangle$ $\langle {\hat {A}}\rangle =\langle \psi |{\hat {A}}|\psi \rangle .$ ${\hat {A}}$ $(\Delta A)^{2}=\langle {\hat {A}}^{2}\rangle -\langle {\hat {A}}\rangle ^{2}$

Véase también

Tendencia central
Expectativa condicional
Expectativa (epistémica)
Expectile : relacionado con las expectativas de una manera análoga a aquella en la que los cuantiles están relacionados con las medianas.
Ley de la expectativa total : el valor esperado del valor esperado condicional de X dado Y es el mismo que el valor esperado de X
Mediana – indicada en el dibujo de arriba $m$
Expectativa no lineal : una generalización del valor esperado
Media poblacional
Valor previsto
Ecuación de Wald : ecuación para calcular el valor esperado de un número aleatorio de variables aleatorias

Referencias

^ "Expectativa | Media | Promedio". www.probabilitycourse.com . Consultado el 11 de septiembre de 2020 .
^ Hansen, Bruce. "PROBABILIDAD Y ESTADÍSTICA PARA ECONOMISTAS" (PDF) . Archivado desde el original (PDF) el 2022-01-19 . Consultado el 2021-07-20 .
^ Wasserman, Larry (diciembre de 2010). Toda la estadística: un curso conciso de inferencia estadística . Textos de Springer sobre estadística. pág. 47. ISBN 9781441923226.
^ Historia de la probabilidad y la estadística y sus aplicaciones antes de 1750. Serie Wiley sobre probabilidad y estadística. 1990. doi :10.1002/0471725161. ISBN 9780471725169.
^ Ore, Oystein (1960). "Ore, Pascal y la invención de la teoría de la probabilidad". The American Mathematical Monthly . 67 (5): 409–419. doi :10.2307/2309286. JSTOR 2309286.
^ George Mackey (julio de 1980). "EL ANÁLISIS ARMÓNICO COMO EXPLOTACIÓN DE LA SIMETRÍA - UN ESTUDIO HISTÓRICO". Boletín de la American Mathematical Society . Nueva serie. 3 (1): 549.
^ Huygens, Christian. "El valor de las probabilidades en los juegos de fortuna. Traducción al inglés" (PDF) .
^ Laplace, Pierre Simon, marqués de, 1749-1827. (1952) [1951]. Un ensayo filosófico sobre probabilidades . Publicaciones de Dover. OCLC 475539.{{cite book}}: CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
^ Whitworth, WA (1901) Elección y azar con mil ejercicios. Quinta edición. Deighton Bell, Cambridge. [Reimpreso por Hafner Publishing Co., Nueva York, 1959.]
^ "Primeros usos de símbolos en probabilidad y estadística".
^ Feller 1968, pág. 221.
^ Billingsley 1995, pág. 76.
^ Ross 2019, Sección 2.4.1.
^ desde Feller 1968, Sección IX.2.
^ Papoulis y Pillai 2002, sección 5-3; Ross 2019, Sección 2.4.2.
^ Feller 1971, Sección I.2.
^ Feller 1971, pág. 5.
^ Billingsley 1995, pág. 273.
^ ab Billingsley 1995, Sección 15.
^ Billingsley 1995, Teoremas 31.7 y 31.8 y p. 422.
^ Billingsley 1995, Teorema 16.13.
^ Billingsley 1995, Teorema 16.11.
^ Uhl, Roland (2023). Charakterisierung des Erwartungswertes am Graphen der Verteilungsfunktion [ Caracterización del valor esperado en la gráfica de la función de distribución acumulativa ] (PDF) . Technische Hochschule Brandeburgo. doi : 10.25933/opus4-2986 .págs. 2–4.
^ Casella y Berger 2001, pág. 89; Ross 2019, Ejemplo 2.16.
^ Casella y Berger 2001, Ejemplo 2.2.3; Ross 2019, Ejemplo 2.17.
^ Billingsley 1995, Ejemplo 21.4; Casella y Berger 2001, pág. 92; Ross 2019, Ejemplo 2.19.
^ Casella y Berger 2001, pág. 97; Ross 2019, Ejemplo 2.18.
^ Casella y Berger 2001, pág. 99; Ross 2019, Ejemplo 2.20.
^ Billingsley 1995, Ejemplo 21.3; Casella y Berger 2001, Ejemplo 2.2.2; Ross 2019, Ejemplo 2.21.
^ Casella y Berger 2001, pág. 103; Ross 2019, Ejemplo 2.22.
^ Billingsley 1995, Ejemplo 21.1; Casella y Berger 2001, pág. 103.
^ Johnson, Kotz y Balakrishnan 1994, Capítulo 20.
^ Feller 1971, Sección II.4.
^ abc Weisstein, Eric W. "Valor esperado". mathworld.wolfram.com . Consultado el 11 de septiembre de 2020 .
^ Feller 1971, Sección V.6.
^ Papoulis y Pillai 2002, sección 6-4.
^ ab Feller 1968, Sección IX.6; Feller 1971, Sección V.7; Papoulis y Pillai 2002, Sección 5-4; Ross 2019, Sección 2.8.
^ Feller 1968, Sección IX.6.
^ Feller 1968, Sección IX.7.
^ abcd Feller 1971, Sección V.8.
^ Billingsley 1995, págs. 81, 277.
^ Billingsley 1995, Sección 19.

Bibliografía

Edwards, AWF (2002). El triángulo aritmético de Pascal: la historia de una idea matemática (2.ª ed.). JHU Press. ISBN 0-8018-6946-3.
Huygens, Christiaan (1657). De ratiociniis in ludo aleæ (traducción al inglés, publicada en 1714) .
Billingsley, Patrick (1995). Probabilidad y medida . Serie Wiley sobre probabilidad y estadística matemática (tercera edición de la edición original de 1979). Nueva York: John Wiley & Sons, Inc. ISBN 0-471-00710-2.Señor 1324786 .
Casella, George ; Berger, Roger L. (2001). Inferencia estadística . Duxbury Advanced Series (segunda edición de la edición original de 1990). Pacific Grove, CA: Duxbury. ISBN 0-534-11958-1.
Feller, William (1968). Introducción a la teoría de la probabilidad y sus aplicaciones. Volumen I (tercera edición de la edición original de 1950). Nueva York–Londres–Sydney: John Wiley & Sons, Inc. MR 0228020.
Feller, William (1971). Introducción a la teoría de la probabilidad y sus aplicaciones. Volumen II (segunda edición de la edición original de 1966). Nueva York–Londres–Sydney: John Wiley & Sons, Inc. MR 0270403.
Johnson, Norman L. ; Kotz, Samuel ; Balakrishnan, N. (1994). Distribuciones univariadas continuas. Volumen 1. Wiley Series in Probability and Mathematical Statistics (Segunda edición de la edición original de 1970). Nueva York: John Wiley & Sons, Inc. ISBN 0-471-58495-9.Señor 1299979 .
Papoulis, Athanasios ; Pillai, S. Unnikrishna (2002). Probabilidad, variables aleatorias y procesos estocásticos (cuarta edición de la edición original de 1965). Nueva York: McGraw-Hill. ISBN 0-07-366011-6. (Fe de erratas: [1])
Ross, Sheldon M. (2019). Introducción a los modelos de probabilidad (Duodécima edición de la edición original de 1972). Londres: Academic Press. doi :10.1016/C2017-0-01324-1. ISBN 978-0-12-814346-9.Señor 3931305 .

[1] "Expectativa | Media | Promedio". www.probabilitycourse.com . Consultado el 11 de septiembre de 2020 .

[2] Hansen, Bruce. "PROBABILIDAD Y ESTADÍSTICA PARA ECONOMISTAS" (PDF) . Archivado desde el original (PDF) el 2022-01-19 . Consultado el 2021-07-20 .

[3] Wasserman, Larry (diciembre de 2010). Toda la estadística: un curso conciso de inferencia estadística . Textos de Springer sobre estadística. pág. 47. ISBN 9781441923226.

[4] Historia de la probabilidad y la estadística y sus aplicaciones antes de 1750. Serie Wiley sobre probabilidad y estadística. 1990. doi :10.1002/0471725161. ISBN 9780471725169.

[5] Ore, Oystein (1960). "Ore, Pascal y la invención de la teoría de la probabilidad". The American Mathematical Monthly . 67 (5): 409–419. doi :10.2307/2309286. JSTOR 2309286.

[6] George Mackey (julio de 1980). "EL ANÁLISIS ARMÓNICO COMO EXPLOTACIÓN DE LA SIMETRÍA - UN ESTUDIO HISTÓRICO". Boletín de la American Mathematical Society . Nueva serie. 3 (1): 549.

[7] Huygens, Christian. "El valor de las probabilidades en los juegos de fortuna. Traducción al inglés" (PDF) .

[8] Laplace, Pierre Simon, marqués de, 1749-1827. (1952) [1951]. Un ensayo filosófico sobre probabilidades . Publicaciones de Dover. OCLC 475539.{{cite book}}: CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)

[9] Whitworth, WA (1901) Elección y azar con mil ejercicios. Quinta edición. Deighton Bell, Cambridge. [Reimpreso por Hafner Publishing Co., Nueva York, 1959.]

[10] "Primeros usos de símbolos en probabilidad y estadística".

[FOOTNOTEFeller1968221-11] Feller 1968, pág. 221.

[FOOTNOTEBillingsley199576-12] Billingsley 1995, pág. 76.

[FOOTNOTERoss2019Section_2.4.1-13] Ross 2019, Sección 2.4.1.

[FOOTNOTEFeller1968Section_IX.2-14] sde Feller 1968, Sección IX.2.

[FOOTNOTEPapoulisPillai2002Section_5-3Ross2019Section_2.4.2-15] Papoulis y Pillai 2002, sección 5-3; Ross 2019, Sección 2.4.2.

[FOOTNOTEFeller1971Section_I.2-16] Feller 1971, Sección I.2.

[FOOTNOTEFeller19715-17] Feller 1971, pág. 5.

[FOOTNOTEBillingsley1995273-18] Billingsley 1995, pág. 273.

[FOOTNOTEBillingsley1995Section_15-19] Billingsley 1995, Sección 15.

[FOOTNOTEBillingsley1995Theorems_31.7_and_31.8_and_p._422-20] Billingsley 1995, Teoremas 31.7 y 31.8 y p. 422.

[FOOTNOTEBillingsley1995Theorem_16.13-21] Billingsley 1995, Teorema 16.13.

[FOOTNOTEBillingsley1995Theorem_16.11-22] Billingsley 1995, Teorema 16.11.

[23] Uhl, Roland (2023). Charakterisierung des Erwartungswertes am Graphen der Verteilungsfunktion [ Caracterización del valor esperado en la gráfica de la función de distribución acumulativa ] (PDF) . Technische Hochschule Brandeburgo. doi : 10.25933/opus4-2986 .págs. 2–4.

[FOOTNOTECasellaBerger200189Ross2019Example_2.16-24] Casella y Berger 2001, pág. 89; Ross 2019, Ejemplo 2.16.

[FOOTNOTECasellaBerger2001Example_2.2.3Ross2019Example_2.17-25] Casella y Berger 2001, Ejemplo 2.2.3; Ross 2019, Ejemplo 2.17.

[FOOTNOTEBillingsley1995Example_21.4CasellaBerger200192Ross2019Example_2.19-26] Billingsley 1995, Ejemplo 21.4; Casella y Berger 2001, pág. 92; Ross 2019, Ejemplo 2.19.

[FOOTNOTECasellaBerger200197Ross2019Example_2.18-27] Casella y Berger 2001, pág. 97; Ross 2019, Ejemplo 2.18.

[FOOTNOTECasellaBerger200199Ross2019Example_2.20-28] Casella y Berger 2001, pág. 99; Ross 2019, Ejemplo 2.20.

[FOOTNOTEBillingsley1995Example_21.3CasellaBerger2001Example_2.2.2Ross2019Example_2.21-29] Billingsley 1995, Ejemplo 21.3; Casella y Berger 2001, Ejemplo 2.2.2; Ross 2019, Ejemplo 2.21.

[FOOTNOTECasellaBerger2001103Ross2019Example_2.22-30] Casella y Berger 2001, pág. 103; Ross 2019, Ejemplo 2.22.

[FOOTNOTEBillingsley1995Example_21.1CasellaBerger2001103-31] Billingsley 1995, Ejemplo 21.1; Casella y Berger 2001, pág. 103.

[FOOTNOTEJohnsonKotzBalakrishnan1994Chapter_20-32] Johnson, Kotz y Balakrishnan 1994, Capítulo 20.

[FOOTNOTEFeller1971Section_II.4-33] Feller 1971, Sección II.4.

[:1-34] Weisstein, Eric W. "Valor esperado". mathworld.wolfram.com . Consultado el 11 de septiembre de 2020 .

[FOOTNOTEFeller1971Section_V.6-35] Feller 1971, Sección V.6.

[FOOTNOTEPapoulisPillai2002Section_6-4-36] Papoulis y Pillai 2002, sección 6-4.

[FOOTNOTEFeller1968Section_IX.6Feller1971Section_V.7PapoulisPillai2002Section_5-4Ross2019Section_2.8-37] Feller 1968, Sección IX.6; Feller 1971, Sección V.7; Papoulis y Pillai 2002, Sección 5-4; Ross 2019, Sección 2.8.

[FOOTNOTEFeller1968Section_IX.6-38] Feller 1968, Sección IX.6.

[FOOTNOTEFeller1968Section_IX.7-39] Feller 1968, Sección IX.7.

[FOOTNOTEFeller1971Section_V.8-40] Feller 1971, Sección V.8.

[FOOTNOTEBillingsley199581,_277-41] Billingsley 1995, págs. 81, 277.

[FOOTNOTEBillingsley1995Section_19-42] Billingsley 1995, Sección 19.