Tipo de análisis estadístico cuantitativo en el que se analizan exactamente dos variables, con el fin de determinar la relación empírica entre ellas. Análisis multivariante de contraste .
En el diseño experimental, la disposición de unidades experimentales en grupos ("bloques") que son similares entre sí. El bloqueo se utiliza a menudo para gestionar el problema de la pseudorreplicación.
Estudio estadístico cuyo objetivo es medir el efecto de alguna variable sobre el resultado de otra variable. Por ejemplo, un estudio causal podría plantear la pregunta: "¿Cómo me dolerá la cabeza si tomo aspirina, en comparación con si no la tomo?". Los estudios causales pueden ser experimentales u observacionales. [1]
El estudio de los métodos estadísticos que se hacen posibles mediante el uso de métodos computacionales, en la interfaz de la estadística y la informática .
concomitantes
En un estudio estadístico, cualquier variable cuyos valores no se ven afectados por los tratamientos experimentales, como la edad, el sexo y el nivel de colesterol de una unidad antes de comenzar una dieta experimental. [1]
Dadas dos variables aleatorias distribuidas conjuntamente X e Y , la distribución de probabilidad condicional de Y dado X (escrita " Y | X ") es la distribución de probabilidad de Y cuando se sabe que X es un valor particular.
La probabilidad de algún evento A, asumiendo la ocurrencia del evento B. En notación matemática, la probabilidad condicional se escribe P( A | B ), y se lee "la probabilidad de A , dado B ".
En estadística inferencial, un rango de valores plausibles para algún parámetro desconocido, como la media de una población, definido como un intervalo con un límite inferior y un límite superior. [2] Los valores precisos de estos límites se calculan a partir de un nivel de confianza predeterminado, elegido por el investigador. El nivel de confianza representa la frecuencia de intervalos que, a largo plazo, capturan el valor verdadero del parámetro desconocido; es decir, el 95% de los intervalos de confianza calculados con el nivel de confianza del 95% contienen el valor verdadero, y lo mismo ocurre con otros niveles de confianza. Por ejemplo, basándose en un estudio de los hábitos de sueño entre una muestra aleatoria de 100 personas, un investigador puede estimar con el nivel de confianza del 95% que la población general duerme entre 5 y 9 horas por noche. Existe un 95% de posibilidades de que la media real de la población se encuentre dentro de este intervalo, porque el 95% de las muestras aleatorias tomadas de esta misma población producirán intervalos de confianza del 95% que contienen la media verdadera.
nivel de confianza
También coeficiente de confianza .
Número que indica la probabilidad de que el intervalo de confianza (rango) capture la media real de la población. Por ejemplo, un intervalo de confianza con un nivel de confianza del 95 % tiene una probabilidad del 95 % de capturar la media de la población. Técnicamente, esto significa que, si el experimento se repitiera muchas veces, el 95 % de los IC calculados a este nivel contendrían la media real de la población. [2]
Variable que influye tanto en la variable dependiente como en la variable independiente, causando una asociación espuria. La existencia de variables de confusión ocultas es una explicación cuantitativa importante de por qué la correlación no implica causalidad: si los cambios en dos variables parecen estar correlacionados, es arriesgado suponer que un cambio causa el otro porque es posible que uno o más factores de confusión no identificados hayan causado de hecho los cambios en ambas variables. Un ejemplo clásico es la correlación entre el aumento del consumo de helado y el aumento de la delincuencia en verano. Es irracional suponer que comer más helado hace que la gente cometa más delitos, o viceversa; es más probable que una o más variables adicionales, por ejemplo, el clima más cálido, aumenten tanto el consumo de helado como la delincuencia simultáneamente. En este ejemplo, el clima más cálido es el factor de confusión.
Medida numérica de la fuerza de una relación lineal entre dos variables aleatorias (se puede utilizar para cuantificar, por ejemplo, cómo se correlacionan el tamaño del calzado y la altura en la población). Un ejemplo es el coeficiente de correlación producto-momento de Pearson , que se obtiene dividiendo la covarianza de las dos variables por el producto de sus desviaciones estándar. Las variables independientes, por definición, tienen una correlación de 0. Una correlación poblacional suele representarse con el símbolo y una correlación muestral con .</ref>
Dadas dos variables aleatorias X e Y , con valores esperados y , el valor esperado de la variable aleatoria , escrito en notación estadística como . La covarianza se utiliza para medir la correlación; se puede interpretar como el grado en el que las dos variables cambian simultáneamente entre sí o "covarían".
Evento que contiene un único resultado en el espacio muestral; en un conjunto de posibilidades, una posibilidad que puede ocurrir de una sola manera. Por ejemplo, al extraer una carta de una baraja de cartas estándar , "sacar la jota de espadas" es un evento elemental (porque solo hay una jota de espadas en toda la baraja), mientras que "sacar un rey o un as" no lo es (porque hay cuatro reyes y cuatro ases combinados en la baraja).
Rama de la estadística que se ocupa de estimar los valores de parámetros basándose en datos empíricos medidos con un componente aleatorio. Los parámetros describen un entorno físico subyacente de tal manera que sus valores afectan la distribución de los datos medidos; un estimador intenta utilizar las mediciones para aproximar los parámetros desconocidos.
Función de los datos conocidos que se utiliza para estimar un parámetro desconocido; una estimación es el resultado de la aplicación real de la función a un conjunto particular de datos. Por ejemplo, la media se puede utilizar como estimador.
También expectativa , expectativa matemática , primer momento , o simplemente media o promedio .
La suma de las probabilidades de cada resultado posible de un experimento multiplicada por su correspondiente pago o "valor". Por lo tanto, representa la cantidad promedio que uno "espera" ganar por apuesta si las apuestas con probabilidades idénticas se repiten muchas veces. Por ejemplo, el valor esperado de lanzar un dado de seis caras justo es 3,5. El concepto es, intuitivamente, una generalización del promedio ponderado de todos los resultados posibles de un procedimiento o experimento en particular, y puede verse como la media aritmética de un gran número de realizaciones independientes del experimento. El valor esperado de la variable aleatoria X se escribe típicamente como E(X) para el operador de expectativa y ( mu ) para el parámetro.
Subconjunto del espacio muestral de un procedimiento o experimento (es decir, un resultado posible) al que se le puede asignar una probabilidad. Por ejemplo, al lanzar un dado, "obtener un tres" es un evento (con una probabilidad de 1 ⁄ 6 si el dado es justo), al igual que "obtener un cinco o un seis" (con una probabilidad de 1 ⁄ 3 ).
Representación gráfica aproximada de la distribución de datos numéricos. Un histograma muestra esta distribución dividiendo todo el rango de valores en una serie de intervalos consecutivos que no se superponen y luego contando cuántas instancias del conjunto de datos se encuentran en cada intervalo.
Medida de la dispersión o extensión estadística de un conjunto de datos, definida como la diferencia entre los percentiles 25 y 75 de los datos. Para calcular el RIQ, el conjunto de datos se divide en cuatro partes pares o cuartiles ordenados por rango, cuyos límites, en los percentiles 25, 50 y 75, se denotan como 1 , 2 y 3 , respectivamente; el RIQ = 3 1 .
Medida de la "cola" de la distribución de probabilidad de una variable aleatoria de valor real. Existen diferentes formas de cuantificar, estimar e interpretar la curtosis, pero una interpretación común es que la curtosis representa el grado en el que la forma de la distribución se ve influenciada por observaciones extremas poco frecuentes (valores atípicos); en este caso, una curtosis más alta significa que una mayor parte de la varianza se debe a desviaciones extremas poco frecuentes, en contraposición a desviaciones frecuentes de tamaño moderado.
Teorema según el cual el promedio de los resultados obtenidos al realizar el mismo experimento un gran número de veces debe ser cercano al valor esperado del experimento y tiende a acercarse a él a medida que se realizan más ensayos. La ley sugiere que es necesario un número suficientemente grande de ensayos para que los resultados de cualquier experimento se consideren confiables y, por extensión, que realizar solo un pequeño número de ensayos puede producir una interpretación incompleta o engañosa de los resultados del experimento.
Una función de probabilidad condicional considerada como una función de su segundo argumento, manteniendo fijo su primer argumento. Por ejemplo, imaginemos que sacamos una bola numerada con un número k de una bolsa de n bolas, numeradas del 1 al n ; una función de verosimilitud para la variable aleatoria N podría describirse como la probabilidad de sacar k dado que hay n bolas: la verosimilitud será 1/ n para n mayor o igual a k , y 0 para n menor que k . A diferencia de una función de distribución de probabilidad, esta función de verosimilitud no sumará 1 en el espacio muestral.
Dadas dos variables aleatorias distribuidas conjuntamente X e Y , la distribución marginal de X es simplemente la distribución de probabilidad de X cuando se ignora la información sobre Y.
La probabilidad de un evento dado, ignorando cualquier información sobre otros eventos. La probabilidad marginal de A se escribe P ( A ). Compárese con la probabilidad condicional .
2. La media aritmética , es decir, el promedio matemático de un conjunto de valores numéricos, calculado dividiendo la suma de los valores por el número de valores.
Una serie de promedios o medias matemáticas de diferentes subconjuntos de un conjunto de datos más grande, generalmente calculados para comprender las tendencias del conjunto de datos a lo largo del tiempo.
Se dice que una colección de eventos es mutuamente independiente si, para cualquier subconjunto de la colección, la probabilidad conjunta de que ocurran todos los eventos es igual al producto de las probabilidades conjuntas de los eventos individuales. Pensemos en el resultado de una serie de lanzamientos de moneda. Esta es una condición más sólida que la independencia por pares.
La afirmación que se prueba en una prueba de significancia estadística; por lo general, una afirmación de "ningún efecto" o "ninguna diferencia". [3] Por ejemplo, en una prueba de si la luz tiene un efecto sobre el sueño, la hipótesis nula sería que la luz no tiene efecto sobre el sueño (es decir, los patrones de sueño son los mismos independientemente de las condiciones de iluminación). La hipótesis nula es una expresión de la expectativa de que la variable dependiente no cambiará significativamente a medida que se modifica la variable independiente; la significancia estadística se mide y se informa de acuerdo con el grado en que se cumple esta expectativa. Contraste hipótesis alternativa .
Cualquier cantidad medida de una población estadística que resuma o describa un aspecto de la población, por ejemplo, una media o una desviación estándar; a menudo, una cantidad que se estimará en función de la cantidad correspondiente calculada extrayendo muestras aleatorias de la población. Puede ser un parámetro de población, un parámetro de distribución o un parámetro no observado.
La probabilidad en una distribución de probabilidad continua. Por ejemplo, no se puede decir que la probabilidad de que un hombre mida seis pies de alto es del 20%, pero sí se puede decir que tiene un 20% de posibilidades de medir entre cinco y seis pies de alto. La densidad de probabilidad se da mediante una función de densidad de probabilidad. Contraste con masa de probabilidad .
Punto o valor particular en el que el rango de una distribución de probabilidad se divide en intervalos continuos con probabilidades iguales, o en el que las observaciones de una muestra se dividen de la misma manera. El número de grupos en los que se divide el rango es siempre uno mayor que el número de cuantiles que los dividen. Los cuantiles que se usan comúnmente incluyen cuartiles (que dividen un rango en cuatro grupos), deciles (diez grupos) y percentiles (cien grupos). Los grupos en sí se denominan mitades, tercios, cuartos, etc., aunque los términos para los cuantiles a veces se usan para referirse a los grupos, en lugar de a los puntos de corte.
Un tipo de cuartil que divide un rango de puntos de datos en cuatro grupos, denominados trimestres , de igual tamaño. Para cualquier conjunto de datos dividido en cuartiles, hay exactamente tres cuartiles o puntos de corte que crean los cuatro grupos. El primer cuartil ( 1 ) se define como el punto o valor de datos intermedio que está a medio camino entre el valor más pequeño (mínimo) y la mediana del conjunto de datos, de modo que el 25 por ciento de los datos se encuentra por debajo de este cuartil. El segundo cuartil ( 2 ) es la mediana en sí, con el 50 por ciento de los datos por debajo de este punto. El tercer cuartil ( 3 ) se define como el valor intermedio a medio camino entre la mediana y el valor más grande (máximo) del conjunto de datos, de modo que el 75 por ciento de los datos se encuentra por debajo de este cuartil. Debido a que los datos deben ordenarse del más pequeño al más grande para poder calcularlos, los cuartiles son un tipo de estadística de orden.
Función medible en un espacio de probabilidad, a menudo de valor real. La función de distribución de una variable aleatoria proporciona la probabilidad de los diferentes valores de la variable. También se pueden derivar la media y la varianza de una variable aleatoria. Véase también variable aleatoria discreta y variable aleatoria continua.
Cualquier variable cuyo valor se ve o se espera que se vea afectado por un tratamiento experimental o por cambios en una o más variables diferentes; por ejemplo, los niveles de colesterol después de seguir una dieta particular durante seis meses. Las variables de respuesta son aquellas que cambian o responden a algún fenómeno en estudio. El término se utiliza a menudo indistintamente con variable dependiente. [1]
La media aritmética de una muestra de valores extraídos de una población, comúnmente denotada por . Un ejemplo es la puntuación promedio de un examen de un subconjunto de 10 estudiantes de una clase. La media de la muestra se utiliza como un estimador de la media de la población, que en este ejemplo sería la puntuación promedio de un examen de todos los estudiantes de la clase.
Proceso de selección de observaciones para obtener información sobre una población. Existen muchos métodos para elegir en qué muestra realizar las observaciones.
Medida de la asimetría de la distribución de probabilidad de una variable aleatoria de valor real respecto de su media. En términos generales, una distribución tiene una asimetría positiva (sesgada hacia la derecha) si la cola superior es más larga, y una asimetría negativa (sesgada hacia la izquierda) si la cola inferior es más larga. Las distribuciones perfectamente simétricas siempre tienen una asimetría cero, aunque una asimetría cero no implica necesariamente una distribución simétrica.
La medida de dispersión estadística más utilizada. Es la raíz cuadrada de la varianza y generalmente se denota con la letra griega minúscula ( sigma ).
Dos eventos son independientes si el resultado de uno no afecta al del otro (por ejemplo, obtener un 1 en una sola tirada de dados no afecta la probabilidad de obtener un 1 en una segunda tirada). De manera similar, cuando afirmamos que dos variables aleatorias son independientes, intuitivamente queremos decir que saber algo sobre el valor de una de ellas no proporciona ninguna información sobre el valor de la otra.
Inferencia sobre una población basada en una muestra aleatoria extraída de esa población o, más generalmente, sobre un proceso aleatorio a partir de su comportamiento observado durante un período finito de tiempo.
Conjunto de entidades sobre las que se extraen inferencias estadísticas, a menudo basadas en un muestreo aleatorio. También se puede hablar de población de mediciones o valores.
Norma para estructurar datos de manera que “cada variable sea una columna, cada observación sea una fila y cada tipo de unidad de observación sea una tabla”. Es equivalente a la tercera forma normal de Codd . [4]
Variables de un estudio estadístico que son manipulables conceptualmente. Por ejemplo, en un estudio de salud, seguir una determinada dieta es un tratamiento, mientras que la edad no lo es. [1]
Puede referirse a cada repetición individual cuando se habla de un experimento compuesto por un número fijo de ellas. Como ejemplo, se puede pensar que un experimento es cualquier número de uno a n lanzamientos de moneda, digamos 17. En este caso, un lanzamiento puede llamarse un ensayo para evitar confusiones, ya que todo el experimento se compone de 17 unos.
En un estudio estadístico, los objetos a los que se asignan los tratamientos. Por ejemplo, en un estudio que examina los efectos de fumar cigarrillos, las unidades serían las personas. [1]
Medida de la dispersión estadística de una variable aleatoria, que indica qué tan lejos están sus valores del valor esperado. La varianza de la variable aleatoria X se designa normalmente como , , o simplemente
^ abcde Reiter, Jerome (24 de enero de 2000). "Uso de estadísticas para determinar relaciones causales". American Mathematical Monthly . 107 (1): 24–32. doi :10.2307/2589374. JSTOR 2589374.
^ por Pav Kalinowski. Comprensión de los intervalos de confianza (IC) y la estimación del tamaño del efecto. Association for Psychological Science Observer, 10 de abril de 2010. http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation.html
^ Moore, David; McCabe, George (2003). Introducción a la práctica de la estadística (4.ª ed.). Nueva York: WH Freeman and Co. pág. 438. ISBN9780716796572.
^ Wickham, Hadley (2014). "Tidy Data" (PDF) . Revista de software estadístico . 59 (10). doi :10.18637/jss.v059.i10.
Enlaces externos
"Glosario de terminología del DOE", Manual electrónico de métodos estadísticos del NIST/SEMATECH , NIST , consultado el 28 de febrero de 2009
Glosario estadístico, statistics.com , consultado el 28 de febrero de 2009
Probabilidad y estadística sobre los primeros usos de las páginas (Universidad de Southampton)