En estadística , la frecuencia o frecuencia absoluta de un evento es el número de veces que la observación ocurrió/se registró en un experimento o estudio. [1] : 12–19 Estas frecuencias a menudo se representan gráficamente o en forma de tabla.
La frecuencia acumulada es el total de las frecuencias absolutas de todos los eventos en un punto determinado o por debajo de él en una lista ordenada de eventos. [1] : 17–19
La frecuencia relativa (o probabilidad empírica ) de un evento es la frecuencia absoluta normalizada por el número total de eventos:
Los valores de todos los eventos se pueden representar gráficamente para producir una distribución de frecuencias.
En el caso de que sea seguro , se pueden agregar pseudoconteos .
Una distribución de frecuencia muestra una agrupación resumida de datos divididos en clases mutuamente excluyentes y el número de ocurrencias en una clase. Es una forma de mostrar datos no organizados, en particular para mostrar los resultados de una elección, los ingresos de las personas en una determinada región, las ventas de un producto dentro de un período determinado, los montos de los préstamos estudiantiles de los graduados, etc. Algunos de los gráficos que se pueden utilizar con distribuciones de frecuencia son histogramas , gráficos de líneas , gráficos de barras y gráficos circulares . Las distribuciones de frecuencia se utilizan tanto para datos cualitativos como cuantitativos.
En general, el intervalo de clase o el ancho de clase es el mismo para todas las clases. Las clases tomadas en conjunto deben cubrir al menos la distancia desde el valor más bajo (mínimo) en los datos hasta el valor más alto (máximo). Los intervalos de clase iguales son preferibles en la distribución de frecuencias, mientras que los intervalos de clase desiguales (por ejemplo, intervalos logarítmicos) pueden ser necesarios en ciertas situaciones para producir una buena dispersión de observaciones entre las clases y evitar una gran cantidad de clases vacías o casi vacías. [2]
Los siguientes son algunos métodos comúnmente utilizados para representar la frecuencia: [3]
Un histograma es una representación de frecuencias tabuladas, que se muestran como rectángulos o cuadrados adyacentes (en algunas situaciones), erigidos sobre intervalos discretos (bins), con un área proporcional a la frecuencia de las observaciones en el intervalo. La altura de un rectángulo también es igual a la densidad de frecuencia del intervalo, es decir, la frecuencia dividida por el ancho del intervalo. El área total del histograma es igual al número de datos. Un histograma también se puede normalizar mostrando frecuencias relativas. Luego muestra la proporción de casos que caen en cada una de varias categorías , con un área total igual a 1. Las categorías generalmente se especifican como intervalos consecutivos, no superpuestos de una variable. Las categorías (intervalos) deben ser adyacentes y, a menudo, se eligen para que tengan el mismo tamaño. [4] Los rectángulos de un histograma se dibujan de manera que se toquen entre sí para indicar que la variable original es continua. [5]
Un gráfico de barras es un gráfico con barras rectangulares cuya longitud es proporcional a los valores que representan. Las barras se pueden trazar vertical u horizontalmente. A veces, un gráfico de barras verticales se denomina gráfico de barras de columnas.
Una tabla de distribución de frecuencias es una disposición de los valores que una o más variables toman en una muestra . Cada entrada de la tabla contiene la frecuencia o el recuento de ocurrencias de valores dentro de un grupo o intervalo en particular y, de esta manera, la tabla resume la distribución de valores en la muestra.
Este es un ejemplo de una tabla de frecuencias univariada (= variable única ). Se representa la frecuencia de cada respuesta a una pregunta de la encuesta.
Rango | Grado de acuerdo | Número |
---|---|---|
1 | Estoy totalmente de acuerdo | 22 |
2 | Estoy un poco de acuerdo | 30 |
3 | No estoy seguro | 20 |
4 | Estoy un poco en desacuerdo | 15 |
5 | Estoy totalmente en desacuerdo | 15 |
Un esquema de tabulación diferente agrega valores en grupos de modo que cada grupo abarque un rango de valores. Por ejemplo, las alturas de los estudiantes de una clase podrían organizarse en la siguiente tabla de frecuencias.
Rango de altura | Número de estudiantes | Número acumulado |
---|---|---|
menos de 5,0 pies | 25 | 25 |
5,0–5,5 pies | 35 | 60 |
5,5–6,0 pies | 20 | 80 |
6,0–6,5 pies | 20 | 100 |
Las distribuciones de frecuencia conjuntas bivariadas a menudo se presentan como tablas de contingencia (de dos vías) :
Bailar | Deportes | TELEVISOR | Total | |
---|---|---|---|---|
Hombres | 2 | 10 | 8 | 20 |
Mujer | 16 | 6 | 8 | 30 |
Total | 18 | 16 | 16 | 50 |
La fila total y la columna total informan las frecuencias marginales o la distribución marginal , mientras que el cuerpo de la tabla informa las frecuencias conjuntas. [6]
Según la interpretación de la frecuencia de la probabilidad , se supone que a medida que la longitud de una serie de ensayos aumenta sin límite, la fracción de experimentos en los que ocurre un evento dado se acercará a un valor fijo, conocido como frecuencia relativa límite . [7] [8]
Esta interpretación se contrasta a menudo con la probabilidad bayesiana . De hecho, el término "frecuentista" fue utilizado por primera vez por MG Kendall en 1949, para contrastar con los bayesianos , a quienes llamó "no frecuentistas". [9] [10] Observó
La gestión y el funcionamiento de datos tabulados de frecuencia es mucho más sencillo que el funcionamiento de datos sin procesar. Existen algoritmos sencillos para calcular la mediana, la media, la desviación estándar, etc. a partir de estas tablas.
La prueba de hipótesis estadística se basa en la evaluación de las diferencias y similitudes entre distribuciones de frecuencias. Esta evaluación implica medidas de tendencia central o promedios , como la media y la mediana , y medidas de variabilidad o dispersión estadística , como la desviación estándar o la varianza .
Se dice que una distribución de frecuencias está sesgada cuando su media y mediana son significativamente diferentes, o de manera más general, cuando es asimétrica . La curtosis de una distribución de frecuencias es una medida de la proporción de valores extremos (valores atípicos), que aparecen en cada extremo del histograma . Si la distribución es más propensa a valores atípicos que la distribución normal , se dice que es leptocúrtica; si es menos propensa a valores atípicos, se dice que es platicúrtica.
Las distribuciones de frecuencia de letras también se utilizan en el análisis de frecuencia para descifrar cifrados y se utilizan para comparar las frecuencias relativas de letras en diferentes idiomas; a menudo se utilizan otros idiomas como el griego, el latín, etc.