Datos del panel

Estudio estadístico longitudinal

En estadística y econometría , los datos de panel y los datos longitudinales ^[1]^{[2] son}datos multidimensionales que implican mediciones a lo largo del tiempo. Los datos de panel son un subconjunto de los datos longitudinales en los que las observaciones corresponden a los mismos sujetos cada vez.

Las series temporales y los datos transversales pueden considerarse casos especiales de datos de panel que tienen una sola dimensión (un miembro del panel o individuo para los primeros, un punto temporal para los segundos). Una búsqueda bibliográfica a menudo implica series temporales, datos transversales o de panel. Los datos transversales de panel (CPD) son una fuente de información innovadora pero poco apreciada en las ciencias matemáticas y estadísticas. Los CPD se distinguen de otros métodos de investigación porque ilustran vívidamente cómo las variables independientes y dependientes pueden cambiar entre países. Esta recopilación de datos de panel permite a los investigadores examinar la conexión entre variables a lo largo de varias secciones transversales y períodos de tiempo y analizar los resultados de las acciones de política en otras naciones. ^[3]

Un estudio que utiliza datos de panel se denomina estudio longitudinal o estudio de panel.

Ejemplo

Panel balanceado MRPP
persona	año	ingreso	edad	sexo
1	2016	1300	27	1
1	2017	1600	28	1
1	2018	2000	29	1
2	2016	2000	38	2
2	2017	2300	39	2
2	2018	2400	40	2

Panel desequilibrado MRPP
persona	año	ingreso	edad	sexo
1	2016	1600	23	1
1	2017	1500	24	1
2	2016	1900	41	2
2	2017	2000	42	2
2	2018	2100	43	2
3	2017	3300	34	1

En el ejemplo anterior del procedimiento de permutación de respuesta múltiple ( MRPP ), se muestran dos conjuntos de datos con una estructura de panel y el objetivo es probar si hay una diferencia significativa entre las personas en los datos de muestra. Se recopilan características individuales (ingresos, edad, sexo) para diferentes personas y diferentes años. En el primer conjunto de datos, se observan dos personas (1, 2) cada año durante tres años (2016, 2017, 2018). En el segundo conjunto de datos, se observan tres personas (1, 2, 3) dos veces (persona 1), tres veces (persona 2) y una vez (persona 3), respectivamente, durante tres años (2016, 2017, 2018); en particular, la persona 1 no se observa en el año 2018 y la persona 3 no se observa en 2016 o 2018.

Un panel equilibrado (por ejemplo, el primer conjunto de datos anterior) es un conjunto de datos en el que se observa a cada miembro del panel (es decir, a cada persona) cada año. En consecuencia, si un panel equilibrado contiene miembros del panel y períodos, la cantidad de observaciones ( ) en el conjunto de datos es necesariamente . ${\estilo de visualización N}$ ${\estilo de visualización T}$ ${\estilo de visualización n}$ $n=N\cdot T$

Un panel no balanceado (por ejemplo, el segundo conjunto de datos anterior) es un conjunto de datos en el que al menos un miembro del panel no se observa en cada período. Por lo tanto, si un panel no balanceado contiene miembros del panel y períodos, entonces se cumple la siguiente desigualdad estricta para la cantidad de observaciones ( ) en el conjunto de datos: . ${\estilo de visualización N}$ ${\estilo de visualización T}$ ${\estilo de visualización n}$ $n<N\cdot T$

Ambos conjuntos de datos anteriores están estructurados en formato largo , en el que una fila contiene una observación por momento. Otra forma de estructurar los datos de panel sería el formato ancho , en el que una fila representa una unidad de observación para todos los puntos en el tiempo (por ejemplo, el formato ancho tendría solo dos (primer ejemplo) o tres (segundo ejemplo) filas de datos con columnas adicionales para cada variable que varía con el tiempo (ingreso, edad).

Análisis

Un panel tiene la forma

X_{it},\quad i=1,\dots ,N,\quad t=1,\dots ,T,

donde es la dimensión individual y es la dimensión temporal. Un modelo de regresión de datos de panel general se escribe como . Se pueden hacer diferentes suposiciones sobre la estructura precisa de este modelo general. Dos modelos importantes son el modelo de efectos fijos y el modelo de efectos aleatorios . $i$ $t$ $y_{it}=\alpha +\beta 'X_{it}+u_{it}$

Consideremos un modelo de datos de panel genérico:

y_{it}=\alpha +\beta 'X_{it}+u_{it},

u_{it}=\mu _{i}+v_{it}.

$\mu _{i}$ son efectos específicos del individuo, invariantes en el tiempo (por ejemplo, en un panel de países esto podría incluir geografía, clima, etc.) que son fijos en el tiempo, mientras que es un componente aleatorio que varía con el tiempo. $v_{it}$

Si no se observa y está correlacionado con al menos una de las variables independientes, provocará un sesgo por omisión de variable en una regresión MCO estándar . Sin embargo, se pueden utilizar métodos de datos de panel, como el estimador de efectos fijos o, alternativamente, el estimador de primera diferencia , para controlarlo. $\mu _{i}$

Si no está correlacionado con ninguna de las variables independientes, se pueden utilizar métodos de regresión lineal de mínimos cuadrados ordinarios para obtener estimaciones insesgadas y consistentes de los parámetros de regresión. Sin embargo, debido a que es fijo en el tiempo, inducirá una correlación serial en el término de error de la regresión. Esto significa que hay disponibles técnicas de estimación más eficientes. Los efectos aleatorios son uno de esos métodos: es un caso especial de mínimos cuadrados generalizados factibles que controla la estructura de la correlación serial inducida por . $\mu _{i}$ $\mu _{i}$ $\mu _{i}$

Datos de panel dinámicos

Los datos de panel dinámicos describen el caso en el que se utiliza un rezago de la variable dependiente como regresor:

y_{it}=\alpha +\beta 'X_{it}+\gamma y_{it-1}+u_{it}.

La presencia de la variable dependiente rezagada viola la exogeneidad estricta, es decir, puede ocurrir endogeneidad . Tanto el estimador de efectos fijos como el estimador de primeras diferencias se basan en el supuesto de exogeneidad estricta. Por lo tanto, si se cree que está correlacionada con una de las variables independientes, se debe utilizar una técnica de estimación alternativa. Las variables instrumentales o las técnicas GMM se utilizan comúnmente en esta situación, como el estimador de Arellano-Bond . Al estimarlo, debemos tener la información adecuada sobre las variables instrumentales. $u_{i}$

Conjuntos de datos que tienen un diseño de panel

Panel Socioeconómico Alemán (SOEP)
Encuesta sobre la dinámica de los hogares, los ingresos y el trabajo en Australia (HILDA)
Encuesta de panel de hogares británicos (BHPS)
Encuesta sobre ingresos y participación en programas (SIPP)
Base de datos del mercado laboral permanente (LLMDB)
Estudio de panel sobre la dinámica del ingreso (PSID)
Estudios de panel sobre familias en China (CFPS)
Encuestas longitudinales nacionales (NLSY)
Encuesta de población activa (EPA)

Conjuntos de datos que tienen un diseño de panel multidimensional

Notas

^ Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Análisis de datos longitudinales (2ª ed.). Prensa de la Universidad de Oxford. pag. 2.ISBN 0-19-852484-6.
^ Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Análisis longitudinal aplicado . Hoboken: John Wiley & Sons. pág. 2. ISBN 0-471-21487-6.
^ Zaman, Khalid (24 de enero de 2023). "Una nota sobre técnicas de datos entre paneles". Últimos avances en econometría . 1 (1): 1–7. doi :10.5281/zenodo.7565625.

Referencias

Baltagi, Badi H. (2008). Análisis econométrico de datos de panel (cuarta edición). Chichester: John Wiley & Sons. ISBN 978-0-470-51886-1.
Davies, A.; Lahiri, K. (1995). "Un nuevo marco para probar la racionalidad y medir los shocks agregados utilizando datos de panel". Journal of Econometrics . 68 (1): 205–227. doi :10.1016/0304-4076(94)01649-K.
Davies, A.; Lahiri, K. (2000). "Reexaminando la hipótesis de expectativas racionales utilizando datos de panel en pronósticos multiperíodo". Análisis de paneles y modelos de variable dependiente limitada . Cambridge: Cambridge University Press. págs. 226–254. ISBN 0-521-63169-6.
Frees, E. (2004). Datos longitudinales y de panel: análisis y aplicaciones en las ciencias sociales . Nueva York: Cambridge University Press. ISBN 0-521-82828-7.
Hsiao , Cheng (2003). Análisis de datos de panel (segunda edición). Nueva York: Cambridge University Press. ISBN 0-521-52271-4.

Enlaces externos

Identificador único de PS
CLIPS
parejafam
Encuesta de empleo de Corea

[1] Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Análisis de datos longitudinales (2ª ed.). Prensa de la Universidad de Oxford. pag. 2.ISBN 0-19-852484-6.

[2] Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Análisis longitudinal aplicado . Hoboken: John Wiley & Sons. pág. 2. ISBN 0-471-21487-6.

[3] Zaman, Khalid (24 de enero de 2023). "Una nota sobre técnicas de datos entre paneles". Últimos avances en econometría . 1 (1): 1–7. doi :10.5281/zenodo.7565625.