¿Que leemos?: ¿N grande, T chico; T grande, N chico o N grande, T grande?

Por Tamara Burdisso

En la elección de los estimadores de panel el diseño del mismo es más que relevante. Panel Time Series de Ron Smith, una lectura esclarecedora para quienes trabajamos en problemas empíricos.

Leyendo el artículo “Estimation and inference with non-stationary panel time-series data” de Ron Smith, muy desafiante por cierto, inmediatamente me encontré con la advertencia que decía más o menos así –Debo enfatizar que este área está avanzando muy rápido por lo que cualquier revisión de la literatura podría quedar obsoleta-. El artículo era de 2001, y dado que lo estaba leyendo en 2010, el llamado de atención se agigantó. Decidí entonces escribirle al profesor Smith para que me orientase al respecto y en menos de 24 horas me encontré no sólo con su respuesta sino también con su generosidad. Me había adjuntado el trabajo “Panel Time-Series” del que es autor junto a Ana María Fuertes. No se trata de un artículo más de los muchos que tiene sino de una investigación bastante exhaustiva y muy bien documentada de cómo fue evolucionando el desarrollo de paneles de series de tiempo durante las últimas dos décadas, actualizado a abril 2010. El trabajo no es otra cosa que el curso que dicta el profesor Smith en el Birkbeck College sobre paneles de series de tiempo. Lo que sigue es una idea muy somera de la apasionante lectura que hice del trabajo.

La econometría ha tendido a especializarse en micro econometría cuando N (número de unidades que pueden ser individuos, familias, firmas, ciudades, etc) es grande y en econometría de series de tiempo cuando T (tiempo) es grande. El interés en la econometría de panel comenzó con grandes conjunto de unidades provenientes de encuestas y muy pocas observaciones de la dimensión temporal (por lo general no más de 5). Por consiguiente, la teoría asintótica fue ampliamente desarrollada para esta estructura de paneles, es decir, cuando N→∞, para T fijo en contraste con el análisis de las series de tiempo donde T→∞, con N fijo, a menudo igual a 1.

En los últimos años el advenimiento de paneles con N grande y T grande, por ejemplo, un gran número de países para un período de tiempo considerable, complicaron el análisis de las propiedades asintóticas de los estimadores. Bajo este nuevo diseño de panel, el análisis asintótico debía contemplar que tanto N como T tiendan a infinito. ¿Pero cómo hacerlo? Varias son las maneras de estudiar propiedades asíntoticas de un estimador y de acuerdo con los autores aún resta bastante trabajo en está área. Por esa razón, se advierte al lector que cuando se discute consistencia de un estimador en el contexto de datos de panel, debe especificarse siempre en qué dimensión (N y/o T →∞ ) se está evaluando dicha consistencia. Notemos que esto va a ser determinante al momento de elegir el estimador a utilizar, ya que la elección del mismo va a depender de la estructura del panel y del tamaño relativo de N y T.

Los paneles de series de tiempo dieron origen a tres cuestiones fundamentales no cuestionadas en los paneles micro: (i) heterogeneidad, (ii) dinámica y (iii) ausencia de aleatoriedad en las unidades o individuos, conocido como “cross-section dependence”. Con relación a la heterogeneidad, dado que se cuenta con series de tiempo para varias unidades, es factible estimar una regresión para cada unidad -imposible de hacerlo cuando T es pequeño- por lo que resulta natural considerar modelos heterogéneos que difieran entre unidades. Luego podríamos evaluar la igualdad de los parámetros (o equivalentemente la pendiente de los regresores), en lugar de asumir el supuesto como estamos obligados a hacerlo para el caso de los paneles micro. A menudo la evidencia empírica ha rechazado la hipótesis de homogeneidad, encontrando grandes diferencias entre los estimadores para las distintas unidades (ver Baltagi y Griffin (1997)). ¿Cuáles son los problemas de imponer homogeneidad y afirmar que las pendientes son las mismas entre las unidades cuando en realidad no lo son? En caso de estar trabajando con el popular estimador de efectos fijos-estimador que impone homogeneidad-, tendremos que las pendientes de los regresores serán inconsistentes, aún en ausencia de la variable dependiente rezagada, ya que el sesgo por heterogeneidad depende, entre otras cosas, de la correlación serial presente en los regresores, algo que es muy probable que exista. En todo caso la presencia de la variable dependiente rezagada contribuiría a incrementarlo. El sesgo por heterogeneidad no podrá ser remediado con los estimadores tradicionales de variables instrumentales. Como planteamos al comienzo la elección del estimador que solucione el problema dependerá del tamaño relativo de N y T. Varios son los test implementados para evaluar la relevancia de las heterogeneidades presentes en el panel. Pesaran y Yamagata (2008) discuten estos temas en detalle. En este sentido, muy bueno es el consejo final que nos dan Smith y Fuertes en su trabajo: –Para juzgar la importancia de las heterogeneidades el propósito del modelo es crucial. Un modelo homogéneo parsimonioso puede ser óptimo a los fines de pronóstico, pero si estamos valorando diferentes teorías o tenemos fines de policy, no hay duda que nuestro modelo debe evaluar la presencia de heterogeneidad en los parámetros-.

El segundo aspecto que destaca el artículo es la dinámica. Ciertamente el hecho de tener un T grande nos permite estimar modelos dinámicos mucho menos restrictivos. Por otro lado, muchas de las series de tiempo dinámicas son no estacionarias y muchas de ellas son integradas de orden 1, lo que implica que basta diferenciarlas una vez para obtener una serie estacionaria. Tales series se dice que contienen una raíz unitaria. Una razón por la que el orden de integración en el análisis de series de tiempo es relevante, es porque existe el peligro de la regresión espuria si las variables bajo análisis son I(1). Como es sabido, cointegración es la condición requerida entre las variables I(1) analizadas, para que la regresión no resulte espuria y el estimador de interés sea consistente. Es decir, si las variables están cointegradas, entonces las mismas comparten una tendencia estocástica común que se cancela en la combinación lineal de estas. Pesaran y Smith (1995) señalaron que el problema de regresión espuria no se origina en la regresiones cross-section que surgen al colapsar la dimensión temporal, aún cuando la serie de tiempo de cada unidad contenga una raíz unitaria. Esta observación fue la que condujo a que el problema de correlación espuria se vea bastante mitigado al promediar las unidades. Phillips y Moon (1999, 2000) y Kao (2000) muestran que el “pooled estimator” que ellos proponen es más eficiente que el estimador que arroja una regresión cross-section. El estimador posee diferentes variantes, dependiendo de si las series de interés están o no cointegradas, y en caso de estar cointegradas la relación podría resultar homogénea o heterogénea. Resumiendo, el típico problema de regresión espuria generalmente asociado a variables I(1), parece ser un problema menor en paneles de series de tiempo. Muy buena noticia.

Finalmente, resta tratar el problema de dependencia entre las unidades. Evidentemente este sí es un problema que se origina con la llegada de los paneles de series de tiempo donde uno no está trabajando ya con una muestra aleatoria de individuos tomados de alguna encuesta, sino con firmas o países que, por lo general, podrían presentar cualidades en común no necesariamente observables. Estas cualidades en común generalmente asociadas a factores culturales, o simplemente a factores vinculados al ciclo global de la economía, generalmente impactan sobre todos los individuos aunque posiblemente con diferentes grados. La cross-section dependence (en adelante CSD) puede ser interpretada entonces como un factor común no observable que perturba a todas las unidades y que además varía en el tiempo.

Recordemos que la econometría ya contaba con un método que le permite modelar varias unidades simultáneamente, siempre y cuando el N sea pequeño relativo a T. Se trata de la metodología desarrollada por Zellner (1962) de ecuaciones aparentemente no relacionadas (SURE, por su sigla en inglés). No obstante, cuando N es del mismo orden de magnitud que T o mayor, la matriz de covarianzas no puede ser invertida. En este caso se debió recurrir a otro enfoque y la aparición de la econometría de paneles de series de tiempo intentó lidiar con esta nueva dimensionalidad del problema. Sin embargo, tal como lo mostraron Phillips y Sul (2003), las consecuencias de ignorar la dependencia entre las unidades puede ser muy seria, ya que no sólo las ganancias de eficiencia por trabajar con datos de panel serían despreciables respecto a las que arrojaría la estimación de una sola ecuación, sino que además los estimadores podrían estar seriamente sesgados y los test de raíces unitarias y cointegración llevarnos a conclusiones erróneas.

Los avances en el estudio de la CDS han sido más recientes y probablemente sea una de las áreas en paneles de series de tiempo donde más se esté trabajando actualmente para tratar de remediar la falta de aleatoriedad de las unidades. Asimismo, notemos que la CSD nos brinda la posibilidad de estimar factores comunes no observables, como el ciclo económico mundial, que no podría ser estimado a partir de una única ecuación de series de tiempo. Está es otra de las ventajas de paneles de series de tiempo.

La CDS es central en la econometría espacial (ver Baltagi, 2008) donde la manera natural de caracterizar la dependencia es en términos de distancia. Sin embargo no es obvio como medir la distancia para la mayoría de los problemas económicos. Para T grande, Pesaran, Ullah y Yamagata (2007) realizan una revisión de varios test y proponen nuevos a fin de evaluar la dependencia entre las unidades. En caso de existir CSD, la misma puede ser débil, es decir una dependencia local que declina cuando N crece, o fuerte, que influencia a todas las unidades. En ese sentido, el hecho de promediar las unidades no mitiga el problema. En este caso, uno puede tener diferentes objetivos dependiendo si la CSD es sólo mirada como un parámetro molesto que se desea controlar con el objetivo de tener mejores estimadores de los regresores explícitos en el modelo, o si por el contrario, se trata de parámetros de interés que se desean estimar. Varios son los estimadores sugeridos en los últimos 5 años, y de acuerdo a estudios de Monetcarlo, el estimador propuesto por Peasaran (2006), denominado “the correlated common effect estimator” (muy sencillo de implementar) parece ser el líder en la actualidad.

El trabajo termina con la misma advertencia que me condujo a mí hasta el profesor Smith. No quisiera repetirla, pero tengámosla presente: todo ocurre muy rápido, los resultados que aparecen son a menudo muy sorprendentes y podrían quedar rápidamente en desuso. Finalmente cierra con un check list de 20 items, que parece bastante obvio, pero creo que en más de una oportunidad alguno de los ítems de la lista nos queda en el tintero. Los que hacemos econometría aplicada deberíamos darle periódicamente una mirada.

Referencias

Baltagi, B.H. (2008). “Econometric Analysis of Panel Data”, 4th edition New York: Wiley.

Kao, C (1999). “Spurious Regression and Residuals based tests for cointegration in panel data”, Journal of Econometrics, 90, 1-44.

Pesaran, M.H. and R.P. Smith (1995). “Estimating Long-run relationships from Dynamic Heterogenous Panels”, Journal of Econometrics, 68, 79-113.

Pesaran, M.H. (2006). “Estimation and Inference in Large Heterogeneous Panels with a multifactor error structure”, Econometrica, 74(4) 967-1012.

Pesaran, M.H. (2007). “A simple panel unit root test in the presence of cross section dependence”, Journal of Applied Econometrics, 22(2).p265-312.

Pesaran, M.H. A. Ullah y T. Yamagata (2007). A bias adjusted LM test of error cross-section independence, forthcoming Econometrics Journal

Phillips, P.C.B., and H.R. Moon (1999). “Linear Regression Limit Theory for Nonstationary Panel Data”, Econometrica, 67,5, 1057-1112.

Phillips, P.C.B., and H.R. Moon (2000). “Nonstationary Panel Data Analysis: an overview of some recent developments”, Econometric Reviews 19, 3, 263-286.

Phillips, P.C.B. and D. Sul (2003). “Dynamic Panel Testing and Homogeneity Testing under Cross section dependence”, The Econometrics Journal, 6, 217-259.

Smith, Ron (2001). “Estimation and inference with non-stationary panel time-series data”

Smith Ron P. and A. M. Fuertes (2010). “Panel Time-Series”.

Zellner, A. (1962). “An efficient Method of Estimating seemingly Unrelated Regressions and Test for Aggregation Bias”, Journal of the American Statistical Association, 57, 348-368.

Anuncios

2 Respuestas a “¿Que leemos?: ¿N grande, T chico; T grande, N chico o N grande, T grande?

  1. Tamara, excelente recopilación de los que es el análisis de Datos de Panel, personalmente he tenido que utilizarlo un par de veces y considero que falta desarrollar la propiedad de los estimadores, en relación a N, T o ambos tendientes a infinito. Adicionalmente he encontrado varios trabajos que aplican datos de panel para un T =5 y un N=30, sin hacer las aclaraciones previas respecto de las propiedades de los estimadores.
    Gracias por colgar el paper.

    Saludos.

  2. Tamara, excelente, aunque un poco tarde con mi comentario, me sirve.
    Saludos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s