Logo Univalle Foto
Consultar en la Biblioteca Teléfonos de las Facultades Buscar en Univalle

EIDENAR

Escuela de Ingeniería de los Recursos Naturales y del Ambiente

Inicio Áreas Académicas Grupos de Investigación Tecnologías Pregrados Posgrados Doctorados
Información General Objetivos Misión Visión Estructura Administrativa Publicaciones Servicios a la Comunidad
Enlaces Internos
Docentes
Plan de Desarrollo
Área de Sistemas
Laboratorios
Grupos de Estudio
Educación Virtual
Revista EIDENAR
Instituto CINARA
Convenios
 
Servicios
Eventos EIDENAR
Contenido de Cursos
Convocatorias
Noticias
Estudiantes
Contacto
Búsquedas

Revista EIDENAR: Ejemplar 2 / Julio - Diciembre 2004
Análisis de Variabilidad de datos Medioambientales aplicando Funciones Ortogonales Empíricas o Componentes Principales
   
 
Recibido : Noviembre 2004
Aceptado: Diciembre  2004
 
 
Juan B. Marco Segura.
 
Profesor Asociado
Escuela de Ingeniería de Recursos Naturales y
del Ambiente. EIDENAR
Universidad del Valle
Cali-Colombia.
Director del Departamento de Hidráulica
y Medio Ambiente
Universidad Politécnica de Valencia
Valencia, España
  Grupo Escuela de Ingeniería de Recursos Naturales y del Ambiente - EIDENAR  Apartado Aéreo 25360. Teléfono +57 2 3396097  Cali – Colombia.  yecarvaj@univalle.edu.co
 
Resumen
 
Se efectuó un análisis de Funciones Ortogonales Empíricas (FOES) o Componentes Principales (CP) a 50 estaciones de precipitación mensual (1972-1998) y a 8 estaciones de caudal mensual (1951-2000) del Valle del Cauca-Colombia. Previamente se aplicaron 5 medidas de adecuación para verificar la conveniencia del análisis: (i) La evaluación del grado de significancia de la correlación entre variables; (ii) La prueba Kaiser-Meyer-Olkin (KMO); (iii) La prueba de de esfericidad de Bartlett; (iv) La medida de adecuación muestral (MSA); y, (v) El porcentaje de residuos no redundantes con valores absolutos > 0.05. Para seleccionar las CP significantes de cada conjunto de variables se utilizaron 7 criterios de selección: El método gráfico, el porcentaje de varianza explicada, la raíz promedio, y las pruebas de Velicer, Bartlett, Broken Stick y de validación cruzada, escogiéndose esta última como la mejor, por ser más robusta y cuantitativa. Se agruparon las estaciones de precipitación en 3 grupos homogéneos, aplicando un análisis de datos anomalos jerarárquicos  que fue verificado con el método geográfico y el análisis discriminante de las 4 primeras FOES de precipitación. Se destacan las ventajas del método FOES para reducir la dimensionalidad de datos multivariantes, calcular datos faltantes, evaluar y reducir multicolinealidad, conformar grupos homogéneos y detectar datos anómalos. Con las primeras cuatro CP significantes se explica el 60.34 % de la varianza total de la precipitación mensual del Valle del Cauca y el 94% de la varianza total de los registros de caudal seleccionados.
 
Abstract
 
A FOES analysis or Principal  Component Analysis (MC) was made to 50 stations for monthly precipitation (1972-1998) and to 8 stations for monthly rate of flow (1951-2000) in the Valle del Cauca State, Colombia. Previously, we had applied 5 measures in order to verify the convenience of the analysis. These measures were: i) Evaluation of significance level of correlation between variables; ii) The Kaiser-Meyer-Olkin (KMO) test; iii) The Bartlett sphericity test; (iv) The measurement of sample adequacy (MSA), and v) The percentage of non-redundant residues with absolute values >0.05. For the selection of significant PC in every set of variables we applied 7 criteria: the graphical method, the explained variance percentage, the mean root, the tests of Velicer, Bartlett, Broken Stich and the cross validation test. We chose the latest as the best one. It is stronger and quantitative. Precipitation stations were divided in three homogeneous groups, applying a hierarchical cluster analysis, which was verified through the geographic method and the discriminant analysis for the first four FOES of precipitation. 
The FOES method has the advantage that it allows to reduce the dimensionality of multivariate data, to calculate missing data and to reduce multi-collinearity, to form homogeneous groups and to detect outliers. With the first four principal components we can explain 60.34% of total variance of monthly precipitation for the Valle del Cauca State and 94% of total variance for the selected records of rates of flow.
 
Palabras Claves
  Funciones ortogonales empíricas, análisis de componentes principales, control de calidad de datos, detección de datos anomalos.
 
Keywords
 
Empiric orthogonal functions. Principal Component Analysis. Data quality control. Outliers detection.
 
1.INTRODUCCIÓN

Gran parte de la información que se maneja en medioambiente es voluminosa, está correlacionada, contiene información de dudosa calidad y/o presenta datos faltantes. El análisis de FOES o de CP es una técnica de gran utilidad que permite afrontar dichas dificultades, al transformar un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas (ortogonales), extrayendo la máxima varianza posible en cada CP. Así, la primera CP contiene la máxima varianza posible de los datos, la segunda CP la segunda máxima varianza posible y así sucesivamente. Por ser ortogonales, la varianza explicada por cada CP es independiente de la explicada por las demás. El método permite reducir la dimensión de un conjunto de datos sin pérdida importante de información, ofreciendo un mejor entendimiento de las relaciones subyacentes entre las variables; adicionalmente, facilita la detección de datos anómalos , calcular datos faltantes, evaluar la multicolinealidad global y asistir en la selección de subgrupos de variables representativas y homogéneas, entre otras ventajas. Aunque este método no requiere una distribución de probabilidad determinada en los datos, los mejores resultados se obtienen con datos normales multivariantes (Johnson, 2000).


2. MÉTODOS

2.1 Medidas de adecuación para efectuar un análisis de FOES.
La extracción de las CP y de las FOES está basada en las relaciones que presentan entre sí las variables en estudio; por ello, se analizaron las matrices de correlación de los conjuntos de variables para determinar la conveniencia de efectuar el análisis. Las pruebas aplicadas fueron: (i) La evaluación del grado de significancia de la correlación entre variables, verificando que hubiese al menos un coeficiente significativo en cada columna de la matriz de correlación; (ii) La prueba Kaiser-Meyer-Olkin (KMO), que compara los coeficientes de correlación simple con los de correlación parcial y debe reportar valores entre 0.6 y 1.0 para que el análisis sea conveniente; (iii) El test de esfericidad de Bartlett, que comprueba si la matriz de correlaciones es una matriz identidad. (iv) La medida de adecuación muestral (MSA), similar al índice KMO, pero realizando el análisis para cada variable por separado, y (v) El porcentaje de residuos no redundantes con valores absolutos > 0.05. Detalles de estos métodos se reportan en (Vinacua, 1998).


2.2 Homogenización de variables aplicando análisis discriminante a las FOES de precipitación.
Se aplicó el método a 50 estaciones de precipitación en el Valle del Cauca, Colombia, con registros mensuales comprendidos entre 1972 y 1998, y a 8 estaciones de caudal (ríos Cauca y La Vieja) (1950-2000). Previamente se agruparon 57 estaciones de precipitación aplicando datos anómalos jerárquicos. Este método agrupa las estaciones progresivamente, clasificándolas en diferentes grupos, hasta minimizar la suma total del cuadrado de las distancias de cada una al centroide de cada grupo en diferentes etapas. Como medida de similitud, se empleó el promedio entre grupos del coeficiente de correlación de Pearson y se definió la distancia entre dos datos anómalos como el promedio intragrupos. El procedimiento se repitió, conformando de 1 a 49 grupos. El número de grupos se definió graficando los grupos conformados contra el coeficiente de correlación promedio de Pearson entre los grupos establecidos (ver Figura 1) El número de grupos se seleccionó en el punto donde ocurre un cambio significativo de la función (ARIDE, 2001). Así, se conformaron 3 grupos homogéneos de 20, 25 y 5 estaciones. Las estaciones (7) que presentaron datos dudosos o tendencias se agruparon individualmente y no verificaron la consistencia geográfica, por lo cual se descartaron.

El agrupamiento, que permite hacer un análisis más robusto y reducir la incertidumbre respecto a la representatividad y consistencia de los datos, se comprobó con el método geográfico y un análisis discriminante de las 4 primeras FOES. Ambos métodos verificaron la correcta clasificación de las estaciones, destacándose que la aplicación del análisis discriminante a las FOES de precipitación, en lugar de utilizar los registros completos, tiene como ventaja una menor exigencia computacional y una mayor robustez, al filtrar gran parte del ruido aleatorio que puede afectar la agrupación. La Figura 2 presenta la localización de las estaciones diferenciando los grupos homogéneos.

Figura 1. Coeficiente de correlación promedio entre grupos

Las FOES sirven para identificar patrones de variación simultánea en el conjunto de datos y para determinar agrupamientos e importancia de las variables.

La interpretación de las FOES está limitada por restricciones fundamentales. Mientras se puede asociar claramente la FOE 1 con un proceso físico conocido, es más difícil hacer lo mismo con las de mayor orden debido a la restricción de ortogonalidad, puesto que los procesos naturales no necesariamente tienen patrones ortogonales o índices incorrelacionados.

Frecuentemente la rotación de las FOES facilita la interpretación de los resultados o verifica la robustez del análisis. En este caso se utilizó el método de rotación ortogonal varimax (Richman, 1986), para verificar la robustez del análisis efectuado.

Existen otras variantes del método de FOES convencional, de amplio uso en la actualidad en el estudio de variabilidad espacio-temporal de datos, entre los cuales se destacan: El método de FOES extendidas
(Weare y Nasstrom 1982 ) para el análisis de correlación espacial, el análisis espectral singular,(Vautard y Ghil 1992) para analizar la variabilidad temporal y el análisis de CP combinado (Bretherton, 1992),que involucra variables expresadas en diferentes escalas y facilita el cribado de variables.

Figura 2. Localización de grupos homogéneos del Análisis de datos anómalos. de precipitación

 

2.4 Selección del número de CP significantes a retener. Para reducir la dimensión del conjunto de datos y obtener una representación adecuada de su variabilidad es necesario truncar el número de CP obtenidas, para lo cual, se aplicaron 7 métodos: (i) El método gráfico consistente en representar la función de autovalores y seleccionar los primeros autovalores que representan la mayor proporción de la varianza; (ii) La prueba de Barttlet, para descartar las CP no significativamente diferentes una de la otra; (iii) La selección del número de CP que representan el 80% de la varianza total, de uso popular por su facilidad de comprensión; (iv) La prueba de la raíz promedio; (v) La prueba Broken Stick; (vi) La prueba de Velicer, basada en las correlaciones parciales entre las variables originales, removiendo una o más variables, y (vii) la prueba de validación cruzada(Krzanowski, 1983), que es quizás el procedimiento más analítico y de mayor costo computacional, usado especialmente para obtener modelos y evaluar datos futuros, puestoque utiliza el estadístico PRESS que minimiza el error de predicción. Estos métodos se detallan en: (Jackson 1991), (Jolliffe 1986), (Joreskog y Reyment 1993).


Tabla 1. Pruebas de adecuación para el análisis de FOES de precipitación y caudal

determinante de la matriz de correlaciones, presentando valores altos que rechazan la hipótesis nula de que las matrices de correlación de los conjuntos de datos son idénticas, por lo cual se aconseja efectuar el análisis de FOES(Vinacua 1998).
Los índices KMO y MSA obtenidos se consideran buenos o excelentes, según la clasificación de (Kaiser, 1974), verificando la conveniencia del análisis (ver Tabla 1). La Figura 4(a) representa el porcentaje de residuos no redundantes mayores de 0.05 contra el número de CP de precipitación seleccionadas; se observa que el % de residuos mayores de 0.05 decrece exponencialmente en función del número de CP seleccionadas. Para 20 CP el porcentaje de residuos mayores da 0.05 es inferior al 5 % y para 30 CP prácticamente es inferior a 1%.

Tabla 2. Autovalores y varianzas explicada por las primeras 4 CP principales de los conjuntos de datos de precipitación mensual.

Figura 4 (a) Porcentaje de residuos de correlación mayores de 0.05 vs número de CP retenidas precipitación (Todas). (b) Porcentaje de varianza acumulada vs número de CP de Caudal.

La primera CP de caudal (ver Figura 4b) explica el 94.10% de la variabilidad total del conjunto de datos, mientras que las primeras 4 CP explican el 99.71 % de los mismos. Estos resultados coinciden con los obtenidos en las matrices residuales, que indican un buen ajuste, asociado a un alto porcentaje de varianza total representada por la primera CP.


3.3 Selección del número de CP significantes.

Algunos de los procedimientos que fueron evaluados se incluyen simplemente por su amplio uso, la rapidez de cálculo o su facilidad de entendimiento. Tal es el caso de la prueba gráfica y el porcentaje de varianza retenida. Otras pruebas como las de Broken Stick, la raíz promedio y Velicer, tienden a seleccionar muy pocas CP, cuando la primera retiene una gran proporción de la varianza; tal es el caso del conjunto de caudal cuya primera CP retiene el 94.1% de la varianza total.
La prueba de Bartlett retiene muchas CP, seguida por el criterio del porcentaje de varianza explicada del 80 %, Velicer, la raíz promedio y la validación cruzada (Krzanowski, 1983) como mejor criterio de selección. El Cuadro 2 presenta los resultados obtenidos aplicando las diferentes pruebas de selección del número de CP significantes. Para el análisis de precipitación (todas), se seleccionaron las 4 primeras CP que explican el 60.34 % de la varianza total. Como era de esperarse, los grupos homogéneos de precipitación reportaron un menor número de CP significantes dada su mayor homogeneidad y menor número de variables, 1 CP para el grupo 1, 2 CP para el grupo 2 y 1 CP para el grupo 5. Para los datos de caudal, se determinaron 4 CP a retener.

Figura 5 (a) Elipse de Hotelling para detección de datos anómalos. (b) Carta de control para verificar datos anómalos moderados

Tabla 3 Resultados de las pruebas para determinar el número de CP significantes

de caudal los valores superiores a la distancia crítica calculada a un nivel de confianza deseado (0.95) son considerados datos anómalos moderados.

3.5 Detección de multicolinealidad entre variables aplicando Análisis de FOES.
Cuando en un análisis de regresión múltiple existe correlación significativa entre las variables independientes se dice que hay multicolinealidad, y si esta es considerable, surgen problemas tales como: coeficientes de regresión muy sensibles a ligeros cambios en los datos, errores muestrales grandes en los coeficientes estimados que afectan tanto la inferencia como el pronóstico, produciendo resultados engañosos y confusos. (Chatterjee y Price,1991) tratan el tópico de la multicolinealidad y referencian una medida de la multicolinealidad global de las variables de un conjunto de datos, basándose en el análisis de CP. Definen el número de condición C como:


cuyo valor es siempre mayor que 1. Un C grande evidencia colinealidad fuerte. Los autores definen un umbral de 15, como un nivel crítico a partir del cual se tienen problemas de multicolinealidad, dicho valor está basado en observaciones empíricas. Una forma de disminuir la múlticolinealidad de los datos como análisis previo a una regresión múltiple, consiste en aplicar un análisis de FOES previamente. En la figura 6 se presenta un resumen de los valores de C obtenidos con los conjuntos de datos de precipitación y caudal del Valle del Cauca. Se observa que es pertinente realizar un análisis de FOES para reducir la multicolinealidad de los datos previa a la aplicación de cualquier otro procedimiento multivariante.

Figura 6. Valores de C para medir la multicolinealidad global de los diferentes conjuntos de variables

4. CONCLUSIONES Y RECOMENDACIONES

En los últimos años el análisis de FOES ha experimentado una creciente utilización gracias al avance de los computadores y programas para su cálculo. Aunque su propósito fundamental es el resumen y la reducción de datos, su aplicación permite obtener dimensiones subyacentes que facilitan la interpretación de los resultados. En el caso particular de la precipitación, se identificó la estructura de los datos con 4 CP, reduciendo el volumen de información de 50 a 4 series, lo que permite efectuar un análisis posterior más eficiente, robusto, confiable y adecuado. En el caso del caudal, con 1 CP se resume más del 94% de la variabilidad total de los registros de 8 estaciones. Dicha reducción sirve para identificar variables suplentes que al ser aplicadas en otras técnicas multivariantes, como la correlación canónica o la regresión múltiple, permiten obtener modelos más estables y parsimoniosos.

El método facilita la agrupación de variables, el descarte de aquellas que presentan dudosa calidad o información redundante y proporciona una idea clara de las variables que tienen mayor impacto en el análisis. De esta forma, se pueden escoger las variables más importantes para un posterior análisis. Un aspecto fundamental de ésta técnica lo constituye la selección del número de CP significantes. Las pruebas utilizadas van desde las más sencillas como el criterio gráfico de los autovalores a las más complejas, de mayor requerimiento computacional y mayor precisión, como la validación cruzada. La prueba a utilizar depende del tipo de análisis que se quiere hacer y del detalle que se requiera, una selección apresurada del número de CP, especialmente con datos correlacionados en el tiempo, puede conllevar a una estructura deformada de la dimensión real de los datos por exceso o defecto, y dificultar la interpretación de los mismos. Otro aspecto a resaltar es que el método permite completar datos faltantes con el mínimo error, conservando al máximo la estructura entre todas las variables en cuestión.

Un inconveniente asociado normalmente a la disponibilidad de un gran número de variables es la alta multicolinealidad, que a partir de ciertos umbrales, afecta la calidad de los estadísticos obtenidos en los modelos, con resultados poco fiables. El análisis de FOES además de servir para evaluar la multicolinealidad global, permite eliminarla para un tratamiento más robusto de la información. En el caso específico de la precipitación y el caudal, se detectaron umbrales muy altos, que afectan los coeficientes obtenidos en los modelos, si no se hace un tratamiento previo de la información para eliminar la multicolinealidad.

La presente investigación forma parte de un estudio que se viene realizando para evaluar la asociación entre variables macroclimáticas relacionadas con el fenómeno ENSO (El Niño Oscilación del Sur) y la hidrometeorología del Valle del Cauca-Colombia, mediante la aplicación de análisis de FOES y de Correlación Canónica. Los resultados preliminares indican que al incluir las CP de las variables macroclimáticas en el modelamiento del caudal y la precipitación, se obtiene un mejor ajuste en los modelos autoregresivos.

5. REFERENCIAS BIBLIOGRÁFICAS

ARIDE, 2001. Assesment of the Regional Impact of Droughts in Europe. Final Report. Institute of Freiburg. Freiburg. Germany.
BRETHERTON, C. S., SMITH, AND WALLACE, J.M., 1992. Intercomparison of methods for finding coupled patterns in climate data. J. Climate, 5: 514-560.
CHATTERJEE, S. & PRICE, B,. 1991. Regression Analysis by example. Jhon Wiley Sons 2nd edition . New York.
JACKSON, E. J. 1991. A User Guide to principal components. Wiley series in probability and mathematical statistics. New York. 600pp.
JOHNSON, DALLAS. 2000. Applied multivariate methods for data analysis. International Thompson Plublishing.
JOLLIFFE, I.T., 1986. Principal components analysis. Springer-Verlag, New York.
JORESKOG, K.G., & REYMENT, R. 1993. Applied Factor analysis in the natural sciences. Cambridge University Press
KAISER, H.F., 1974. An index of factorial simplicity. Psychometrika, 39, 31-36.
KRZANOWSKI, W. J. 1983. Cross validatory choice in principal components analysis: some sampling results. J. Statist. Comput., 18:294-314.
RICHMAN, M. B., 1986. Rotatión of principal components. Int. Jour. Climatology, 6:293-335.
VAUTARD, R., YIOU, P, GHIL, M., 1992. Singular spectrum Analysis: A toolkit for short, noisy chaotic signal. Physica D. 58:95-126.
VINACUA, VISAUTA, B. 1998. Análisis estadístico con SPSS para Windows. Estadística multivariante. Ed. McGraw Hill.

VON STORCH, H., ZWIERS, F.W., 1999. Statistical Analysis in Climate Research. Cambridge University Press. 484 pp.
WEARE, B. C., NASSTROM, J.N., 1982. Examples of extended empirical orthogonal function analysis. Mon. Wea. Rev., 110, 481-485.



AUTORES

Yesid Carvajal E. Profesor asociado de la Escuela de Ingeniería de Recursos Naturales y del Ambiente (EIDENAR) de la Universidad del Valle, Cali-Colombia. Ingeniero Agrícola Universidad del Valle-Universidad Nacional de Colombia. Maestría la Universidad Nacional de Colombia en 1995 Master en Hidrología Aplicada (1999) en el Centro de Estudios y Experimentación de Obras Públicas CEDEX de Madrid-España. Doctor en Hidráulica y Medio Ambiente (2004) en la Universidad Politécnica de Valencia, España. Su temática de trabajo es la hidrometeorología aplicada y el cambio climático. yecarvaj@univalle.edu.co

Juan B. Marco S. Director del Departamento de Hidráulica y Medio ambiente. Profesor Catedrático de la Escuela Técnica Superior de Ingenieros de Caminos, Canales y Puertos de la Universidad Politécnica de Valencia. Su temática de trabajo es el análisis de eventos extremos: Mapas de riesgo de inundación. Estimación de frecuencias de las crecidas. Investigación sobre la estructura estocástica espacio-temporal de las tormentas extremas. Sistemas de predicción de caudales en tiempo real. Defensa frente a avenidas.Profesor catedrático UNIVERSIDAD POLITÉCNICA DE VALENCIA españa, Escuela de Caminos Canales y Puertos jbmarco@hma.upv.es

 


 
     
Mayor información
     
Facultad de Ingeniería - Escuela de Ingeniería de los Recursos Naturales y del Ambiente EIDENAR
c.e.: eidenar@univalle.edu.co Telefax: +57 2 3212153 - +57 2 3212159
Edificio 344 - Ciudadela Universitaria Meléndez
Universidad del Valle
Cali, Colombia
©2003 - 2010 - Universidad del Valle - Luis Eduardo Gonzalez Muñeton
Portal de la Universidad del Valle