|
1.INTRODUCCIÓN
Gran
parte de la información que se maneja
en medioambiente es voluminosa, está
correlacionada, contiene información
de dudosa calidad y/o presenta datos faltantes.
El análisis de FOES o de CP es una
técnica de gran utilidad que permite
afrontar dichas dificultades, al transformar
un conjunto de variables correlacionadas
en un nuevo conjunto de variables no correlacionadas
(ortogonales), extrayendo la máxima
varianza posible en cada CP. Así,
la primera CP contiene la máxima
varianza posible de los datos, la segunda
CP la segunda máxima varianza posible
y así sucesivamente. Por ser ortogonales,
la varianza explicada por cada CP es independiente
de la explicada por las demás. El
método permite reducir la dimensión
de un conjunto de datos sin pérdida
importante de información, ofreciendo
un mejor entendimiento de las relaciones
subyacentes entre las variables; adicionalmente,
facilita la detección de datos anómalos
, calcular datos faltantes, evaluar la multicolinealidad
global y asistir en la selección
de subgrupos de variables representativas
y homogéneas, entre otras ventajas.
Aunque este método no requiere una
distribución de probabilidad determinada
en los datos, los mejores resultados se
obtienen con datos normales multivariantes
(Johnson, 2000).
2. MÉTODOS
2.1
Medidas de adecuación para efectuar
un análisis de FOES.
La extracción de las CP y de las
FOES está basada en las relaciones
que presentan entre sí las variables
en estudio; por ello, se analizaron las
matrices de correlación de los conjuntos
de variables para determinar la conveniencia
de efectuar el análisis. Las pruebas
aplicadas fueron: (i) La evaluación
del grado de significancia de la correlación
entre variables, verificando que hubiese
al menos un coeficiente significativo en
cada columna de la matriz de correlación;
(ii) La prueba Kaiser-Meyer-Olkin (KMO),
que compara los coeficientes de correlación
simple con los de correlación parcial
y debe reportar valores entre 0.6 y 1.0
para que el análisis sea conveniente;
(iii) El test de esfericidad de Bartlett,
que comprueba si la matriz de correlaciones
es una matriz identidad. (iv) La medida
de adecuación muestral (MSA), similar
al índice KMO, pero realizando el
análisis para cada variable por separado,
y (v) El porcentaje de residuos no redundantes
con valores absolutos > 0.05. Detalles
de estos métodos se reportan en (Vinacua,
1998).
2.2 Homogenización
de variables aplicando análisis discriminante
a las FOES de precipitación.
Se aplicó el método a 50 estaciones
de precipitación en el Valle del
Cauca, Colombia, con registros mensuales
comprendidos entre 1972 y 1998, y a 8 estaciones
de caudal (ríos Cauca y La Vieja)
(1950-2000). Previamente se agruparon 57
estaciones de precipitación aplicando
datos anómalos jerárquicos.
Este método agrupa las estaciones
progresivamente, clasificándolas
en diferentes grupos, hasta minimizar la
suma total del cuadrado de las distancias
de cada una al centroide de cada grupo en
diferentes etapas. Como medida de similitud,
se empleó el promedio entre grupos
del coeficiente de correlación de
Pearson y se definió la distancia
entre dos datos anómalos como el
promedio intragrupos. El procedimiento se
repitió, conformando de 1 a 49 grupos.
El número de grupos se definió
graficando los grupos conformados contra
el coeficiente de correlación promedio
de Pearson entre los grupos establecidos
(ver Figura 1) El número de grupos
se seleccionó en el punto donde ocurre
un cambio significativo de la función
(ARIDE, 2001). Así, se conformaron
3 grupos homogéneos de 20, 25 y 5
estaciones. Las estaciones (7) que presentaron
datos dudosos o tendencias se agruparon
individualmente y no verificaron la consistencia
geográfica, por lo cual se descartaron.
El agrupamiento, que permite hacer un análisis
más robusto y reducir la incertidumbre
respecto a la representatividad y consistencia
de los datos, se comprobó con el
método geográfico y un análisis
discriminante de las 4 primeras FOES. Ambos
métodos verificaron la correcta clasificación
de las estaciones, destacándose que
la aplicación del análisis
discriminante a las FOES de precipitación,
en lugar de utilizar los registros completos,
tiene como ventaja una menor exigencia computacional
y una mayor robustez, al filtrar gran parte
del ruido aleatorio que puede afectar la
agrupación. La Figura 2 presenta
la localización de las estaciones
diferenciando los grupos homogéneos.
Figura
1. Coeficiente de correlación promedio
entre grupos
Las
FOES sirven para identificar patrones de
variación simultánea en el
conjunto de datos y para determinar agrupamientos
e importancia de las variables.
La
interpretación de las FOES está
limitada por restricciones fundamentales.
Mientras se puede asociar claramente la
FOE 1 con un proceso físico conocido,
es más difícil hacer lo mismo
con las de mayor orden debido a la restricción
de ortogonalidad, puesto que los procesos
naturales no necesariamente tienen patrones
ortogonales o índices incorrelacionados.
Frecuentemente
la rotación de las FOES facilita
la interpretación de los resultados
o verifica la robustez del análisis.
En este caso se utilizó el método
de rotación ortogonal varimax (Richman,
1986), para verificar la robustez del análisis
efectuado.
Existen
otras variantes del método de FOES
convencional, de amplio uso en la actualidad
en el estudio de variabilidad espacio-temporal
de datos, entre los cuales se destacan:
El método de FOES extendidas
(Weare y Nasstrom 1982 ) para el análisis
de correlación espacial, el análisis
espectral singular,(Vautard y Ghil 1992)
para analizar la variabilidad temporal y
el análisis de CP combinado (Bretherton,
1992),que involucra variables expresadas
en diferentes escalas y facilita el cribado
de variables.
Figura
2. Localización de grupos homogéneos
del Análisis de datos anómalos.
de precipitación
2.4
Selección del número de CP
significantes a retener. Para
reducir la dimensión del conjunto
de datos y obtener una representación
adecuada de su variabilidad es necesario
truncar el número de CP obtenidas,
para lo cual, se aplicaron 7 métodos:
(i) El método gráfico consistente
en representar la función de autovalores
y seleccionar los primeros autovalores que
representan la mayor proporción de
la varianza; (ii) La prueba de Barttlet,
para descartar las CP no significativamente
diferentes una de la otra; (iii) La selección
del número de CP que representan
el 80% de la varianza total, de uso popular
por su facilidad de comprensión;
(iv) La prueba de la raíz promedio;
(v) La prueba Broken Stick; (vi) La prueba
de Velicer, basada en las correlaciones
parciales entre las variables originales,
removiendo una o más variables, y
(vii) la prueba de validación cruzada(Krzanowski,
1983), que es quizás el procedimiento
más analítico y de mayor costo
computacional, usado especialmente para
obtener modelos y evaluar datos futuros,
puestoque utiliza el estadístico
PRESS que minimiza el error de predicción.
Estos métodos se detallan en: (Jackson
1991), (Jolliffe 1986), (Joreskog y Reyment
1993).
Tabla 1. Pruebas de
adecuación para el análisis
de FOES de precipitación y caudal
determinante
de la matriz de correlaciones, presentando
valores altos que rechazan la hipótesis
nula de que las matrices de correlación
de los conjuntos de datos son idénticas,
por lo cual se aconseja efectuar el análisis
de FOES(Vinacua 1998).
Los índices KMO y MSA obtenidos se
consideran buenos o excelentes, según
la clasificación de (Kaiser, 1974),
verificando la conveniencia del análisis
(ver Tabla 1). La Figura 4(a) representa
el porcentaje de residuos no redundantes
mayores de 0.05 contra el número
de CP de precipitación seleccionadas;
se observa que el % de residuos mayores
de 0.05 decrece exponencialmente en función
del número de CP seleccionadas. Para
20 CP el porcentaje de residuos mayores
da 0.05 es inferior al 5 % y para 30 CP
prácticamente es inferior a 1%.
Tabla
2. Autovalores y varianzas explicada por
las primeras 4 CP principales de los conjuntos
de datos de precipitación mensual.
Figura
4 (a) Porcentaje de residuos de correlación
mayores de 0.05 vs número de CP retenidas
precipitación (Todas). (b) Porcentaje
de varianza acumulada vs número de
CP de Caudal.
La
primera CP de caudal (ver Figura 4b) explica
el 94.10% de la variabilidad total del conjunto
de datos, mientras que las primeras 4 CP
explican el 99.71 % de los mismos. Estos
resultados coinciden con los obtenidos en
las matrices residuales, que indican un
buen ajuste, asociado a un alto porcentaje
de varianza total representada por la primera
CP.
3.3 Selección
del número de CP significantes.
Algunos
de los procedimientos que fueron evaluados
se incluyen simplemente por su amplio uso,
la rapidez de cálculo o su facilidad
de entendimiento. Tal es el caso de la prueba
gráfica y el porcentaje de varianza
retenida. Otras pruebas como las de Broken
Stick, la raíz promedio y Velicer,
tienden a seleccionar muy pocas CP, cuando
la primera retiene una gran proporción
de la varianza; tal es el caso del conjunto
de caudal cuya primera CP retiene el 94.1%
de la varianza total.
La prueba de Bartlett retiene muchas CP,
seguida por el criterio del porcentaje de
varianza explicada del 80 %, Velicer, la
raíz promedio y la validación
cruzada (Krzanowski, 1983) como mejor criterio
de selección. El Cuadro 2 presenta
los resultados obtenidos aplicando las diferentes
pruebas de selección del número
de CP significantes. Para el análisis
de precipitación (todas), se seleccionaron
las 4 primeras CP que explican el 60.34
% de la varianza total. Como era de esperarse,
los grupos homogéneos de precipitación
reportaron un menor número de CP
significantes dada su mayor homogeneidad
y menor número de variables, 1 CP
para el grupo 1, 2 CP para el grupo 2 y
1 CP para el grupo 5. Para los datos de
caudal, se determinaron 4 CP a retener.
Figura
5 (a) Elipse de Hotelling para detección
de datos anómalos. (b) Carta de control
para verificar datos anómalos moderados
Tabla
3 Resultados de las pruebas para determinar
el número de CP significantes
de caudal los valores
superiores a la distancia crítica
calculada a un nivel de confianza deseado
(0.95) son considerados datos anómalos
moderados.
3.5
Detección de multicolinealidad entre
variables aplicando Análisis de FOES.
Cuando en un análisis
de regresión múltiple existe
correlación significativa entre las
variables independientes se dice que hay
multicolinealidad, y si esta es considerable,
surgen problemas tales como: coeficientes
de regresión muy sensibles a ligeros
cambios en los datos, errores muestrales
grandes en los coeficientes estimados que
afectan tanto la inferencia como el pronóstico,
produciendo resultados engañosos
y confusos. (Chatterjee y Price,1991) tratan
el tópico de la multicolinealidad
y referencian una medida de la multicolinealidad
global de las variables de un conjunto de
datos, basándose en el análisis
de CP. Definen el número de condición
C como:
cuyo valor es siempre
mayor que 1. Un C grande evidencia colinealidad
fuerte. Los autores definen un umbral de
15, como un nivel crítico a partir
del cual se tienen problemas de multicolinealidad,
dicho valor está basado en observaciones
empíricas. Una forma de disminuir
la múlticolinealidad de los datos
como análisis previo a una regresión
múltiple, consiste en aplicar un
análisis de FOES previamente. En
la figura 6 se presenta un resumen de los
valores de C obtenidos con los conjuntos
de datos de precipitación y caudal
del Valle del Cauca. Se observa que es pertinente
realizar un análisis de FOES para
reducir la multicolinealidad de los datos
previa a la aplicación de cualquier
otro procedimiento multivariante.
Figura
6. Valores de C para medir la multicolinealidad
global de los diferentes conjuntos de variables
4.
CONCLUSIONES Y RECOMENDACIONES
En
los últimos años el análisis
de FOES ha experimentado una creciente utilización
gracias al avance de los computadores y
programas para su cálculo. Aunque
su propósito fundamental es el resumen
y la reducción de datos, su aplicación
permite obtener dimensiones subyacentes
que facilitan la interpretación de
los resultados. En el caso particular de
la precipitación, se identificó
la estructura de los datos con 4 CP, reduciendo
el volumen de información de 50 a
4 series, lo que permite efectuar un análisis
posterior más eficiente, robusto,
confiable y adecuado. En el caso del caudal,
con 1 CP se resume más del 94% de
la variabilidad total de los registros de
8 estaciones. Dicha reducción sirve
para identificar variables suplentes que
al ser aplicadas en otras técnicas
multivariantes, como la correlación
canónica o la regresión múltiple,
permiten obtener modelos más estables
y parsimoniosos.
El
método facilita la agrupación
de variables, el descarte de aquellas que
presentan dudosa calidad o información
redundante y proporciona una idea clara
de las variables que tienen mayor impacto
en el análisis. De esta forma, se
pueden escoger las variables más
importantes para un posterior análisis.
Un aspecto fundamental de ésta técnica
lo constituye la selección del número
de CP significantes. Las pruebas utilizadas
van desde las más sencillas como
el criterio gráfico de los autovalores
a las más complejas, de mayor requerimiento
computacional y mayor precisión,
como la validación cruzada. La prueba
a utilizar depende del tipo de análisis
que se quiere hacer y del detalle que se
requiera, una selección apresurada
del número de CP, especialmente con
datos correlacionados en el tiempo, puede
conllevar a una estructura deformada de
la dimensión real de los datos por
exceso o defecto, y dificultar la interpretación
de los mismos. Otro aspecto a resaltar es
que el método permite completar datos
faltantes con el mínimo error, conservando
al máximo la estructura entre todas
las variables en cuestión.
Un
inconveniente asociado normalmente a la
disponibilidad de un gran número
de variables es la alta multicolinealidad,
que a partir de ciertos umbrales, afecta
la calidad de los estadísticos obtenidos
en los modelos, con resultados poco fiables.
El análisis de FOES además
de servir para evaluar la multicolinealidad
global, permite eliminarla para un tratamiento
más robusto de la información.
En el caso específico de la precipitación
y el caudal, se detectaron umbrales muy
altos, que afectan los coeficientes obtenidos
en los modelos, si no se hace un tratamiento
previo de la información para eliminar
la multicolinealidad.
La presente investigación forma parte
de un estudio que se viene realizando para
evaluar la asociación entre variables
macroclimáticas relacionadas con
el fenómeno ENSO (El Niño
Oscilación del Sur) y la hidrometeorología
del Valle del Cauca-Colombia, mediante la
aplicación de análisis de
FOES y de Correlación Canónica.
Los resultados preliminares indican que
al incluir las CP de las variables macroclimáticas
en el modelamiento del caudal y la precipitación,
se obtiene un mejor ajuste en los modelos
autoregresivos.
5.
REFERENCIAS BIBLIOGRÁFICAS
ARIDE,
2001. Assesment of the Regional Impact of
Droughts in Europe. Final Report. Institute
of Freiburg. Freiburg. Germany.
BRETHERTON, C. S., SMITH, AND WALLACE, J.M.,
1992. Intercomparison of methods for finding
coupled patterns in climate data. J. Climate,
5: 514-560.
CHATTERJEE, S. & PRICE, B,. 1991. Regression
Analysis by example. Jhon Wiley Sons 2nd
edition . New York.
JACKSON, E. J. 1991. A User Guide to principal
components. Wiley series in probability
and mathematical statistics. New York. 600pp.
JOHNSON, DALLAS. 2000. Applied multivariate
methods for data analysis. International
Thompson Plublishing.
JOLLIFFE, I.T., 1986. Principal components
analysis. Springer-Verlag, New York.
JORESKOG, K.G., & REYMENT, R. 1993.
Applied Factor analysis in the natural sciences.
Cambridge University Press
KAISER, H.F., 1974. An index of factorial
simplicity. Psychometrika, 39, 31-36.
KRZANOWSKI, W. J. 1983. Cross validatory
choice in principal components analysis:
some sampling results. J. Statist. Comput.,
18:294-314.
RICHMAN, M. B., 1986. Rotatión of
principal components. Int. Jour. Climatology,
6:293-335.
VAUTARD, R., YIOU, P, GHIL, M., 1992. Singular
spectrum Analysis: A toolkit for short,
noisy chaotic signal. Physica D. 58:95-126.
VINACUA, VISAUTA, B. 1998. Análisis
estadístico con SPSS para Windows.
Estadística multivariante. Ed. McGraw
Hill.
VON
STORCH, H., ZWIERS, F.W., 1999. Statistical
Analysis in Climate Research. Cambridge
University Press. 484 pp.
WEARE, B. C., NASSTROM, J.N., 1982. Examples
of extended empirical orthogonal function
analysis. Mon. Wea. Rev., 110, 481-485.
AUTORES
Yesid
Carvajal E.
Profesor asociado de la Escuela de Ingeniería
de Recursos Naturales y del Ambiente (EIDENAR)
de la Universidad del Valle, Cali-Colombia.
Ingeniero Agrícola Universidad del
Valle-Universidad Nacional de Colombia.
Maestría la Universidad Nacional
de Colombia en 1995 Master en Hidrología
Aplicada (1999) en el Centro de Estudios
y Experimentación de Obras Públicas
CEDEX de Madrid-España. Doctor en
Hidráulica y Medio Ambiente (2004)
en la Universidad Politécnica de
Valencia, España. Su temática
de trabajo es la hidrometeorología
aplicada y el cambio climático.
yecarvaj@univalle.edu.co
Juan
B. Marco S. Director del Departamento de
Hidráulica y Medio ambiente. Profesor
Catedrático de la Escuela Técnica
Superior de Ingenieros de Caminos, Canales
y Puertos de la Universidad Politécnica
de Valencia. Su temática de trabajo
es el análisis de eventos extremos:
Mapas de riesgo de inundación. Estimación
de frecuencias de las crecidas. Investigación
sobre la estructura estocástica espacio-temporal
de las tormentas extremas. Sistemas de predicción
de caudales en tiempo real. Defensa frente
a avenidas.Profesor catedrático UNIVERSIDAD
POLITÉCNICA DE VALENCIA españa,
Escuela de Caminos Canales y Puertos
jbmarco@hma.upv.es
|