|
RESUMEN
Se
presenta con este
estudio la aplicación
del Análisis
Clúster (AC)
como método
exploratorio de datos
en registros múltiples
de información
pluviométrica.
Se empleó el
análisis multivariado
en 150 estaciones
de medición
de precipitación
mensual localizadas
en el departamento
del Valle del Cauca,
Colombia. Se utilizaron
las técnicas
de Encadenamiento
Simple, Ward y Centroide
como métodos
jerárquicos
de aglomeración
y la Distancia Euclídea
al Cuadrado (DEC)
como medida de similitud.
El objetivo principal
del estudio consistió
en comprobar la hipótesis
que las estaciones
atípicas, es
decir, aquellas que
el AC agrupa individualmente
(cambio en la varianza
y la media), son de
tipo no homogéneo.
Se utilizó
un análisis
exploratorio gráfico
y cuantitativo con
series univariadas
para comprobar dicha
hipótesis.
Los resultados mostraron
que mediante el AC
se pueden obtener
las estaciones no
homogéneas,
como también
las estaciones cuyo
comportamiento no
es representa tivo
de la muestra, dado
que los grupos formados
por esta técnica
tienden a contener
elementos muy parecidos
entre sí, como
los de máxima
homogeneidad, excluyendo
los que no pertenecen
a esta clasificación.
PALABRAS
CLAVE
Análisis cluster,
Análisis exploratorio
de datos, Datos meteorológicos,
Recursos hídricos
ABSTRACT
Cluster Analysis (CA)
like method of exploratory
data in multiple records
weather data, multivariate
analysis was applied
to 150 rainfall month
stations located in
the Valle del Cauca
departamet –
Colombia was applied
and reported in this
paper. Simple Clustering
techniques, Ward and
Centroid such as hierarchical
clustering methods
and the Square of
the Euclidean distance
as similarity measure
was used. The main
objective of the study
has been to prove
that atypical stations
are inconsistency
and non-homogeneity,
unvaried exploratory
analysis like quantitative
and graphical methods
was employed to confirm
this hypothesis. The
outcomes showed that
Cluster Analysis was
successful to find
non - homogeneity
stations and non representative
stations too, because
clusters contains
very similar elements
to each other, avoiding
maximum homogeneity
elements.
KEY WORDS
Cluster Analysis,
Exploratory data,
meteorological data,
Water resources
1. INTRODUCCIÓN
El paso de los años
la recolección
de información
pluviométrica
(IP) ha mejorado;
sin embargo, los registros
en los que se basa
la meteorología
aplicada son deficientes,
tanto en calidad como
en cantidad. Las series
pluviométricas
siguen presentando
falta de información,
cambios, tendencias
y datos atípicos;
estas condiciones
pueden afectar los
resultados obtenidos
en la modelación
o simulación.
Para el uso correcto
de la IP en la ingeniería
de los recursos hídricos,
ésta debe cumplir
con el supuesto de
estacionariedad, consistencia
y homogeneidad, sin
dejar aparte la independencia.
Existen
procesos naturales
y antropogénicos
que alteran significativamente
la IP y que pueden
ocasionar cambios
y tendencias en las
series de tiempo analizadas;
es importante sañalar
que estas variaciones
también pueden
deberse al cambio
climático,
un fenómeno
relativamente reciente
que está alterando
el clima y la distribución
temporal y espacial
de la precipitación,
ocasionando recurrencia
de sequías
e inundaciones. Con
el fin de determinar
cambios y/o tendencias
en la IP se hace necesario
el Análisis
Exploratorio de Datos
(AED). El uso de la
información
sin previa evaluación
de su estructura,
consistencia y homogeneidad,
constituye un enfoque
de caja negra que
incrementa el grado
de incertidumbre sobre
la validez de los
resultados obtenidos
en cualquier experimentación
(Lobo, 2004).
En
los últimos
años el uso
del AC en el campo
de la hidrología
ha sido exitoso; muestra
de ello son las aplicaciones
que ha tenido en la
regionalización
de cuencas para el
análisis de
frecuencia de caudales
máximos y mínimos,
la estimación
de tormentas de corta
duración, la
determinación
de zonas ciclónicas
y la determinación
de regiones homogéneas
de precipitación,
entre otras (Burn
& Goel, 2000;
Dinpashoh et al.,
2004; Rao & Srinivas,
2006). El análisis
clúster es
un método multivariado
de clasificación
que no requiere de
supuestos previos
(normalidad, estacionariedad,
etc.) y es eminentemente
exploratorio. Dado
que los grupos se
forman por similaridad
entre los elementos
que componen el mismo,
se podría asumir
que aquellos elementos
que se agrupen solos
representan diferencias
significativas con
el resto. Bajo esa
suposición,
podría decirse
que el AC puede usarse
para clasificar las
estaciones meteorológicas
y suponer que aquellas
que se agrupan solas
representan una condición
atípica con
respecto a sus vecinas
o presentan deficiencias
en sus registros.
Para comprobar la
anterior hipótesis,
se presenta en este
estudio un análisis
exploratorio de datos
utilizando AC. Una
vez conseguidos los
grupos y determinadas
aquellas estaciones
que se agrupan solas,
se aplica un AED con
el fin de comprobar
que las estaciones
que no lograron unirse
a ningún grupo
son atípicas.
Para ello se utilizaron
registros de 150 estaciones
de precipitación
ubicadas en el departamento
del Valle del Cauca.
El artículo
contiene la descripción
de la zona de estudio,
un breve resumen del
AC y las técnicas
de agrupación
y similitud empleadas;
una descripción
teórica del
AED gráfico
y cuantitativo y,
por último,
los resultados, la
discusión y
las conclusiones.
2. METODOLOGÍA
Zona
de Estudio
El
análisis se
realizó para
los registros pluviométricos
de las estaciones
ubicadas en el departamento
del Valle del Cauca
(Figura 1). La región
se localiza en el
suroccidente colombiano,
comprende 42 municipios
y presenta, dentro
de sus límites
políticos,
tres regiones bien
definidas: la Costa
Pacífica, el
valle interandino
del río Cauca
y la región
andina a la que corresponden
las cordilleras Occidental
y Central. Según
Escobar et al. (2006),
en la Costa Pacífica
las precipitaciones
alcanzan hasta los
1200 mm anuales. Los
periodos secos corresponden
a los meses de junio,
julio y agosto, con
valores de precipitación
entre 0 y 50 mm mensuales,
y los meses más
húmedos son
septiembre, octubre
y noviembre, con variación
en la precipitación
entre 100 y 200 mm
mensuales. En la parte
del Alto Cauca se
presentan precipitaciones
que varían
entre los 1200 mm
y los 2300 mm anuales.
(registrados estos
últimos en
algunas estaciones
localizadas en las
costas más
altas), el páramo
de Santa Teresa (9°C)
y las máximas
en la Costa Pacífica
(>25°C).
Los
factores que afectan
la distribución
espacial y temporal
de la precipitación
en el Valle del Cauca
son debidos al patrón
general de circulación
atmosférica,
el relieve afectado
por la presencia de
la Cordillera Occidental,
la convección
profunda, la distancia
al Océano Pacífico
y la vegetación.
Actualmente en el
departamento se cuenta
con 150 estaciones
pluviométricas,
ubicadas principalmente
en el valle geográfico
del río Cauca
y administradas por
la Corporación
Autónoma Regional
del Valle del Cauca
(CVC). Los datos utilizados
en la presente investigación
son de carácter
mensual, con un periodo
de registro de 30
años (1974-2003)
en todas las estaciones.
La IP presenta datos
faltantes, los cuales
no superan el 10%
del total de los datos;
éstos fueron
estimados por medio
del método
de ponderación
normal, posterior
al proceso de estandarización
de los datos.
Materiales y Métodos
Para
realizar el AED aplicando
las técnicas
de agrupación
o análisis
clúster, se
procedió, en
primer lugar, a estandarizar
los registros de precipitación,
se estimaron los datos
faltantes y, seguidamente,
se aplicaron medidas
de similitud (distancia
euclídea al
cuadrado - DEC) y,
formación de
grupos jerárquicos
por los métodos
de encadenamiento
medio, Ward y centroide.
Una vez formados los
grupos y determinadas
aquellas estaciones
solitarias, se procedió
a aplicar el AED gráfico
y cuantitativo para
confirmar la hipótesis
de que todas las estaciones
atípicas son
aquellas que no lograron
entrar a ninguno de
los grupos encontrados
en el AC.
El
Análisis Clúster
(AC)
Es
un método estándar
del análisis
multivariado que puede
reducir una compleja
cantidad de información
en pequeños
grupos o clústers,
donde los miembros
de cada uno de ellos
comparten características
similares (Lin &
Chen, 2006). El AC
se considera una técnica
eminentemente exploratoria
que no utiliza ningún
tipo de modelo estadístico
para llevar a cabo
el proceso de clasificación
(Hair et al., 1999;
Peterson, 2002) y,
por ello, se le podría
calificar como una
técnica de
aprendizaje no supervisado,
es decir, una técnica
muy adecuada para
extraer información
de un conjunto de
datos sin imponer
restricciones previas
en forma de modelos
estadísticos
(Barrios & Carvajal,
2006).
El
AC tiene por objeto
formar grupos o clústers
homogéneos
en función
de las similitudes
o similaridades entre
ellos (Peña,
2002). Los grupos
se forman de tal manera
que cada objeto es
parecido a los que
hay dentro del clúster
con respecto a algún
criterio de selección
predeterminado (Rao
& Srinivas, 2006;
Hair et al., 1999).
Las técnicas
de agrupamiento en
el AC se pueden clasificar
en dos categorías:
el clúster
jerárquico
y el no jerárquico.
Los
procedimientos jerárquicos
consisten en la construcción
de una estructura
en forma de árbol.
Existen dos tipos
de procedimientos
de obtención
de clústers
jerárquicos:
los de aglomeración
y los divisivos. Dentro
de los métodos
jerárquicos
aglomerativos se tienen:
(i) método
de encadenamiento
simple, (ii) métodos
de encadenamiento
completo, (iii) método
de encadenamiento
medio, (iv) método
de Ward, y (v) método
del centroide (Hair
et al., 1999). Estos
procedimientos difieren
en la forma como se
calcula la distancia
entre los conglomerados,
entre los que se encuentran
la DEC, Manhattan,
coeficiente de correlación
de Pearson, Chevichev
y Cosine. El clúster
por medio de técnicas
no jerárquicas
no requiere de procesos
de construcción
de árboles;
en su lugar, asignan
los objetos a clústers
una vez que el número
de grupos a formar
esté especificado.
Los procedimientos
de aglomeración
no jerárquicos
se denominan frecuentemente
agrupaciones de k
– medias, k
– medianas y
k – modas. Una
desventaja con respecto
a la técnica
jerárquica
consiste en que debe
conocerse a priori
el número de
clústers a
obtener, lo que implica
un grado de subjetividad
en el proceso (Peterson,
2002). A pesar de
lo anterior, se considera
un método dinámico
en el sentido en que
los objetos dentro
de los clústers
se pueden mover de
un clúster
a otro, minimizando
la distancia entre
objetos dentro de
un mismo clúster
(Rao & Srinivas,
2006). Pese a las
ventajas del método
de aglomeración
no jerárquico,
en este artículo
se presenta la aplicación
del método
jerárquico
dado el interés
de no querer asignar
a priori el número
de grupos a formar.
A continuación
se describen las técnicas
empleadas en el análisis
clúster y el
método de similitud
utilizado.
Encadenamiento
medio entre grupos.
Mide la proximidad
entre dos grupos calculando
la media de las distancias
entre objetos de ambos
grupos o las medias
de las similitudes
entre objetos de ambos
grupos. Algunos autores,
como Hair et al. (1999),
afirman que el método
está sesgado
a formar conglomerados
con aproximadamente
la misma varianza.
Método
de Ward. Este proceso
de aglomeración
tiene como objetivo
establecer grupos
de tal forma que la
suma de los cuadrados
de las desviaciones
con respecto a la
media de cada variable
(que en este caso
corresponde a la estación
pluviométrica)
es mínima para
todas las estaciones
al mismo tiempo. Este
procedimiento tiende
a combinar los conglomerados
con un número
reducido de observaciones
y a formar grupos
con aproximadamente
el mismo número
de grupos (Rao &
Srinivas, 2006).
Método
del centroide. En
este método
la distancia entre
los grupos se define
como la distancia
entre sus centroides.
El centroide de cada
grupo o clúster
es a su vez el promedio
de las posiciones
de todos los puntos
dentro del clúster.
En este método,
cada vez que se agrupa
a los individuos se
calcula nuevamente
el centroide; así
el centroide cambia
a medida que se fusionan
los grupos (Hair et
al., 1999).
La
distancia euclídea
al cuadrado (DEC).
Es el cuadrado de
la suma de las diferencias
al cuadrado de dos
elementos en la variable
o variables consideradas;
la distancia se expresa
como:
(1)
donde
es
el cuadrado de la
DEC entre el objeto
i y
el objeto j, representa
el valor estandarizado
de la variable m para
el objeto i, es el
valor estandarizado
de la variable m para
el objeto j (Castellarin
et al., 2001).
El
AC es un método
multivariado sensible
al uso de datos no
estandarizados y,
más aún,
si la medida de similitud
usada es la DEC, como
es el caso de estudio.
Peña (2002)
y Castellarin et al.
(2001) expresan que
la falta de estandarización
genera inconsistencias
entre las soluciones
clúster, dado
que la medida de la
distancia entre objetos
se ve afectada por
el rango numérico
de variación
entre variables.
Si
cada una de las variables
se mide en una escala
diferente, el orden
de las similitudes
puede variar con sólo
un cambio en la escala
de una de ellas. Existen
diversos métodos
de estandarización;
algunos pueden ser
vistos en Rao &
Srinivas (2006) y
Lin & Chen (2006),
pero el método
más usado es
la conversión
de cada variable a
unas puntuaciones
estándar restando
la media y dividiendo
por la desviación
estándar típica
de cada variable.
Este proceso convierte
cada puntuación
de los datos originales
en un valor estandarizado
con media cero y desviación
estándar uno
(1).
Una vez estandarizados
los datos mensuales
de las 150 estaciones
de precipitación,
se procedió
a calcular la DEC
y a formar los grupos
por los métodos
de encadenamiento
medio, Ward y el centroide.
En el método
de encadenamiento
medio el proceso parte
inicialmente con un
máximo número
de grupos a formar,
en este caso 150;
posteriormente busca
el par más
cercano y se unen
formando un nuevo
y único grupo,
continuando de esta
forma hasta que se
forme un solo clúster
que contiene a todas
las estaciones originales
(Hartigan, 1975).
La búsqueda
del par más
cercano requiere comparar
entre sí todas
las distancias euclídeas
al cuadrado.
Análisis
exploratorio univariado
de información
pluviométrica
El AED consta básicamente
de métodos
gráficos y
cuantitativos que
permiten visualizar
gráficamente
y cuantificar matemáticamente
la estacionariedad,
los cambios y las
tendencias en la serie.
Los métodos
gráficos, como
herramienta exploratoria
de los datos, muestran
de forma gráfica
las características
de una distribución,
la presencia de cambios,
saltos, tendencias
y relaciones entre
variables, que de
otra manera no podrían
ser descubiertas (Maidment,
1993). Los métodos
cuantitativos, en
cambio, hacen uso
de herramientas estadísticas
y matemáticas
para comprobar la
estacionariedad, la
presencia de tendencias
y los cambios en los
registros.
Análisis
Gráfico. El
AED por método
gráfico debería
ser el primer análisis
a realizar antes de
cualquier análisis
confirmatorio o cuantitativo.
Dentro del análisis
exploratorio gráfico
se recomienda utilizar:
(a) la gráfica
de serie de tiempo
con el propósito
de observar cambios,
saltos y tendencias;
(b) el diagrama de
cajas, para ver gráficamente
estadígrafos,
tales como, la mediana,
la desviación
estándar y
los datos atípicos;
(c) la gráfica
de doble masa, que
permite detectar cambios
o errores en las series
;y, (d) la gráfica
de normalidad, para
comprobar si la distribución
de los datos mensuales
se ajusta a una distribución
normal (Castro &
Carvajal-Escobar,
2006).
Análisis
Cuantitativo. Después
de realizar el AED
por medio gráfico
conviene realizar
un análisis
confirmatorio con
el fin de comprobar
estadísticamente
lo que por medio visual
se detectó.
Para realizar esto
existen numerosas
pruebas estadísticas
paramétricas
y no paramétricas;
el uso de una u otra
dependerá de
la cantidad y la calidad
de la información
disponible. Las pruebas
pueden ser consultadas
en detalle en Castro
& Carvajal-Escobar
(2010).
3. RESULTADOS
Y DISCUSIÓN
Aplicación
de Análisis
Clúster
En la Figura 1 se
muestra, a modo de
ejemplo y aplicando
el método de
encadenamiento simple,
el total de las estaciones,
asignándoles
un círculo
a aquellas que se
clasificaron en algún
grupo. Según
la hipótesis
inicial, aquellas
estaciones que se
agrupan de forma independiente
representan estaciones
con algún tipo
de inconsistencia;
esta hipótesis
fue comprobada con
el análisis
exploratorio y confirmatorio
de datos univariado
aquellas representadas
con una X y a aquellas
que quedaron sin clasificación.
A todas aquellas estaciones
que se agruparon solas
se les aplicó
el AED gráfico
y cuantitativo con
el propósito
de confirmar la hipótesis
inicial, las cuales
se identificaron con
un símbolo
de aprobación
().
Figura 1.Representación
de los grupos de estaciones
formados – 60
clusters
Se
verificó la
aplicabilidad del
AC como método
multivariado para
el AED, comparando
los resultados obtenidos
de aplicar los tres
métodos jerárquicos
de aglomeración
(encadenamiento medio,
Ward y centroide)
con los resultados
del estudio realizado
por CVC (2006), donde
se aplicaron técnicas
estadísticas
para verificar la
calidad de la información
pluviométrica
del Valle del Cauca.
Se encontró
que de 150 estaciones
de precipitación
presentes en la zona
de estudio, 37 tenían
registros no homogéneos
desde el punto de
vista gráfico
y cuantitativo.
El resultado de la
aplicación
de los métodos
jerárquicos
con el uso de la DEC
como medida de similitud
se puede observar
en la Tabla 1, en
la cual se presenta
el número de
estaciones que se
agrupan solas (atípicas),
y de ellas, cúales
son no homogéneas,
es decir, tienen una
variación en
los parámetros
estadísticos
como media, varianza
y momentos de orden
superior. A partir
de estos resultados
se encontro que los
métodos de
encadenamiento medio
y del centroide son
los más susceptibles
a las estaciones atípicas
y tienden a agrupar
estaciones de forma
independiente desde
el inicio del proceso
de aglomeración.
Posiblemente la razón
de ello es que los
Figura
2.Resultados gráficas
series de tiempo,
diagramas de caja
y gráfico de
normalidad
grupos
formados en el AC
tienden a contener
elementos muy parecidos
entre sí (máxima
homogeneidad) y a
excluir a los que
no lo son.
Para
los tres métodos,
a medida que aumenta
el número de
clústers aumenta
el número de
estaciones no homogéneas
escogidas, pero asimismo
aumenta el número
de estaciones atípicas
a analizar por métodos
de exploración
univariados; algo
que resultaría
inoperante en términos
de ahorro de tiempo.
Es por ello que a
partir del análisis
efectuado, se realizaron
varias pruebas y se
determinó la
mitad del número
total de estaciones
analizadas, en este
caso 75, como valor
óptimo de clusters
para detectar el mayor
número de estaciones
no homogéneas
en el método
de encadenamiento
medio.
Para
un agrupamiento de
75 clusters, el método
de encadenamiento
medio permitió
separar el 56.25%,
que representan
18 del total de estaciones
no homogéneas,
mientras que el método
de Ward solamente
el 37.5% que constituyen
12 estaciones; de
otro lado, el método
del centroide permitió
separar el 75% de
las estaciones no
homogéneas
(24), siendo más
eficiente en este
sentido; no obstante,
fue el menos eficiente
(32.98%) al seleccionar
73 estaciones atípicas,
de las cuales 24 eran
no homogéneas,
mientras que con el
encadenamiento medio,
la eficiencia fue
de 42.45%, al separar
43 estaciones atípicas
de un total de 18
no homogéneas.
Análisis
exploratorio y cuantitativo
de datos
En la Tabla 1 se presentan
los resultados del
análisis Clúster;
con éstos se
verificó cuales
de las estaciones
atípicas obtenidas
por los métodos
de encadenamiento
medio resultaban ser
no homogéneas
a partir del análisis
exploratorio unitario.
Para realizar este
análisis se
requiere que los datos
de las estaciones
no estén estandarizados;
es decir, se utiliza
la información
origi-
Tabla1.
Resultados del análisis
Clúster. 1Estaciones
atípicas, 2.
estaciones no homogéneas,
3. % efectividad 4.
% De estaciones no
homogéneas
nal
registrada en las
estaciones. En primera
instancia se aplicó
el análisis
gráfico usando
la gráfica
de serie de tiempo
y el diagrama de cajas
como elementos visuales,
los cuales permitieron
determinar si la serie
presentaba tendencias
o cambios; además,
se eleboraron las
gráficas Q-Q
con el fin de comprobar
si los datos de cada
estación se
distribuían
normalmente o no,
para asimismo aplicar
pruebas paramétricas,
o no paramétricas
según correspondiera.
La prueba de normalidad
usada fue la de Kolmogorov
– Smirnov con
un nivel de significancia
del 5%.
La Tabla 2 muestra
el resultado de las
pruebas estadís
ticas aplicadas a
las estaciones que
se agruparon solas
después del
proceso de aglomeración.
Algunas pruebas gráficas
muestran que la mayoría
de las estaciones
no presentan comportamiento
normal, a excepción
de Yurumanguí,
y cinco de ellas no
son estacionarias,
pues mostraron tendencias,
cambios y saltos en
la representación
gráfica de
las series de tiempo
y diferencias en el
valor de la mediana
en el diagrama de
cajas.
Los
resultados del análisis
confirmatorio se presentan
en la Tabla 3, la
cual muestra que la
mayoría de
los regis-
Tabla
2. Resultados de las
pruebas estadísticas
aplicadas a las estaciones
que se agruparon solas
después del
proceso de aglomeración.
ES: estacionariedad
, NT: no tiene tendencia
según la prueba
de Spearman , 1.Spearman
, 2. Bartlett, 3.Levene,
4. F – Fisher,
5. Contraste de signos,
6. Rangos signados
de Wilcoxon, 7. Mann
– Whitney, 8.
Kruskal – Walls,
9. Prueba t
Tabla
3. Resultados análisis
exploratorios de datos
- análisis
gráfico
ST: serie de tiempo
DC: diagrama de cajas
GN: gráfica
de normalidad
PN: prueba de normalidad
Kolmogorov Smirnov
A: acepta la prueba
R: rechaza la prueba
NA: no aplica
tros
de las estaciones
no se distribuyen
normalmente se usaron
pruebas paramétricas
para el análisis
de la estabilidad
de la varianza. Algunos
autores, como Castro
& Carvajal-Escobar
(2010), recomiendan
el uso de la prueba
F- Fisher, sea o no
sea infringida la
prueba de normalidad,
porque es una prueba
robusta cuando se
trata de probar las
hipótesis alternas
de la prueba; es este
el caso en el que
las varianzas difieren.
Se comprobó
que efectivamente
7 estaciones (Bosque,
Yurumanguí,
El Tigre, La Italia,
Santa Teresa, Providencia
y Brisas) de las 12
estaciones atípicas
(las que se agrupan
de forma independiente)
presentan variación
en los parámetros
estadísticos
(media, varianza),
es decir, son no homogéneas.
Estos resultados fueron
coincidentes con los
mostrados en el estudio
realizado por la CVC
(2006), donde se aplicaron
técnicas estadísticas
para verificar la
calidad de la información
climatológica
del Valle del Cauca.
Las
estaciones no homogéneas
obtenidas del análisis
clúster no
pueden ser consideradas
las únicas
de este tipo, ya que
dentro de los conglomerados
formados es posible
que existan estaciones
con falta de estabilidad
en la media o en la
varianza o ambas (Barrios
& Carvajal,
2006). La técnica
jerárquica
usada para la formación
de clústers
presenta la desventaja
de dar una idea equívoca
al presentar combinaciones
iníciales indeseables
que pueden persistir
a lo largo del análisis,
lo que podría
llevar a resultados
artificiales. Para
que los resultados
del análisis
clúster sean
aceptados con mayor
certeza se requieren
varias aplicaciones
bajo condiciones cambiantes
con las estaciones
atípicas seleccionadas
como dudosas, recalculando
nuevamente clústers
o usando diferentes
medidas de similitud
y métodos de
aglomeración.
4. CONCLUSIONES
Como técnica
de análisis
multivariado el AC
puede ser muy útil
para reducir una compleja
cantidad de información,
pero debido a que
su aplicación
es más un arte
que una ciencia se
puede llegar a aplicar
de forma errónea.
Los métodos
de aglomeración
jerárquicos,
no jerárquicos,
híbridos, fuzzy,
las medidas de similitud,
la forma como se escoge
el número óptimo
de grupos e incluso
los elementos de procedimiento,
hacen que se presenten
múltiples soluciones
y que la decisión
final sea tomada más
de manera subjetiva
que de forma objetiva.
El
AC se asume con un
notable grado de riesgo,
ya que ofrece clasificaciones
inexactas, incluso
imponiendo grupos
que realmente no existen.
En la literatura consultada
en muchos casos se
afirma que esta técnica
es un estigma metodológico,
ya que algunas veces
los grupos que se
identifican no reflejan
condiciones reales
sino que son “simples
artificios estadísticos
supeditados a variaciones
numéricas aleatorias
entre clústers”,
cuestionando su valor
como método
aplicativo a la investigación
debido a los resultados
equívocos a
los que lleva a veces
su utilización.
El
resultado más
interesante obtenido
con este análisis
clúster fue
el hecho de que la
gran mayoría
de las estaciones
que fueron identificadas
como “no homogéneas”
son estaciones que
presentan un porcentaje
de datos faltantes
mayor al 10%.
Se
estableció
una metodología
dentro de las pruebas
cuantitativas que
indica que las primeras
pruebas a realizarse
deben ser las de estabilidad
en la varianza, debido
a dos razones: la
primera es si la serie
de tiempo es inestable
en la varianza, la
serie no es estacionaria
y, por lo tanto, no
es conveniente usar
la serie para un análisis;
la segunda, porque
hay pruebas de estabilidad
de la media que requieren
como principio la
estacionariedad en
la varianza.
El
método de encadenamiento
medio permitió
seleccionar más
estaciones homogéneas
que el método
del centroide, pero
a su vez el método
del centroide fue
más eficaz
en separar las estaciones
anómalas. De
los tres métodos,
el de Ward arrojó
los peores resultados.
5. AGRADECIMIENTOS
Los autores agradecen
a la Corporación
Autónoma Regional
del Valle del Cauca,
a la Universidad del
Valle, por el apoyo
al proyecto, y al
Grupo de Ingeniería
de Recursos Hídricos
y Desarrollo de Suelos
IREHISA, especialmente
a Andrés Fabián
Barrios por su apoyo
para la realización
de este trabajo de
investigación.
6. REFERENCIAS
BIBLIOGRÁFICAS
Burn, D. H. y Goel,
N. K. (2000). The
formation of groups
for regional flood
frequency analysis.
Hydrological Sciences
Journal 45 (1),
97–112.
Barrios,
A. F. y Carvajal,
Y. (2006). Regionalización
de índices
de aridez y agresividad
climática
en Colombia utilizando
análisis
multivariado. Conformación
estadística
de una base de datos
nacional homogénea
.Tesis de grado.
Universidad del
Valle. Facultad
de Ingeniería.
Santiago de Cali
Castellarin,
A., Burn, D. y Brath,
A. (2001). Assessing
the effectiveness
of hydrological
similarity measures
for flood frequency
analysis. Journal
of Hydrology 241,
pp 270-285.
Castro,
L. y Carvajal, Y.
(2010). Análisis
de tendencia y homogeneidad
de series climatológicas.
Ingeniería
de Recursos Naturales
y del Ambiente,
9,15-25.
Corporación
Autónoma
Regional del Valle
del Cauca (CVC)
(2006) Aplicación
de técnicas
estadísticas
en las series climatológicas
mensuales totales
de precipitación,
evaporación
y brillo solar,
y medios mensuales
de temperatura,
con el fin de corregir,
complementar y verificar
la calidad de la
información.
Dinpashoh,
Y., Fakheri-Fard,
A., Moghaddam, M.,
Jahanbakhsh, S.
y Mirnia, M. (2004).
Selection of variables
for the purpose
of regionalization
of Iran’s
precipitation climate
using multivariate
methods. Journal
of Hydrology 297,
pp 109–123.
Escobar,
S., Aristizábal,
H., Gonzalez, H.,
Sandoval, M.C. y
Carvajal, Y. (2006).
Elaboración
y actualización
de isolíneas
de precipitación,
brillo solar, evaporación
y temperatura mensual
en el Valle de Cauca
y la cuenca del
alto Cauca. VII
Congreso Colombiano
de Meteorología.
Adaptación
a la Variabilidad
y al Cambio Climático.
Hair,
J. F., Anderson,
R. E., Tatham, R.
I. y Black, W. (1999).
Análisis
Multivariante. 5
edición.
Editorial Prentice
Hall. Madrid.
Lin,
G. y L. Chen. (2006).
Identification of
homogeneous regions
for regional frequency
analysis using the
self-organizing
map. Journal of
Hydrology 324, pp
1–9.
Lobo,
D. (2004). Guía
Metodológica
para la delimitación
del mapa de zonas
aridas, semiáridas
y subhúmedas
secas de América
Latina y el Caribe.
Centro del Agua
para Zonas Áridas
y Semiáridas
de América
Latina y El Caribe
– CAZALAC
– UNESCO PHI
– Gobierno
de Flandes.http://www.cazalac.org/mapa_alc_guia.php
Maidment,
D., (1993). Handbook
of Hydrology. McGRAW
– HILL, INC.
United States of
America.
Peña,
D. (2002). Análisis
de Datos Multivariantes.
Mc Graw - Hill.
España.
Peterson,
L. (2002).CLUSFAVOR
5.0: hierarchical
cluster and principal-component
analysis of microarray-based
transcriptional
profiles. Departments
of Medicine, Molecular
and Human Genetics,
and Scott Department
of Urology, Baylor
College of Medicine,
One Baylor Plaza,
ST-924, Texas, USA.
Genome Biology3:software0002.1-0002.8.
Available in: http://genomebiology.com/2002/3/7/software/0002.
Rao,
A. R. y Srinivas,
V. (2006). Regionalization
of watersheds by
hybrid-cluster analysis.
Journal of Hydrology,
318, pp 37–56.
|