ANÁLISIS DE CONGLOMERADOS
El análisis de conglomerados (en inglés,
cluster analisys) es una técnica multivariante que permite agrupar los
casos o variables de un archivo de datos en función del
parecido o similitud existente entre ellos.
Como técnica de agrupación de variables, el
análisis de conglomerados es similar al análisis
factorial; pero, mientras que la
factorización es más bien poco flexible en algunos de sus supuestos
(linealidad, normalidad, variables cuantitativas, etc.) y siempre estima de la
misma manera la matriz de distancias, la aglomeración es menos restrictiva en sus supuestos (no
exige linealidad, ni simetría, permite variables categóricas, etc.) y admite
varios métodos de estimación de la matriz de distancias.
Como técnica de agrupación de casos, el
análisis de conglomerados es similar al análisis
discriminante. Sin embargo, mientras que el análisis
discriminante efectúa la clasificación tomando como referencia un criterio
o variable dependiente (los grupos de clasificación), el análisis de
conglomerados permite detectar el número óptimo de grupos y su composición
únicamente a partir de la similitud existente entre los casos; además, el
análisis de conglomerados no asume ninguna distribución específica para las
variables.
En este sentido, igual que el análisis
factorial ya expuesto en un artículo anterior, el Análisis de Conglomerados examina todo un conjunto de relaciones
interdependientes, éste no distingue entre variables dependientes e
independientes, sino que examina las relaciones interdependientes entre el
conjunto completo de variables. Su objetivo principal es clasificar objetos en
grupos más o menos homogéneos con base en el conjunto de variables
consideradas. Los objetos en un grupo son relativamente similares en términos de
estas variables y diferentes de los objetos de otros grupos. Cuando se usa de
esta manera, el análisis de conglomerados es la contrapartida del análisis
factorial, ya que no reduce el número de variables sino de objetos, a los
que agrupa en un número mucho menor de conglomerados.
En este artículo se describe el concepto
básico del análisis de conglomerados. Se analizan los pasos implicados en la
realización del análisis y se ilustran en el contexto de la conglomeración
jerárquica usando el programa
estadístico SPSS. Después se presenta una aplicación de la conglomeración
no jerárquica, seguida del procedimiento de dos pasos y del análisis de la conglomeración
de las variables.
programa
estadístico SPSS dispone de dos tipos de análisis de conglomerados: el
análisis de conglomerados jerárquico y
el análisis de conglomerados de K medias. El método jerárquico es idóneo para
determinar el número óptimo de conglomerados existente en los datos y el
contenido de los mismos. El método de K medias
permite procesar un número ilimitado de casos, pero sólo permite
utilizar un método de aglomeración y requiere que se proponga previamente el
número de conglomerados que se desea obtener
Concepto básico
El análisis de conglomerados es una técnica
usada para clasificar objetos o casos en grupos relativamente homogéneos
llamados conglomerados. Los objetos de cada conglomerado tienden a ser similares
entre sí y diferentes de los objetos de otros conglomerados. El análisis de
conglomerados también se conoce como análisis de clasificación o taxonomía
numérica. (Malhotra, 1987)
Aquí se presentan los procedimientos de
conglomeración que asignan cada objeto a uno y sólo un conglomerado. La figura que
se presenta a continuación muestra una situación ideal de conglomeración, en la
cual los conglomerados se separan de forma clara en dos variables: conciencia
de la calidad (variable 1) y sensibilidad a los precios (variable 2). Advierta
que cada consumidor cae en un conglomerado y que no hay áreas de traslape. Por
otro lado, la figura siguiente presenta una situación de conglomeración que es
más probable encontrar en la práctica en ella los límites de algunos
conglomerados no están bien definidos y la clasificación de algunos
consumidores no es tan evidente, ya que muchos de ellos pueden agruparse en un
conglomerado u otro.
Tanto el análisis de conglomerados como el
análisis discriminante se interesan en la clasificación. Sin embargo, el
análisis discriminante requiere de un conocimiento previo del conglomerado o la
pertenencia al grupo de cada objeto o caso incluido, para desarrollar la regla
de clasificación.
En contraste, en el análisis de conglomerados
no existe información a priori sobre
la pertenencia al grupo o conglomerado de ninguno de los objetos. Los grupos o
conglomerados son sugeridos por los datos, no se definen a priori.
Uso del análisis de conglomerados en marketing
El análisis de conglomerados se ha usado en
marketing con diversos propósitos, entre los que se encuentran:
- Segmentación del mercado: por ejemplo, puede agruparse a los consumidores según los beneficios
que buscan en la compra de un producto. Cada conglomerado estaría formado por consumidores
que son relativamente homogéneos en términos de los beneficios que buscan. Este
procedimiento se conoce como segmentación por beneficios.
- Entender la conducta de los
compradores: el análisis de conglomerados puede usarse
para identificar grupos homogéneos de compradores. Luego se examina por separado
la conducta de compras de cada grupo. El análisis de conglomerados también se
ha empleado para identificar las estrategias que usan los compradores de
automóviles cuando buscan información externa.
- Identificar oportunidades de
nuevos productos: al agrupar marcas y productos, es
posible determinar conjuntos competitivos dentro del mercado. Las marcas del
mismo conglomerado compiten mucho más entre sí que con las marcas de otros
conglomerados. Una empresa puede comparar sus ofertas actuales con las de sus
competidores para identificar posibles oportunidades de productos nuevos.
- Elegir mercados de prueba: al agrupar ciudades en conglomerados homogéneos, es posible elegir
ciudades comparables para probar diversas estrategias de marketing.
- Reducir los datos: el análisis de conglomerados es útil como herramienta general de
reducción de datos, para desarrollar conglomerados o subgrupos de datos que
sean más fáciles de manejar que las observaciones individuales. El análisis
multivariado posterior no se realiza en las observaciones individuales,
sino en los conglomerados. Por ejemplo, para describir las diferencias en la
conducta de uso del producto por parte de los consumidores, primero se dividiría
a éstos en conglomerados. Las diferencias entre los grupos se examina luego con
el análisis discriminante múltiple.
Estadísticos
asociados con el análisis de conglomerados
Antes de revisar los
estadísticos asociados con el análisis de conglomerados, debería mencionarse
que la mayoría de los procedimientos de conglomeración son relativamente
sencillos, que no se sustentan en un razonamiento estadístico amplio. Más bien,
en su mayoría son heurísticos que se basan en algoritmos.
Por lo tanto, existe
un notable contraste entre el análisis de conglomerados y el análisis
de varianza, la regresión, el análisis
discriminante y el análisis
factorial, los cuales se fundamentan en un razonamiento estadístico amplio.
Aunque muchos de los procedimientos de conglomeración tienen propiedades
estadísticas importantes, debe reconocerse su sencillez fundamental.
Los siguientes
estadísticos y conceptos se asocian con el análisis de conglomerados.
- Calendario de aglomeración: este programa brinda información sobre objetos o casos que se
combinan en cada etapa del proceso de conglomeración jerárquica.
- Centroide del conglomerado: es la media de los valores de las variables de todos los objetos o casos
de un conglomerado particular.
- Centros del conglomerado: son el punto de partida en la conglomeración no jerárquica. Los
conglomerados se construyen en torno a estos centros o semillas.
- Pertenencia al conglomerado: indica el conglomerado al que corresponde cada objeto o caso.
- Dendrograma: conocido como gráfica de árbol, es un medio gráfico para presentar
los resultados de la conglomeración. Las líneas verticales representan
conglomerados que están unidos.
La posición de la
línea en la escala indica las distancias en las que se unen los conglomerados.
El dendrograma se lee de izquierda a derecha. La figura siguiente es un ejemplo
de dendrograma.
Distancias entre los centros de los conglomerados: estas distancias indican qué tan separados están los pares
individuales de conglomerados. Los que están muy separados son distintos y, por
lo tanto, son deseables.
Diagrama de carámbanos: es una
representación gráfica de los resultados de la conglomeración, recibe ese
nombre porque parece una fila de carámbanos que cuelgan del tejado de una casa.
Las columnas corresponden a los objetos que se conglomeran; y las filas, al
número de conglomerados. Un diagrama de carámbanos se lee de abajo hacia
arriba. La figura es un diagrama de carámbanos.
Matriz de coeficientes
de semejanza y distancia: es una matriz de triángulo inferior que contiene distancias
entre pares de objetos o casos.
Realización de un
análisis de conglomerados
En la siguiente figura
se presentan los pasos implicados en la realización de un análisis de
conglomerados.
El primer paso es el
planteamiento del problema de agrupamiento definiendo las variables en las que
se basará la conglomeración. En seguida debe elegirse una medida adecuada de
distancia. Esta distancia determina qué tan parecidos o diferentes son los
objetos agrupados. Se han desarrollado muchos procedimientos de conglomeración
y el investigador debe elegir el que sea apropiado para el problema tratado.
La decisión sobre el
número de conglomerados requiere del juicio del investigador.
Los conglomerados
derivados deben interpretarse en términos de las variables usadas para generarlos
y describirse en términos de otras variables destacadas. Por último, el
investigador debe evaluar la validez del proceso de conglomeración.
Planteamiento del
problema
Quizá la parte más
importante del planteamiento del problema de conglomeración sea la elección de
las variables en se basará el agrupamiento. Aun la inclusión de una o dos
variables irrelevantes distorsionaría una solución de agrupamiento, que de otra
manera podría ser útil. En esencia, el conjunto de las variables elegidas debe
describir la semejanza entre los objetos en términos relevantes para el
problema de investigación de mercados. Las variables tienen que elegirse con
base en la investigación previa, la teoría o la consideración de la hipótesis
evaluada. En la investigación exploratoria, el investigador debe valerse de su
juicio e intuición.
Para ilustrar,
consideramos el agrupamiento de los consumidores con base en sus actitudes hacia
ir de compras. A partir de la investigación previa, se identificaron seis
variables de actitud. Se pidió a los consumidores que expresaran su grado de
acuerdo con los siguientes enunciados en una escala de 7 puntos (1 =
desacuerdo, 7 = de acuerdo):
V1: ir de
compras es divertido
V2: ir de
compras es malo para su presupuesto
V3:
cuando voy de compras aprovecho para comer fuera
V4:
cuando voy de compras busco las mejores ofertas
V5: no me interesa
ir de compras
V6: puede
ahorrar mucho dinero si compara precios
En la tabla se
presentan los datos obtenidos de un pretest aplicado a una muestra de 20 encuestados.
Observe que en realidad, los conglomerados se forman con muestras mucho mayores
de 100 o más. Se utilizó una muestra chica para ilustrar el proceso de
conglomeración. En la práctica, el análisis de conglomerados se hace con
muestras mucho más grandes
Elección de una
medida de distancia o semejanza
Dado que el objetivo
de la conglomeración es agrupar objetos similares, se necesita alguna medida para
evaluar qué tan semejantes o diferentes son dichos objetos. El enfoque más
común consiste en medir la semejanza en términos de la distancia entre pares de
objetos. Los objetos separados por una distancia menor son más similares entre
sí, que aquellos que tienen distancias mayores. Hay diversas formas de calcular
la distancia entre dos objetos.
La medida de
semejanza de uso más común es la distancia euclidiana o su cuadrado. La
distancia euclidiana es la raíz cuadrada de la suma de diferencias elevadas al
cuadrado en los valores de cada variable. Se dispone también de otras medidas
de distancia. La distancia de manzanas o de Manhattan entre dos objetos es la
suma de las diferencias absolutas de los valores para cada variable.
La distancia
Chebychev entre dos objetos es la diferencia absoluta máxima en los valores de cualquier
variable. Para este ejemplo, se usará el cuadrado de la distancia euclidiana.
Si las variables se
miden en unidades muy diferentes, la solución de la conglomeración estará influida
por las unidades de medición. En un estudio sobre compras en un supermercado,
las variables de actitud pueden medirse en una escala tipo Likert de 9 puntos;
la preferencia en términos de frecuencia de visitas al mes y la cantidad de
dólares gastados; la lealtad hacia la marca en términos del porcentaje de
compras de artículos de consumo básico asignado al supermercado favorito.
En estos casos,
antes de agrupar a los encuestados, es necesario estandarizar los datos por
medio del reescalamiento de cada variable para obtener una media de cero y una
desviación estándar de uno. Aunque la estandarización elimina la influencia de
la unidad de medición, también reduce las diferencias entre los grupos en
variables que podrían diferenciar mejor los grupos o conglomerados.
También es deseable
eliminar los periféricos (casos con valores atípicos).
El uso de diferentes
medidas de distancia puede originar diferentes resultados de la conglomeración.
Por lo tanto, es aconsejable usar diferentes mediciones y comparar los resultados.
Una vez que se eligió una medida de distancia o de semejanza, podemos elegir el
procedimiento de agrupamiento.
Selección de un
procedimiento de conglomeración
La figura que se
presenta al final de este párrafo puede apreciarse una clasificación de los
procedimientos de conglomeración, los cuales pueden ser jerárquicos, no
jerárquicos u otros. La conglomeración jerárquica se caracteriza por el desarrollo
de una jerarquía o estructura tipo árbol. Los procedimientos jerárquicos pueden
ser por aglomeración o por división. La conglomeración por aglomeración
comienza con cada objeto en un conglomerado separado. Los conglomerados se
forman al agrupar objetos en conglomerados cada vez más grandes; este
procedimiento continúa hasta que todos los objetos son miembros de un solo
conglomerado. La conglomeración por división comienza con todos los objetos
agrupados en un solo conglomerado. Los conglomerados se dividen hasta que cada
objeto queda en un conglomerado separado.
Las técnicas por
aglomeración son comunes en la investigación de mercados; incluyen los procedimientos
de enlace, los procedimientos de varianza o sumas de errores elevadas al
cuadrado, y los procedimientos centroides. Los procedimientos de enlace
incluyen enlace único, enlace completo y enlace promedio. La técnica de enlace
único se basa en la distancia mínima o la regla del vecino más cercano. Los
primeros dos objetos agrupados son los que tienen la menor distancia entre sí.
Se identifica la
siguiente distancia más corta y el tercer objeto se agrupa con los dos
primeros, o se crea un nuevo conglomerado de dos objetos. En cada etapa, la
distancia entre dos conglomerados es la distancia entre sus dos puntos más
cercanos como se aprecia en la figura siguiente.
En cualquier etapa
se fusionan dos conglomerados a través del enlace único más cercano entre
ellos. Este proceso continúa hasta que todos los objetos estén en un solo
conglomerado. El procedimiento de enlace único no funciona bien cuando los
conglomerados están mal definidos. El procedimiento de enlace completo es
similar al enlace único, a excepción de que se basa en la distancia máxima o en
la regla del vecino más lejano. En el enlace completo, la distancia entre dos
conglomerados se calcula como la distancia entre sus dos puntos más lejanos.
El procedimiento de
enlace promedio funciona de manera similar. Sin embargo, en éste la distancia entre
dos conglomerados se define como el promedio de las distancias entre todos los
pares de objetos, donde un miembro del par pertenece a cada uno de los
conglomerados.
Como se observa, el
procedimiento de enlace promedio usa la información de todos los pares de distancias,
no sólo las distancias mínimas o máximas. Por tal razón, suele preferirse a los
procedimientos de enlace único y completo.
Los procedimientos
de varianza intentan formar conglomerados para
minimizar la varianza interna. Un procedimiento de varianza usado con
frecuencia es la técnica de Ward, que calcula las medias de todas las variables
de cada conglomerado. Luego, calcula para cada objeto el cuadrado de la
distancia euclidiana de las medias del conglomerado como se presenta en la
figura anterior. Se suman estas distancias para todos los objetos. En cada
etapa, se combinan los dos conglomerados con el menor incremento en la suma de
cuadrados global de las distancias dentro del conglomerado.
En los
procedimientos de centroides, la distancia entre dos conglomerados es la
distancia entre sus centroides (las medias de todas las variables), como se
muestra en la figura.
Cada vez que se
agrupan los objetos, se calcula un nuevo centroide. De los procedimientos
jerárquicos, los de enlace promedio y la técnica de Ward han demostrado un
mejor desempeño que los demás procedimientos.
El segundo tipo de
procedimientos de conglomeración, los de conglomeración no jerárquica, se
conocen también como conglomeración de k-medias e incluyen el umbral
secuencial, el umbral paralelo y la división óptima. En el procedimiento de
umbral secuencial, se elige un centro del conglomerado y se agrupan todos los
objetos que están dentro de un valor de umbral especificado de antemano. Luego
se elige un nuevo centro de conglomerado o semilla, y se repite el proceso con los
puntos que no están en el conglomerado. Una vez que un objeto se agrupa con una
semilla, ya no se considera para agruparlo con semillas subsiguientes. El
procedimiento de umbral paralelo funciona de manera similar, con la excepción
de que se eligen al mismo tiempo varios centros de conglomerado, y se agrupan
los objetos que están dentro del umbral con el centro más cercano. El procedimiento
de división óptima difiere de los dos procedimientos de umbral en que los
objetos pueden reasignarse después a conglomerados para optimizar el criterio
general, como la distancia promedio dentro de un conglomerado para un número de
conglomerados específico.
Dos grandes
desventajas de los procedimientos no jerárquicos son la necesidad de especificar
de antemano el número de conglomerados y la arbitrariedad en la selección de
los centros de los conglomerados. Además, los resultados de la conglomeración
pueden depender de la forma en que se eligen los centros. Muchos programas no
jerárquicos seleccionan los primeros k casos (k = número de conglomerados) sin
valores faltantes como centro del conglomerado inicial. Por ende, los resultados
de la conglomeración pueden depender del orden de las observaciones de los
datos.
Sin embargo, los
procedimientos no jerárquicos de conglomeración son más rápidos que los
jerárquicos, lo cual constituye una ventaja cuando el número de objetos u
observaciones es grande. Se ha sugerido el uso conjunto de los procedimientos
jerárquicos y los no jerárquicos. Primero se utiliza un procedimiento
jerárquico (como el enlace promedio o la técnica de Ward) para obtener una
solución inicial de la conglomeración. El número de conglomerados y centroides
de conglomerado obtenidos de esa manera se usa como entrada para el procedimiento
de división óptima.
Existen otros procedimientos
de conglomeración; uno de particular interés es el análisis de conglomerados de
dos pasos, el cual puede determinar en forma automática el número óptimo de
conglomerados al comparar los valores de los criterios de un modelo de elección
con las diferentes soluciones de conglomeración. También crea modelos de
conglomerados con base en variables categóricas y continuas. Además de la
distancia euclidiana, el procedimiento de dos pasos también usa la medida de
probabilidad logarítmica. Esta medida coloca una distribución de probabilidad sobre
las variables. También tiene cabida para dos criterios de conglomeración: el
criterio de información bayesiana de Schwarz (CIB) o el criterio de información
Akaike (CIA).
La elección de un
procedimiento para la conglomeración se interrelaciona con la elección de una
medida de la distancia. Por ejemplo, los cuadrados de las distancias
euclidianas deberían usarse con los procedimientos de Ward y centroides. Muchas
técnicas no jerárquicas también usan los cuadrados de las distancias
euclidianas. En el procedimiento de dos pasos, la medida euclidiana sólo puede
usarse cuando todas las variables son continuas.
Se utilizará la
técnica de Ward para ilustrar una conglomeración jerárquica. En la tabla se presenta
la salida obtenida al agrupar los datos de la tabla. El calendario de
aglomeración contiene información útil que muestra el número de casos o
conglomerados que se combinan en cada etapa.
La primera línea
representa la etapa 1, con 19 conglomerados. Los encuestados 14 y 16 se
combinan en esta etapa, como se indica en la columna denominada “conglomerados
combinados”. En la columna de “coeficientes” se presenta el cuadrado de la
distancia euclidiana entre estos dos encuestados. La columna “etapa en la que aparece
el primer conglomerado” indica la etapa en que se forma el primer conglomerado.
Para ilustrarlo, una entrada de 1 en la etapa 6 indica que el encuestado 14 fue
quien se agrupó primero en la etapa 1. La última columna, “etapa siguiente”,
indica la etapa en que se combina con este otro caso (encuestado) o
conglomerado. Puesto que el número en la primera línea de la última columna es
6, vemos que en la etapa 6, el encuestado 10 se combina con los encuestados 14
y 16 para formar un conglomerado único. De manera similar, la segunda línea
representa la etapa 2 con 18 conglomerados. En la etapa 2, se agruparon los
encuestados 6 y 7.
Otra parte
importante de la salida se encuentra en el diagrama de carámbanos de la figura.
Las columnas
corresponden a los objetos que se están conglomerando, en este caso los
encuestados designados 1 a 20. Las filas corresponden al número de
conglomerados. Esta figura se lee de abajo hacia arriba. Al principio, todos
los casos se consideran conglomerados individuales. Como hay 20 encuestados,
existen 20 conglomerados iniciales. En la primera etapa, se combinan los dos
objetos más cercanos, lo cual da como resultado 19 conglomerados. La última línea
de la figura muestra estos 19 conglomerados. Los dos casos combinados en esta
etapa, los encuestados 14 y 16, tienen entre sí todas las X en las filas 1 a
19. La fila número 18 corresponde a la siguiente etapa, con 18 conglomerados.
En esta etapa se
agruparon los encuestados 6 y 7. La columna de X entre los encuestados 6 y 7
tiene un espacio vacío en la fila 19. De modo que en esta etapa hay 18
conglomerados: 16 formados por encuestados individuales y dos que contienen dos
encuestados cada uno. Cada etapa sucesiva lleva a la formación de un nuevo
conglomerado en una de tres maneras:
1. dos casos
individuales se agrupan;
2. un caso se une a
un conglomerado ya existente, o
3. se agrupan dos
conglomerados.
El dendograma es
otro recurso gráfico que es útil para exponer los resultados de la
conglomeración). El dendrograma se lee de izquierda a derecha. Las líneas
verticales representan los conglomerados que se unieron. La posición de la
línea en la escala indica las distancias en las que se unieron los
conglomerados. Dado que en las primeras etapas muchas de las distancias son de
una magnitud similar, resulta difícil indicar la secuencia en que se formaron algunos
de los primeros conglomerados. Sin embargo, queda claro que en las últimas dos
etapas, las distancias en las que se combinaron los conglomerados son grandes.
Esta información resulta útil para decidir el número de conglomerados.
También es posible
obtener información sobre los conglomerados a los que pertenecen los casos, si
se especifica el número de conglomerados. Aunque esta información puede
deducirse del diagrama de carámbanos, es muy útil presentarla en una tabla. La
tabla indica a qué conglomerados pertenecen los casos en función de si la
solución final contiene dos, tres o cuatro conglomerados.
Es posible obtener
este tipo de información de cualquier número de conglomerados y resulta útil para
decidir el número de conglomerados.
Decisión sobre el número
de conglomerados
Un tema importante
en el análisis de conglomerados es decidir su número. Aunque no hay reglas exactas
ni rápidas, existen algunos lineamientos:
1. Las
consideraciones teóricas, conceptuales o prácticas pueden sugerir un cierto
número de conglomerados. Por ejemplo, si el propósito del agrupamiento es
identificar los segmentos del mercado, tal vez la gerencia desee un número de
conglomerados específico.
2. En los
procedimientos de conglomeración jerárquica, pueden usarse como criterios las
distancias en las que se combinan los conglomerados. Esta información puede
obtenerse del calendario de aglomeración o del dendrograma. En nuestro caso,
vemos en el calendario de aglomeración de la tabla que el valor en la columna
“coeficientes” de repente aumenta a más del doble entre la etapa 17 (tres
conglomerados) y 18 (dos conglomerados). Asimismo, en las últimas dos etapas
del dendrograma en la figura 20.8, los conglomerados se combinan en distancias
grandes. Por lo tanto, parece que la solución de tres conglomerados es
apropiada.
3. En los
procedimientos de conglomeración no jerárquica, la proporción entre la varianza
total intragrupo y la varianza entre grupos puede graficarse contra el número
de conglomerados. El punto donde se presenta un ángulo o una curva aguda indica
un número adecuado de conglomerados.
4. Los tamaños
relativos de los conglomerados deberían ser significativos. En la tabla, al hacer
un simple conteo de las frecuencias de pertenencia al conglomerado, vemos que la
solución de tres conglomerados da como resultado conglomerados con ocho, seis y
seis elementos. No obstante, si vamos a la solución de cuatro conglomerados,
los tamaños de los conglomerados son ocho, seis, cinco y uno. No tiene sentido
formar un conglomerado con un solo caso, así que en esta situación es
preferible la solución de tres conglomerados.
Interpretación y
descripción de los conglomerados
Interpretar y
describir los conglomerados implica examinar sus centroides, los cuales
representan los valores promedio de los objetos contenidos en el conglomerado
en cada una de las variables.
Los centroides permiten
describir cada conglomerado al asignarle un nombre o etiqueta. Si el calendario
de conglomeración no imprime esta información, puede obtenerse mediante el
análisis discriminante. La tabla proporciona los centroides o valores promedio
de cada conglomerado de nuestro ejemplo. El conglomerado 1 tiene valores
relativamente altos en las variables V1 (ir de compras es divertido)
y V3 (cuando voy de compras aprovecho para comer fuera). También
tiene un valor bajo en V5 (no me interesa ir de compras). De modo
que al conglomerado 1 se le puede etiquetar como “compradores divertidos e
interesados”.
Este conglomerado
consta de los casos 1, 3, 6, 7, 8, 12, 15 y 17. El conglomerado 2 es justo el
contrario, con valores bajos en V1 y V3, y valor alto en
V5, por lo que este conglomerado puede etiquetarse “compradores apáticos”. Los miembros del
conglomerado 2 son los casos 2, 5, 9, 11, 13 y 20. El conglomerado 3 tiene
valores altos en V2 (las compras desequilibran mi presupuesto), V4
(trato de encontrar las mejores ofertas cuando voy de compras) y V6
(puede ahorrarse mucho dinero si se comparan precios). Por lo que este
conglomerado puede etiquetarse como “compradores
ahorrativos”. El conglomerado 3 abarca los casos 4, 10, 14, 16, 18 y 19.
A menudo es útil
describir a los conglomerados en términos de las variables que no se usaron para
el agrupamiento. Esto incluiría variables demográficas, psicográficas, de uso
del producto, de uso de medios de comunicación, etcétera. Por ejemplo, los
conglomerados pudieron derivarse a partir de los beneficios buscados. Es
posible hacer una descripción más detallada en términos de las variables
demográficas y psicográficas, para enfocar los esfuerzos de marketing hacia
cada conglomerado.
El análisis
discriminante y el análisis de varianza de un factor permiten distinguir con
claridad entre los conglomerados.
Evaluación de la
confiabilidad y la validez
Dados los diversos
juicios que conlleva el análisis de conglomerados, no debería aceptarse una
solución de agrupamiento sin una evaluación acerca de su confiabilidad y
validez. Los procedimientos formales para evaluar la confiabilidad y validez de
las soluciones de agrupamiento son complejas y no del todo justificables. Por
lo que las omitimos aquí. Sin embargo, los siguientes procedimientos ofrecen
una verificación adecuada de la calidad de los resultados de la conglomeración.
1. Realice el
análisis de conglomerados con los mismos datos pero con diferentes medidas de
distancia. Compare los resultados entre las medidas para determinar la
estabilidad de las soluciones.
2. Utilice
diferentes procedimientos de conglomeración y compare los resultados.
3. Divida al azar
los datos en mitades. En cada mitad realice la conglomeración de manera
separada. Compare los centroides de los conglomerados de las dos submuestras.
4. Suprima variables
al azar. Realice la conglomeración en el conjunto reducido de variables. Compare
los resultados con los obtenidos al formar los conglomerados a partir del
conjunto de variables completo.
5. En la
conglomeración no jerárquica, tal vez la solución dependa del orden de los
casos en el conjunto de datos. Haga varias corridas con los casos ordenados de
diferente manera, hasta que la solución se estabilice.
La conglomeración no
jerárquica se ilustra con más detalle en un estudio sobre las diferencias en
las estrategias de marketing entre empresas estadounidenses, japonesas y británicas.
Aplicaciones de
conglomerados no jerárquicos
Para ilustrar el
procedimiento no jerárquico se utilizan los datos de la tabla y una división
óptima.
A partir de los
resultados de los procedimientos de conglomeración jerárquica, se especificó de
antemano una solución de tres conglomerados. Los resultados se presentan en la
tabla 20.4. Los centros de los conglomerados iniciales son los valores de tres
casos elegidos al azar. En algunos programas se seleccionan los primeros tres
casos. Los centros de clasificación de conglomerados son provisionales y se
usan para la asignación de los casos. Cada caso se asigna al centro de clasificación
de conglomerados más cercano. Los centros de clasificación se actualizan hasta
que se alcanzan los criterios de interrupción. Los centros de conglomerados finales
representan las medias de las variables para los casos en los conglomerados finales.
En SPSS
para Windows, éstos se redondean al entero más cercano.
La tabla también
presenta la pertenencia a los conglomerados, así como la distancia entre cada
caso y su centro de clasificación. Advierta que la pertenencia al conglomerado
presentada en la tabla (conglomeración jerárquica) es idéntica a la que se
presenta en la tabla (conglomeración no jerárquica). (El conglomerado 1 de la
tabla se designa como conglomerado 3 en la tabla, y el conglomerado 3 de la
tabla se etiqueta como conglomerado 1 en la tabla). Las distancias entre los
centros del conglomerado final indican una buena separación entre los pares de
conglomerados. Se presenta la prueba univariada F para cada variable de
conglomeración.
Estas pruebas F sólo
son descriptivas. Dado que los objetos o casos se asignan de manera sistemática
a los conglomerados para maximizar las diferencias en las variables de
conglomeración, las probabilidades resultantes no deberían interpretarse como
pruebas de la hipótesis nula de que no hay diferencias entre los conglomerados.
Aplicaciones de la
conglomeración de dos pasos
Los datos de la
tabla inicial también se analizaron con el procedimiento de dos pasos en SPSS.
Como todas las variables eran continuas, se utilizó la medida de distancia
euclidiana. El criterio de agrupamiento fue el criterio de información Akaike
(CIA). El número de conglomerados se determinó de manera automática. Los
resultados se muestran en la tabla siguiente. Como se observa, se obtuvo una solución
de tres conglomerados, similar a la obtenida con los procedimientos de
conglomeración jerárquica y no jerárquica. Advierta que el CIA está al mínimo
(97.594) para la solución de tres conglomerados. Una comparación de los centroides
de conglomerados en la tabla con los de la tabla muestra que el conglomerado 1
de la tabla corresponde al conglomerado 2 de la tabla (conglomeración
jerárquica), el conglomerado 2 de la tabla corresponde al conglomerado 3 de la
tabla, y el conglomerado 3 del procedimiento de dos pasos corresponde al
conglomerado
1. La interpretación
y las implicaciones son similares a las que se revisaron antes. En este caso, los
tres procedimientos (jerárquico, no jerárquico y dos pasos) arrojaron
resultados similares. En otros casos, diferentes procedimientos generarán
resultados distintos. Es buena idea analizar un determinado conjunto de datos
con diferentes procedimientos para examinar la estabilidad de las soluciones de
agrupamiento.
Agrupamiento de
variables
En ocasiones el
análisis de conglomerados también sirve para conglomerar variables que permitan
identificar grupos homogéneos. En este caso, las unidades usadas para el
análisis son las variables y las medidas de distancia se calculan para todos
los pares de variables. Por ejemplo, el coeficiente de correlación, el valor
absoluto o con signo, puede usarse como medida de semejanza (lo opuesto a la
distancia) entre las variables.
La conglomeración jerárquica
de variables ayuda a identificar variables únicas o variables que hacen una
contribución única a los datos. La conglomeración también puede usarse para
reducir el número de variables. Con cada conglomerado se asocia una combinación
lineal de variables en el conglomerado, llamada componente del conglomerado. A
menudo se reemplaza un conjunto grande de variables con un conjunto de
componentes de conglomerados con poca pérdida de información.
Sin embargo, un
número dado de componentes de conglomerados por lo general no explica tanta varianza
como el mismo número de componentes principales. Entonces, ¿por qué deberían
conglomerarse las variables? Por lo regular es más sencillo interpretar los
componentes conglomerados que los componentes principales, incluso si estos
últimos están rotados. Se ilustra el agrupamiento de variables con un ejemplo
de la investigación en publicidad.
Resumen
El análisis de
conglomerados se usa para clasificar objetos o casos y, en ocasiones,
variables, en grupos relativamente homogéneos.
Los grupos o
conglomerados son sugeridos por los datos y no se definen a priori.
Las variables sobre
las que se hace la conglomeración deben seleccionarse con base en
investigaciones previas, la teoría, la hipótesis a prueba o el juicio del
investigador. Debe seleccionarse una medida apropiada de distancia o semejanza.
La medida que se usa con más frecuencia es la distancia euclidiana o su
cuadrado.
Los procedimientos
de conglomeración pueden ser jerárquicos, no jerárquicos u otros, como el de
dos pasos. La conglomeración jerárquica se caracteriza por el desarrollo de una
jerarquía o estructura tipo árbol. Los procedimientos jerárquicos pueden ser
aglomerativos o divisorios. Los procedimientos aglomerativos consisten en
procedimientos de enlace, de varianza y de centroides. Los procedimientos de
enlace incluyen enlace único, enlace completo y enlace promedio. Un
procedimiento de varianza de uso común es la técnica de Ward. A menudo los procedimientos
no jerárquicos suelen denominarse conglomeración de k-medias. Estos
procedimientos pueden clasificarse como umbral secuencial, umbral paralelo y
división óptima.
Los procedimientos
jerárquicos y no jerárquicos pueden usarse de manera conjunta. El procedimiento
de dos pasos hace una determinación automática del número óptimo de
conglomerados, comparando los valores de los criterios de elección del modelo entre
diferentes soluciones de conglomeración. La elección de un procedimiento de
conglomeración se interrelaciona con la elección de una medida de distancia.
El número de
conglomerados puede basarse en consideraciones teóricas, conceptuales o
prácticas. En la conglomeración jerárquica, las distancias en las que se
combinan los conglomerados es un criterio importante. Los tamaños relativos de
los conglomerados tienen que ser significativos. Los conglomerados deben
interpretarse en términos de sus centroides. A menudo es útil describir los
conglomerados en términos de las variables que no se utilizaron para el
agrupamiento. La confiabilidad y validez de las soluciones de conglomeración
pueden evaluarse de diferentes maneras.
Si te gustó el artículo o tienes alguna
crítica constructiva coméntalo y
recuerda suscribirte al blog. Ah, y comparte con un Tiweet, +1 o por Facebook
tus comentarios. Hasta una próxima entrega.
Para diseños de investigación de mercados,
levantamiento de estudios de opinión pública y de seguimiento electoral en
Venezuela, no dude en contactar a Plepso
Investigación, C. A. por sus teléfonos 0243 237.54.06 y 0412 439.25.85, a
sus sitio web http://www.plepso.com.ve o al correo electrónico mercadeo@plepso.com.ve y jpleal@plepso.com.ve
OTROS ARTÍCULOS DE INTERÉS
|
|
REFERENCIAS BIBLIOGRÁFICAS Y DOCUMENTALES
Aaker, D. y Day, G. S. (1989) Investigación de
Mercados. México. Tercera Edición. Segunda Edición en Castellano. Mc Graw-Hill
Boqué, Ricard y Maroto, Alicia (s/f) EL
ANÁLISIS DE LA VARIANZA (ANOVA); Comparación de múltiples poblaciones.
Tarragona – España. Grupo de Quimiometría y Cualimetría. Universitat Rovira i
Virgili. Pl. Imperial Tàrraco, 1. 43005-Tarragona
Malhotra, N (1997) Investigación de mercado, un
enfoque práctico. Naucalpan de Juárez México. Prentice Hall Segunda Edición
Pérez-Tejada, H. (2009) Estadística para las
Ciencias Sociales, del Comportamiento y de la Salud. México. 3era Edición. CENGAGE
Leaning
Salvador Figueras, M (2000): "Introducción
al Análisis Multivariante", [Artículo en línea] disponible en:
http://www.5campus.com/leccion/anamul
[Consulta: 2015, julio 04]
Siegel, S. y Castellan, J. (1998) Estadísticas
No Paramétrica; Aplicadas a las ciencias de la conducta. México. Trillas 4ta
edición
Uriel, E. y Adás, J. (2005) Análisis
Multivariante Aplicado. Madrid
– España. Thomson Edotores Spain
Vicente Villardón, José Luis (s/f) INTRODUCCIÓN
AL ANÁLISIS DE LA VARIANZA. Departamento de Estadística. [documento en línea]
disponible en:
http://webcache.googleusercontent.com/search?q=cache:U-rnGopqRqQJ:biplot.usal.es/problemas/libro/7%2520ANOVA.pdf+&cd=3&hl=es&ct=clnk&gl=ve
[Consulta: 2015, julio 05]
Chikilian, Martin
(s/f) Código Buggy Python: Los 10 Errores más Comunes que Cometen los
Desarrolladores Python [Artículo en línea] disponible en: https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es
[Consulta: 2016, diciembre 10]
No hay comentarios:
Publicar un comentario