domingo, 13 de diciembre de 2015

CÓMO SE HACE UN ANÁLISIS DE CONGLOMERADOS




ANÁLISIS DE CONGLOMERADOS

El análisis de conglomerados (en inglés, cluster analisys) es una técnica multivariante que permite agrupar los casos  o variables  de un archivo de datos en función del parecido o similitud existente entre ellos.
Como técnica de agrupación de variables, el análisis de conglomerados es similar al análisis factorial; pero, mientras que la  factorización es más bien poco flexible en algunos de sus supuestos (linealidad, normalidad, variables cuantitativas, etc.) y siempre estima de la misma manera la matriz de distancias, la aglomeración  es menos restrictiva en sus supuestos (no exige linealidad, ni simetría, permite variables categóricas, etc.) y admite varios métodos de estimación de la matriz de distancias.
Como técnica de agrupación de casos, el análisis de conglomerados es similar al análisis discriminante. Sin embargo, mientras que el análisis discriminante efectúa la clasificación tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el análisis de conglomerados permite detectar el número óptimo de grupos y su composición únicamente a partir de la similitud existente entre los casos; además, el análisis de conglomerados no asume ninguna distribución específica para las variables.
En este sentido, igual que el análisis factorial ya expuesto en un artículo anterior, el Análisis de Conglomerados examina todo un conjunto de relaciones interdependientes, éste no distingue entre variables dependientes e independientes, sino que examina las relaciones interdependientes entre el conjunto completo de variables. Su objetivo principal es clasificar objetos en grupos más o menos homogéneos con base en el conjunto de variables consideradas. Los objetos en un grupo son relativamente similares en términos de estas variables y diferentes de los objetos de otros grupos. Cuando se usa de esta manera, el análisis de conglomerados es la contrapartida del análisis factorial, ya que no reduce el número de variables sino de objetos, a los que agrupa en un número mucho menor de conglomerados.
En este artículo se describe el concepto básico del análisis de conglomerados. Se analizan los pasos implicados en la realización del análisis y se ilustran en el contexto de la conglomeración jerárquica usando el programa estadístico SPSS. Después se presenta una aplicación de la conglomeración no jerárquica, seguida del procedimiento de dos pasos y del análisis de la conglomeración de las variables.
programa estadístico SPSS dispone de dos tipos de análisis de conglomerados: el análisis de conglomerados jerárquico  y el análisis de conglomerados de K medias. El método jerárquico es idóneo para determinar el número óptimo de conglomerados existente en los datos y el contenido de los mismos. El método de K medias  permite procesar un número ilimitado de casos, pero sólo permite utilizar un método de aglomeración y requiere que se proponga previamente el número de conglomerados que se desea obtener

Concepto básico
El análisis de conglomerados es una técnica usada para clasificar objetos o casos en grupos relativamente homogéneos llamados conglomerados. Los objetos de cada conglomerado tienden a ser similares entre sí y diferentes de los objetos de otros conglomerados. El análisis de conglomerados también se conoce como análisis de clasificación o taxonomía numérica. (Malhotra, 1987)
Aquí se presentan los procedimientos de conglomeración que asignan cada objeto a uno y sólo un conglomerado. La figura que se presenta a continuación muestra una situación ideal de conglomeración, en la cual los conglomerados se separan de forma clara en dos variables: conciencia de la calidad (variable 1) y sensibilidad a los precios (variable 2). Advierta que cada consumidor cae en un conglomerado y que no hay áreas de traslape. Por otro lado, la figura siguiente presenta una situación de conglomeración que es más probable encontrar en la práctica en ella los límites de algunos conglomerados no están bien definidos y la clasificación de algunos consumidores no es tan evidente, ya que muchos de ellos pueden agruparse en un conglomerado u otro.
Tanto el análisis de conglomerados como el análisis discriminante se interesan en la clasificación. Sin embargo, el análisis discriminante requiere de un conocimiento previo del conglomerado o la pertenencia al grupo de cada objeto o caso incluido, para desarrollar la regla de clasificación.
En contraste, en el análisis de conglomerados no existe información a priori sobre la pertenencia al grupo o conglomerado de ninguno de los objetos. Los grupos o conglomerados son sugeridos por los datos, no se definen a priori.

Uso del análisis de conglomerados en marketing
El análisis de conglomerados se ha usado en marketing con diversos propósitos, entre los que se encuentran:
-       Segmentación del mercado: por ejemplo, puede agruparse a los consumidores según los beneficios que buscan en la compra de un producto. Cada conglomerado estaría formado por consumidores que son relativamente homogéneos en términos de los beneficios que buscan. Este procedimiento se conoce como segmentación por beneficios.
-       Entender la conducta de los compradores: el análisis de conglomerados puede usarse para identificar grupos homogéneos de compradores. Luego se examina por separado la conducta de compras de cada grupo. El análisis de conglomerados también se ha empleado para identificar las estrategias que usan los compradores de automóviles cuando buscan información externa.
-       Identificar oportunidades de nuevos productos: al agrupar marcas y productos, es posible determinar conjuntos competitivos dentro del mercado. Las marcas del mismo conglomerado compiten mucho más entre sí que con las marcas de otros conglomerados. Una empresa puede comparar sus ofertas actuales con las de sus competidores para identificar posibles oportunidades de productos nuevos.
-       Elegir mercados de prueba: al agrupar ciudades en conglomerados homogéneos, es posible elegir ciudades comparables para probar diversas estrategias de marketing.
-       Reducir los datos: el análisis de conglomerados es útil como herramienta general de reducción de datos, para desarrollar conglomerados o subgrupos de datos que sean más fáciles de manejar que las observaciones individuales. El análisis multivariado posterior no se realiza en las observaciones individuales, sino en los conglomerados. Por ejemplo, para describir las diferencias en la conducta de uso del producto por parte de los consumidores, primero se dividiría a éstos en conglomerados. Las diferencias entre los grupos se examina luego con el análisis discriminante múltiple.


Estadísticos asociados con el análisis de conglomerados
Antes de revisar los estadísticos asociados con el análisis de conglomerados, debería mencionarse que la mayoría de los procedimientos de conglomeración son relativamente sencillos, que no se sustentan en un razonamiento estadístico amplio. Más bien, en su mayoría son heurísticos que se basan en algoritmos.
Por lo tanto, existe un notable contraste entre el análisis de conglomerados y el análisis de varianza, la regresión, el análisis discriminante y el análisis factorial, los cuales se fundamentan en un razonamiento estadístico amplio. Aunque muchos de los procedimientos de conglomeración tienen propiedades estadísticas importantes, debe reconocerse su sencillez fundamental.
Los siguientes estadísticos y conceptos se asocian con el análisis de conglomerados.
-       Calendario de aglomeración: este programa brinda información sobre objetos o casos que se combinan en cada etapa del proceso de conglomeración jerárquica.
-       Centroide del conglomerado: es la media de los valores de las variables de todos los objetos o casos de un conglomerado particular.
-       Centros del conglomerado: son el punto de partida en la conglomeración no jerárquica. Los conglomerados se construyen en torno a estos centros o semillas.
-       Pertenencia al conglomerado: indica el conglomerado al que corresponde cada objeto o caso.
-       Dendrograma: conocido como gráfica de árbol, es un medio gráfico para presentar los resultados de la conglomeración. Las líneas verticales representan conglomerados que están unidos.
La posición de la línea en la escala indica las distancias en las que se unen los conglomerados. El dendrograma se lee de izquierda a derecha. La figura siguiente es un ejemplo de dendrograma.

Distancias entre los centros de los conglomerados: estas distancias indican qué tan separados están los pares individuales de conglomerados. Los que están muy separados son distintos y, por lo tanto, son deseables.
Diagrama de carámbanos: es una representación gráfica de los resultados de la conglomeración, recibe ese nombre porque parece una fila de carámbanos que cuelgan del tejado de una casa. Las columnas corresponden a los objetos que se conglomeran; y las filas, al número de conglomerados. Un diagrama de carámbanos se lee de abajo hacia arriba. La figura es un diagrama de carámbanos.

Matriz de coeficientes de semejanza y distancia: es una matriz de triángulo inferior que contiene distancias entre pares de objetos o casos.

Realización de un análisis de conglomerados
En la siguiente figura se presentan los pasos implicados en la realización de un análisis de conglomerados.

El primer paso es el planteamiento del problema de agrupamiento definiendo las variables en las que se basará la conglomeración. En seguida debe elegirse una medida adecuada de distancia. Esta distancia determina qué tan parecidos o diferentes son los objetos agrupados. Se han desarrollado muchos procedimientos de conglomeración y el investigador debe elegir el que sea apropiado para el problema tratado.
La decisión sobre el número de conglomerados requiere del juicio del investigador.
Los conglomerados derivados deben interpretarse en términos de las variables usadas para generarlos y describirse en términos de otras variables destacadas. Por último, el investigador debe evaluar la validez del proceso de conglomeración.

Planteamiento del problema
Quizá la parte más importante del planteamiento del problema de conglomeración sea la elección de las variables en se basará el agrupamiento. Aun la inclusión de una o dos variables irrelevantes distorsionaría una solución de agrupamiento, que de otra manera podría ser útil. En esencia, el conjunto de las variables elegidas debe describir la semejanza entre los objetos en términos relevantes para el problema de investigación de mercados. Las variables tienen que elegirse con base en la investigación previa, la teoría o la consideración de la hipótesis evaluada. En la investigación exploratoria, el investigador debe valerse de su juicio e intuición.
Para ilustrar, consideramos el agrupamiento de los consumidores con base en sus actitudes hacia ir de compras. A partir de la investigación previa, se identificaron seis variables de actitud. Se pidió a los consumidores que expresaran su grado de acuerdo con los siguientes enunciados en una escala de 7 puntos (1 = desacuerdo, 7 = de acuerdo):
V1: ir de compras es divertido
V2: ir de compras es malo para su presupuesto
V3: cuando voy de compras aprovecho para comer fuera
V4: cuando voy de compras busco las mejores ofertas
V5: no me interesa ir de compras
V6: puede ahorrar mucho dinero si compara precios
En la tabla   se presentan los datos obtenidos de un pretest aplicado a una muestra de 20 encuestados. Observe que en realidad, los conglomerados se forman con muestras mucho mayores de 100 o más. Se utilizó una muestra chica para ilustrar el proceso de conglomeración. En la práctica, el análisis de conglomerados se hace con muestras mucho más grandes

Elección de una medida de distancia o semejanza
Dado que el objetivo de la conglomeración es agrupar objetos similares, se necesita alguna medida para evaluar qué tan semejantes o diferentes son dichos objetos. El enfoque más común consiste en medir la semejanza en términos de la distancia entre pares de objetos. Los objetos separados por una distancia menor son más similares entre sí, que aquellos que tienen distancias mayores. Hay diversas formas de calcular la distancia entre dos objetos.
La medida de semejanza de uso más común es la distancia euclidiana o su cuadrado. La distancia euclidiana es la raíz cuadrada de la suma de diferencias elevadas al cuadrado en los valores de cada variable. Se dispone también de otras medidas de distancia. La distancia de manzanas o de Manhattan entre dos objetos es la suma de las diferencias absolutas de los valores para cada variable.
La distancia Chebychev entre dos objetos es la diferencia absoluta máxima en los valores de cualquier variable. Para este ejemplo, se usará el cuadrado de la distancia euclidiana.
Si las variables se miden en unidades muy diferentes, la solución de la conglomeración estará influida por las unidades de medición. En un estudio sobre compras en un supermercado, las variables de actitud pueden medirse en una escala tipo Likert de 9 puntos; la preferencia en términos de frecuencia de visitas al mes y la cantidad de dólares gastados; la lealtad hacia la marca en términos del porcentaje de compras de artículos de consumo básico asignado al supermercado favorito.

En estos casos, antes de agrupar a los encuestados, es necesario estandarizar los datos por medio del reescalamiento de cada variable para obtener una media de cero y una desviación estándar de uno. Aunque la estandarización elimina la influencia de la unidad de medición, también reduce las diferencias entre los grupos en variables que podrían diferenciar mejor los grupos o conglomerados.
También es deseable eliminar los periféricos (casos con valores atípicos).
El uso de diferentes medidas de distancia puede originar diferentes resultados de la conglomeración. Por lo tanto, es aconsejable usar diferentes mediciones y comparar los resultados. Una vez que se eligió una medida de distancia o de semejanza, podemos elegir el procedimiento de agrupamiento.

Selección de un procedimiento de conglomeración
La figura que se presenta al final de este párrafo puede apreciarse una clasificación de los procedimientos de conglomeración, los cuales pueden ser jerárquicos, no jerárquicos u otros. La conglomeración jerárquica se caracteriza por el desarrollo de una jerarquía o estructura tipo árbol. Los procedimientos jerárquicos pueden ser por aglomeración o por división. La conglomeración por aglomeración comienza con cada objeto en un conglomerado separado. Los conglomerados se forman al agrupar objetos en conglomerados cada vez más grandes; este procedimiento continúa hasta que todos los objetos son miembros de un solo conglomerado. La conglomeración por división comienza con todos los objetos agrupados en un solo conglomerado. Los conglomerados se dividen hasta que cada objeto queda en un conglomerado separado.

Las técnicas por aglomeración son comunes en la investigación de mercados; incluyen los procedimientos de enlace, los procedimientos de varianza o sumas de errores elevadas al cuadrado, y los procedimientos centroides. Los procedimientos de enlace incluyen enlace único, enlace completo y enlace promedio. La técnica de enlace único se basa en la distancia mínima o la regla del vecino más cercano. Los primeros dos objetos agrupados son los que tienen la menor distancia entre sí.
Se identifica la siguiente distancia más corta y el tercer objeto se agrupa con los dos primeros, o se crea un nuevo conglomerado de dos objetos. En cada etapa, la distancia entre dos conglomerados es la distancia entre sus dos puntos más cercanos como se aprecia en la figura siguiente.
En cualquier etapa se fusionan dos conglomerados a través del enlace único más cercano entre ellos. Este proceso continúa hasta que todos los objetos estén en un solo conglomerado. El procedimiento de enlace único no funciona bien cuando los conglomerados están mal definidos. El procedimiento de enlace completo es similar al enlace único, a excepción de que se basa en la distancia máxima o en la regla del vecino más lejano. En el enlace completo, la distancia entre dos conglomerados se calcula como la distancia entre sus dos puntos más lejanos.
El procedimiento de enlace promedio funciona de manera similar. Sin embargo, en éste la distancia entre dos conglomerados se define como el promedio de las distancias entre todos los pares de objetos, donde un miembro del par pertenece a cada uno de los conglomerados.
Como se observa, el procedimiento de enlace promedio usa la información de todos los pares de distancias, no sólo las distancias mínimas o máximas. Por tal razón, suele preferirse a los procedimientos de enlace único y completo.
Los procedimientos de varianza intentan formar conglomerados para minimizar la varianza interna. Un procedimiento de varianza usado con frecuencia es la técnica de Ward, que calcula las medias de todas las variables de cada conglomerado. Luego, calcula para cada objeto el cuadrado de la distancia euclidiana de las medias del conglomerado como se presenta en la figura anterior. Se suman estas distancias para todos los objetos. En cada etapa, se combinan los dos conglomerados con el menor incremento en la suma de cuadrados global de las distancias dentro del conglomerado.
En los procedimientos de centroides, la distancia entre dos conglomerados es la distancia entre sus centroides (las medias de todas las variables), como se muestra en la figura.
Cada vez que se agrupan los objetos, se calcula un nuevo centroide. De los procedimientos jerárquicos, los de enlace promedio y la técnica de Ward han demostrado un mejor desempeño que los demás procedimientos.
El segundo tipo de procedimientos de conglomeración, los de conglomeración no jerárquica, se conocen también como conglomeración de k-medias e incluyen el umbral secuencial, el umbral paralelo y la división óptima. En el procedimiento de umbral secuencial, se elige un centro del conglomerado y se agrupan todos los objetos que están dentro de un valor de umbral especificado de antemano. Luego se elige un nuevo centro de conglomerado o semilla, y se repite el proceso con los puntos que no están en el conglomerado. Una vez que un objeto se agrupa con una semilla, ya no se considera para agruparlo con semillas subsiguientes. El procedimiento de umbral paralelo funciona de manera similar, con la excepción de que se eligen al mismo tiempo varios centros de conglomerado, y se agrupan los objetos que están dentro del umbral con el centro más cercano. El procedimiento de división óptima difiere de los dos procedimientos de umbral en que los objetos pueden reasignarse después a conglomerados para optimizar el criterio general, como la distancia promedio dentro de un conglomerado para un número de conglomerados específico.
Dos grandes desventajas de los procedimientos no jerárquicos son la necesidad de especificar de antemano el número de conglomerados y la arbitrariedad en la selección de los centros de los conglomerados. Además, los resultados de la conglomeración pueden depender de la forma en que se eligen los centros. Muchos programas no jerárquicos seleccionan los primeros k casos (k = número de conglomerados) sin valores faltantes como centro del conglomerado inicial. Por ende, los resultados de la conglomeración pueden depender del orden de las observaciones de los datos.
Sin embargo, los procedimientos no jerárquicos de conglomeración son más rápidos que los jerárquicos, lo cual constituye una ventaja cuando el número de objetos u observaciones es grande. Se ha sugerido el uso conjunto de los procedimientos jerárquicos y los no jerárquicos. Primero se utiliza un procedimiento jerárquico (como el enlace promedio o la técnica de Ward) para obtener una solución inicial de la conglomeración. El número de conglomerados y centroides de conglomerado obtenidos de esa manera se usa como entrada para el procedimiento de división óptima.
Existen otros procedimientos de conglomeración; uno de particular interés es el análisis de conglomerados de dos pasos, el cual puede determinar en forma automática el número óptimo de conglomerados al comparar los valores de los criterios de un modelo de elección con las diferentes soluciones de conglomeración. También crea modelos de conglomerados con base en variables categóricas y continuas. Además de la distancia euclidiana, el procedimiento de dos pasos también usa la medida de probabilidad logarítmica. Esta medida coloca una distribución de probabilidad sobre las variables. También tiene cabida para dos criterios de conglomeración: el criterio de información bayesiana de Schwarz (CIB) o el criterio de información Akaike (CIA).
La elección de un procedimiento para la conglomeración se interrelaciona con la elección de una medida de la distancia. Por ejemplo, los cuadrados de las distancias euclidianas deberían usarse con los procedimientos de Ward y centroides. Muchas técnicas no jerárquicas también usan los cuadrados de las distancias euclidianas. En el procedimiento de dos pasos, la medida euclidiana sólo puede usarse cuando todas las variables son continuas.
Se utilizará la técnica de Ward para ilustrar una conglomeración jerárquica. En la tabla se presenta la salida obtenida al agrupar los datos de la tabla. El calendario de aglomeración contiene información útil que muestra el número de casos o conglomerados que se combinan en cada etapa.
La primera línea representa la etapa 1, con 19 conglomerados. Los encuestados 14 y 16 se combinan en esta etapa, como se indica en la columna denominada “conglomerados combinados”. En la columna de “coeficientes” se presenta el cuadrado de la distancia euclidiana entre estos dos encuestados. La columna “etapa en la que aparece el primer conglomerado” indica la etapa en que se forma el primer conglomerado. Para ilustrarlo, una entrada de 1 en la etapa 6 indica que el encuestado 14 fue quien se agrupó primero en la etapa 1. La última columna, “etapa siguiente”, indica la etapa en que se combina con este otro caso (encuestado) o conglomerado. Puesto que el número en la primera línea de la última columna es 6, vemos que en la etapa 6, el encuestado 10 se combina con los encuestados 14 y 16 para formar un conglomerado único. De manera similar, la segunda línea representa la etapa 2 con 18 conglomerados. En la etapa 2, se agruparon los encuestados 6 y 7.
Otra parte importante de la salida se encuentra en el diagrama de carámbanos de la figura.
Las columnas corresponden a los objetos que se están conglomerando, en este caso los encuestados designados 1 a 20. Las filas corresponden al número de conglomerados. Esta figura se lee de abajo hacia arriba. Al principio, todos los casos se consideran conglomerados individuales. Como hay 20 encuestados, existen 20 conglomerados iniciales. En la primera etapa, se combinan los dos objetos más cercanos, lo cual da como resultado 19 conglomerados. La última línea de la figura muestra estos 19 conglomerados. Los dos casos combinados en esta etapa, los encuestados 14 y 16, tienen entre sí todas las X en las filas 1 a 19. La fila número 18 corresponde a la siguiente etapa, con 18 conglomerados.
En esta etapa se agruparon los encuestados 6 y 7. La columna de X entre los encuestados 6 y 7 tiene un espacio vacío en la fila 19. De modo que en esta etapa hay 18 conglomerados: 16 formados por encuestados individuales y dos que contienen dos encuestados cada uno. Cada etapa sucesiva lleva a la formación de un nuevo conglomerado en una de tres maneras:
1. dos casos individuales se agrupan;
2. un caso se une a un conglomerado ya existente, o
3. se agrupan dos conglomerados.
El dendograma es otro recurso gráfico que es útil para exponer los resultados de la conglomeración). El dendrograma se lee de izquierda a derecha. Las líneas verticales representan los conglomerados que se unieron. La posición de la línea en la escala indica las distancias en las que se unieron los conglomerados. Dado que en las primeras etapas muchas de las distancias son de una magnitud similar, resulta difícil indicar la secuencia en que se formaron algunos de los primeros conglomerados. Sin embargo, queda claro que en las últimas dos etapas, las distancias en las que se combinaron los conglomerados son grandes. Esta información resulta útil para decidir el número de conglomerados.
También es posible obtener información sobre los conglomerados a los que pertenecen los casos, si se especifica el número de conglomerados. Aunque esta información puede deducirse del diagrama de carámbanos, es muy útil presentarla en una tabla. La tabla indica a qué conglomerados pertenecen los casos en función de si la solución final contiene dos, tres o cuatro conglomerados.
Es posible obtener este tipo de información de cualquier número de conglomerados y resulta útil para decidir el número de conglomerados.

Decisión sobre el número de conglomerados
Un tema importante en el análisis de conglomerados es decidir su número. Aunque no hay reglas exactas ni rápidas, existen algunos lineamientos:
1. Las consideraciones teóricas, conceptuales o prácticas pueden sugerir un cierto número de conglomerados. Por ejemplo, si el propósito del agrupamiento es identificar los segmentos del mercado, tal vez la gerencia desee un número de conglomerados específico.
2. En los procedimientos de conglomeración jerárquica, pueden usarse como criterios las distancias en las que se combinan los conglomerados. Esta información puede obtenerse del calendario de aglomeración o del dendrograma. En nuestro caso, vemos en el calendario de aglomeración de la tabla que el valor en la columna “coeficientes” de repente aumenta a más del doble entre la etapa 17 (tres conglomerados) y 18 (dos conglomerados). Asimismo, en las últimas dos etapas del dendrograma en la figura 20.8, los conglomerados se combinan en distancias grandes. Por lo tanto, parece que la solución de tres conglomerados es apropiada.

3. En los procedimientos de conglomeración no jerárquica, la proporción entre la varianza total intragrupo y la varianza entre grupos puede graficarse contra el número de conglomerados. El punto donde se presenta un ángulo o una curva aguda indica un número adecuado de conglomerados.
Por lo regular no vale la pena incrementar el número de conglomerados más allá de dicho punto.

4. Los tamaños relativos de los conglomerados deberían ser significativos. En la tabla, al hacer un simple conteo de las frecuencias de pertenencia al conglomerado, vemos que la solución de tres conglomerados da como resultado conglomerados con ocho, seis y seis elementos. No obstante, si vamos a la solución de cuatro conglomerados, los tamaños de los conglomerados son ocho, seis, cinco y uno. No tiene sentido formar un conglomerado con un solo caso, así que en esta situación es preferible la solución de tres conglomerados.

Interpretación y descripción de los conglomerados
Interpretar y describir los conglomerados implica examinar sus centroides, los cuales representan los valores promedio de los objetos contenidos en el conglomerado en cada una de las variables.
Los centroides permiten describir cada conglomerado al asignarle un nombre o etiqueta. Si el calendario de conglomeración no imprime esta información, puede obtenerse mediante el análisis discriminante. La tabla proporciona los centroides o valores promedio de cada conglomerado de nuestro ejemplo. El conglomerado 1 tiene valores relativamente altos en las variables V1 (ir de compras es divertido) y V3 (cuando voy de compras aprovecho para comer fuera). También tiene un valor bajo en V5 (no me interesa ir de compras). De modo que al conglomerado 1 se le puede etiquetar como “compradores divertidos e interesados”.

Este conglomerado consta de los casos 1, 3, 6, 7, 8, 12, 15 y 17. El conglomerado 2 es justo el contrario, con valores bajos en V1 y V3, y valor alto en V5, por lo que este conglomerado puede etiquetarse “compradores apáticos”. Los miembros del conglomerado 2 son los casos 2, 5, 9, 11, 13 y 20. El conglomerado 3 tiene valores altos en V2 (las compras desequilibran mi presupuesto), V4 (trato de encontrar las mejores ofertas cuando voy de compras) y V6 (puede ahorrarse mucho dinero si se comparan precios). Por lo que este conglomerado puede etiquetarse como “compradores ahorrativos”. El conglomerado 3 abarca los casos 4, 10, 14, 16, 18 y 19.
A menudo es útil describir a los conglomerados en términos de las variables que no se usaron para el agrupamiento. Esto incluiría variables demográficas, psicográficas, de uso del producto, de uso de medios de comunicación, etcétera. Por ejemplo, los conglomerados pudieron derivarse a partir de los beneficios buscados. Es posible hacer una descripción más detallada en términos de las variables demográficas y psicográficas, para enfocar los esfuerzos de marketing hacia cada conglomerado.
El análisis discriminante y el análisis de varianza de un factor permiten distinguir con claridad entre los conglomerados.

Evaluación de la confiabilidad y la validez
Dados los diversos juicios que conlleva el análisis de conglomerados, no debería aceptarse una solución de agrupamiento sin una evaluación acerca de su confiabilidad y validez. Los procedimientos formales para evaluar la confiabilidad y validez de las soluciones de agrupamiento son complejas y no del todo justificables. Por lo que las omitimos aquí. Sin embargo, los siguientes procedimientos ofrecen una verificación adecuada de la calidad de los resultados de la conglomeración.
1. Realice el análisis de conglomerados con los mismos datos pero con diferentes medidas de distancia. Compare los resultados entre las medidas para determinar la estabilidad de las soluciones.
2. Utilice diferentes procedimientos de conglomeración y compare los resultados.
3. Divida al azar los datos en mitades. En cada mitad realice la conglomeración de manera separada. Compare los centroides de los conglomerados de las dos submuestras.
4. Suprima variables al azar. Realice la conglomeración en el conjunto reducido de variables. Compare los resultados con los obtenidos al formar los conglomerados a partir del conjunto de variables completo.
5. En la conglomeración no jerárquica, tal vez la solución dependa del orden de los casos en el conjunto de datos. Haga varias corridas con los casos ordenados de diferente manera, hasta que la solución se estabilice.
La conglomeración no jerárquica se ilustra con más detalle en un estudio sobre las diferencias en las estrategias de marketing entre empresas estadounidenses, japonesas y británicas.

Aplicaciones de conglomerados no jerárquicos
Para ilustrar el procedimiento no jerárquico se utilizan los datos de la tabla y una división óptima.
A partir de los resultados de los procedimientos de conglomeración jerárquica, se especificó de antemano una solución de tres conglomerados. Los resultados se presentan en la tabla 20.4. Los centros de los conglomerados iniciales son los valores de tres casos elegidos al azar. En algunos programas se seleccionan los primeros tres casos. Los centros de clasificación de conglomerados son provisionales y se usan para la asignación de los casos. Cada caso se asigna al centro de clasificación de conglomerados más cercano. Los centros de clasificación se actualizan hasta que se alcanzan los criterios de interrupción. Los centros de conglomerados finales representan las medias de las variables para los casos en los conglomerados finales. En SPSS para Windows, éstos se redondean al entero más cercano.
La tabla también presenta la pertenencia a los conglomerados, así como la distancia entre cada caso y su centro de clasificación. Advierta que la pertenencia al conglomerado presentada en la tabla (conglomeración jerárquica) es idéntica a la que se presenta en la tabla (conglomeración no jerárquica). (El conglomerado 1 de la tabla se designa como conglomerado 3 en la tabla, y el conglomerado 3 de la tabla se etiqueta como conglomerado 1 en la tabla). Las distancias entre los centros del conglomerado final indican una buena separación entre los pares de conglomerados. Se presenta la prueba univariada F para cada variable de conglomeración.
Estas pruebas F sólo son descriptivas. Dado que los objetos o casos se asignan de manera sistemática a los conglomerados para maximizar las diferencias en las variables de conglomeración, las probabilidades resultantes no deberían interpretarse como pruebas de la hipótesis nula de que no hay diferencias entre los conglomerados.

Aplicaciones de la conglomeración de dos pasos
Los datos de la tabla inicial también se analizaron con el procedimiento de dos pasos en SPSS. Como todas las variables eran continuas, se utilizó la medida de distancia euclidiana. El criterio de agrupamiento fue el criterio de información Akaike (CIA). El número de conglomerados se determinó de manera automática. Los resultados se muestran en la tabla siguiente. Como se observa, se obtuvo una solución de tres conglomerados, similar a la obtenida con los procedimientos de conglomeración jerárquica y no jerárquica. Advierta que el CIA está al mínimo (97.594) para la solución de tres conglomerados. Una comparación de los centroides de conglomerados en la tabla con los de la tabla muestra que el conglomerado 1 de la tabla corresponde al conglomerado 2 de la tabla (conglomeración jerárquica), el conglomerado 2 de la tabla corresponde al conglomerado 3 de la tabla, y el conglomerado 3 del procedimiento de dos pasos corresponde al conglomerado
1. La interpretación y las implicaciones son similares a las que se revisaron antes. En este caso, los tres procedimientos (jerárquico, no jerárquico y dos pasos) arrojaron resultados similares. En otros casos, diferentes procedimientos generarán resultados distintos. Es buena idea analizar un determinado conjunto de datos con diferentes procedimientos para examinar la estabilidad de las soluciones de agrupamiento.

Agrupamiento de variables
En ocasiones el análisis de conglomerados también sirve para conglomerar variables que permitan identificar grupos homogéneos. En este caso, las unidades usadas para el análisis son las variables y las medidas de distancia se calculan para todos los pares de variables. Por ejemplo, el coeficiente de correlación, el valor absoluto o con signo, puede usarse como medida de semejanza (lo opuesto a la distancia) entre las variables.
La conglomeración jerárquica de variables ayuda a identificar variables únicas o variables que hacen una contribución única a los datos. La conglomeración también puede usarse para reducir el número de variables. Con cada conglomerado se asocia una combinación lineal de variables en el conglomerado, llamada componente del conglomerado. A menudo se reemplaza un conjunto grande de variables con un conjunto de componentes de conglomerados con poca pérdida de información.
Sin embargo, un número dado de componentes de conglomerados por lo general no explica tanta varianza como el mismo número de componentes principales. Entonces, ¿por qué deberían conglomerarse las variables? Por lo regular es más sencillo interpretar los componentes conglomerados que los componentes principales, incluso si estos últimos están rotados. Se ilustra el agrupamiento de variables con un ejemplo de la investigación en publicidad.

Resumen
El análisis de conglomerados se usa para clasificar objetos o casos y, en ocasiones, variables, en grupos relativamente homogéneos.
Los grupos o conglomerados son sugeridos por los datos y no se definen a priori.
Las variables sobre las que se hace la conglomeración deben seleccionarse con base en investigaciones previas, la teoría, la hipótesis a prueba o el juicio del investigador. Debe seleccionarse una medida apropiada de distancia o semejanza. La medida que se usa con más frecuencia es la distancia euclidiana o su cuadrado.
Los procedimientos de conglomeración pueden ser jerárquicos, no jerárquicos u otros, como el de dos pasos. La conglomeración jerárquica se caracteriza por el desarrollo de una jerarquía o estructura tipo árbol. Los procedimientos jerárquicos pueden ser aglomerativos o divisorios. Los procedimientos aglomerativos consisten en procedimientos de enlace, de varianza y de centroides. Los procedimientos de enlace incluyen enlace único, enlace completo y enlace promedio. Un procedimiento de varianza de uso común es la técnica de Ward. A menudo los procedimientos no jerárquicos suelen denominarse conglomeración de k-medias. Estos procedimientos pueden clasificarse como umbral secuencial, umbral paralelo y división óptima.
Los procedimientos jerárquicos y no jerárquicos pueden usarse de manera conjunta. El procedimiento de dos pasos hace una determinación automática del número óptimo de conglomerados, comparando los valores de los criterios de elección del modelo entre diferentes soluciones de conglomeración. La elección de un procedimiento de conglomeración se interrelaciona con la elección de una medida de distancia.
El número de conglomerados puede basarse en consideraciones teóricas, conceptuales o prácticas. En la conglomeración jerárquica, las distancias en las que se combinan los conglomerados es un criterio importante. Los tamaños relativos de los conglomerados tienen que ser significativos. Los conglomerados deben interpretarse en términos de sus centroides. A menudo es útil describir los conglomerados en términos de las variables que no se utilizaron para el agrupamiento. La confiabilidad y validez de las soluciones de conglomeración pueden evaluarse de diferentes maneras.
Si te gustó el artículo o tienes alguna crítica constructiva coméntalo  y recuerda suscribirte al blog. Ah, y comparte con un Tiweet, +1 o por Facebook tus comentarios. Hasta una próxima entrega.
Para diseños de investigación de mercados, levantamiento de estudios de opinión pública y de seguimiento electoral en Venezuela, no dude en contactar a Plepso Investigación, C. A. por sus teléfonos 0243 237.54.06 y 0412 439.25.85, a sus sitio web http://www.plepso.com.ve o al correo electrónico mercadeo@plepso.com.ve y jpleal@plepso.com.ve
OTROS ARTÍCULOS DE INTERÉS

REFERENCIAS BIBLIOGRÁFICAS Y DOCUMENTALES

Aaker, D. y Day, G. S. (1989) Investigación de Mercados. México. Tercera Edición. Segunda Edición en Castellano. Mc Graw-Hill
Boqué, Ricard y Maroto, Alicia (s/f) EL ANÁLISIS DE LA VARIANZA (ANOVA); Comparación de múltiples poblaciones. Tarragona – España. Grupo de Quimiometría y Cualimetría. Universitat Rovira i Virgili. Pl. Imperial Tàrraco, 1. 43005-Tarragona
Malhotra, N (1997) Investigación de mercado, un enfoque práctico. Naucalpan de Juárez México. Prentice Hall Segunda Edición
Pérez-Tejada, H. (2009) Estadística para las Ciencias Sociales, del Comportamiento y de la Salud. México. 3era Edición. CENGAGE Leaning
Salvador Figueras, M (2000): "Introducción al Análisis Multivariante", [Artículo en línea] disponible en: http://www.5campus.com/leccion/anamul  [Consulta: 2015, julio 04]
Siegel, S. y Castellan, J. (1998) Estadísticas No Paramétrica; Aplicadas a las ciencias de la conducta. México. Trillas 4ta edición
Uriel, E. y Adás, J. (2005) Análisis Multivariante Aplicado. Madrid – España. Thomson Edotores Spain
Vicente Villardón, José Luis (s/f) INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA. Departamento de Estadística. [documento en línea] disponible en: http://webcache.googleusercontent.com/search?q=cache:U-rnGopqRqQJ:biplot.usal.es/problemas/libro/7%2520ANOVA.pdf+&cd=3&hl=es&ct=clnk&gl=ve [Consulta: 2015, julio 05]

Chikilian, Martin (s/f) Código Buggy Python: Los 10 Errores más Comunes que Cometen los Desarrolladores Python [Artículo en línea] disponible en: https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es [Consulta: 2016, diciembre 10]
 

No hay comentarios:

Publicar un comentario

CÓMO ES UNA JORNADA TÍPICA DE COMPRAS DEL SHOPPER

Para hacer el trabajo más inteligente en esa Última Milla , para realmente influir en las acciones del   consumidor mientras recorre s...