K-Means Clustering Definición / explicación

El clustering de K-Means es un método de cuantificación vectorial, originario del procesamiento de señales, que es popular para el análisis de clusters en la minería de datos. Dado un conjunto de observaciones (x1, x2, ..., xn), donde cada observación es un vector real d-dimensional, k-means clustering tiene como objetivo la partición de las n observaciones en k (≤ n) conjuntos S = {S1, S2, ..., Sk} para minimizar la suma de cuadrados dentro del cluster (WCSS) (es decir, la varianza).
El problema es difícil desde el punto de vista computacional (NP-hard); sin embargo, existen algoritmos heurísticos eficientes que se emplean habitualmente y que convergen rápidamente a un óptimo local. El algoritmo estándar emplea una técnica de refinamiento iterativo. Debido a su omnipresencia, a menudo se denomina algoritmo k-means; también se conoce como algoritmo de Lloyd, especialmente en la comunidad informática.
Dado un conjunto inicial de k-means, el algoritmo procede alternando entre dos pasos:
Paso de asignación: Asignar cada observación al cluster cuya media produce la menor suma de cuadrados dentro del cluster (WCSS). Dado que la suma de cuadrados se minimiza, éste es también el cluster con la media más cercana.
Paso de construcción: Dado el conjunto de k-means del paso de asignación, calcular las nuevas medias para que sean los centroides del cluster.
El algoritmo ha convergido cuando las asignaciones ya no cambian. Nunca convergerá a un óptimo global, sino que lo hará a un óptimo local.

¿Por qué se utiliza el algoritmo K-means?

El algoritmo de K-means se utiliza para la agrupación, que es una técnica para agrupar los puntos de datos de manera que los puntos similares están en el mismo grupo y los puntos disímiles están en grupos diferentes. El clustering se utiliza en muchos campos diferentes, como el marketing, la minería de datos o el reconocimiento de imágenes, entre otros. El algoritmo K-means es uno de los algoritmos más populares para el clustering. Funciona dividiendo los puntos de datos en un número determinado de grupos (llamados clusters) y luego encontrando el centro de cada cluster. Los puntos de datos se asignan entonces al clúster al que más se acercan.
Hay muchas variantes diferentes del algoritmo k-means, pero la idea básica es siempre la misma: agrupar los puntos de datos de manera que los puntos similares estén en el mismo grupo y los disímiles en grupos diferentes.

¿Cómo se clasifica k-means? Hay algunas maneras de clasificar k-means. Una forma es notar que k-means es un algoritmo de clustering, lo que significa que puede ser usado para agrupar puntos de datos en clusters. Otra forma de clasificar a k-means es observar que es un algoritmo de aprendizaje no supervisado, lo que significa que se puede utilizar para aprender de los datos sin etiquetas. ¿Por qué se llama clustering de k-means? El algoritmo de clustering k-means se llama así porque consiste en dividir un conjunto de datos en k clusters. La "k" de k-means se refiere al número de conglomerados que creará el algoritmo.

¿Cómo se analiza K-means? Hay varias maneras de analizar K-means. Una forma es calcular la suma de cuadrados dentro del clúster (WCSS), que es una medida de lo bien separados que están los clústeres. Otra forma es mirar el coeficiente de silueta, que es una medida de lo bien que se asigna cada punto de datos a su clúster.

¿Cómo se clasifica k-means?

Hay varias maneras de clasificar k-means. Otra forma de clasificar k-means sería notar que k es un algoritmo de clustering. Esto significa que puede utilizarse para agrupar puntos de datos en clusters. También se puede clasificar a k-means observando que es un algoritmo de aprendizaje no supervisado. Esto significa que puede aprender de datos que no tienen etiquetas.

Deja un comentario