Algoritmo semisupervisado de agrupamiento que combina SUBCLU y el agrupamiento basado en restricciones, para la detección de grupos en conjuntos de alta dimensionalidad

Semisupervised clustering algorithm combining SUBCLU and constrained clustering for detecting groups in high dimensional datasets

Autoría SCIMAGO INSTITUTIONS RANKINGS

Resumen

Los datos de alta dimensionalidad plantean un desafío para los algoritmos de agrupamiento tradicionales, ya que las medidas de similitud convencionales utilizadas por estos no son significativas cuando se aplican sobre el espacio completo de datos, por lo que afectan la calidad de los grupos. Ante esto, los algoritmos de agrupamiento de subespacios han sido propuestos como alternativa para encontrar todos los grupos en todos los espacios del conjunto de datos (¹).

Al detectar grupos en espacios de menor dimensionalidad, cada grupo detectado puede pertenecer a diferentes subespacios del conjunto de datos original (²). Consecuentemente, atributos que el usuario considere de interés pueden ser excluidos en algunos o todos los grupos, perdiendo información importante y reduciendo el valor del resultado para los analistas.

En este proyecto, se propone un nuevo método que combina el algoritmo SUBCLU (³) y el algoritmo de agrupamiento por restricciones (⁴), el cual permite al usuario identificar variables como atributos de interés con base en conocimiento previo del dominio, esto con el objeto de dirigir la detección de grupos hacia espacios que incluyan estos atributos y, por ende, generar grupos más significativos.

Palabras clave: Minería de datos; subespacios; SUBCLU; algoritmo de agrupamiento; agrupamiento por restricciones

vertical_align_top file_download show_chart

more_horizclose
- image
- translate
- link
- article
- vertical_align_top
- file_download
- show_chart
- image
- translate
- link
- article

location_on

None Cartago, Costa Rica, Cartago, Cartago, Costa Rica, CR, 159-7050 , 25502336, 25525354 - E-mail: alramirez@itcr.ac.cr

rss_feed Acompanhe os números deste periódico no seu leitor de RSS

Acessibilidade / Reportar erro

	SUBCLU	SUBCLU-R
Total de grupos generados	1130	599
Grupos que incluyen el atributo de interés	595	590
Subespacios únicos	1023	521
Subespacios únicos que incluyen el atributo de interés	413	513
Grupos que no incluyen el atributo de interés	535	9
Grupos en común	549	549
Grupos en común con el atributo de interés	539	539
Grupos en común sin el atributo de interés	9	9
Grupos detectados por un algoritmo y no detectados por el otro	581	50
Grupos que incluyen el atributo de interés detectado por un algoritmo y no detectado por el otro	56	51

Parámetro	Función de distancia	SUBCLU	SUBCLU R
Cohesión	Euclideana	4,113	3,8832
Cohesión	Manhattan	2,9312	2,8813
Subtotal promedio		3,5221	3,38225
Separación	Euclideana	17,7541	17,721
Separación	Manhattan	17,5425	17,5101
Subtotal promedio		17,6483	17,6155
Silueta	Euclideana	1,0065	1,0061
Silueta	Manhattan	1,0055	1,0058
Subtotal promedio		1,006	1,006
Tiempo de ejecución (horas)	Euclideana	31:05	36:56
Tiempo de ejecución (horas)	Manhattan	29:45	36:11
Subtotal promedio		30:41	36:34