Característica de selección en campos de escala grande utilizando clústeres y meta-algoritmos
Palabras clave:
Selección de funciones, clustering y meta-algoritmos.Resumen
La selección de las características de entrada apropiadas en el aumento de la eficiencia de los algoritmos de minería de datos tiene un efecto directo y significativo. Más precisamente, esta extracción de conocimiento de los datos de problemas se ve facilitada por tres factores: la reducción de volúmenes de datos, la eliminación de características duplicadas y la eliminación de características no relacionadas. Dada esta necesidad, se ha llevado a cabo una extensa investigación en los últimos años con una variedad de tendencias (estadística, algorítmica y de aprendizaje) en este sentido. Mientras tanto, hiper-algoritmos tales como algoritmos genéticos han sido considerados por muchos investigadores. En esta investigación, hemos intentado lograr una mayor eficiencia combinando clustering y algoritmos genéticos y reduciendo el tiempo de computación.
En este sentido, se presenta una nueva representación del algoritmo genético correspondiente a este problema y sus operadores se definen de manera apropiada. Además, para un uso eficiente de la agrupación en este estudio, fue necesario proporcionar un algoritmo relativamente nuevo para la agrupación rápida. Para validar los métodos propuestos y determinar su eficacia en la resolución de problemas reales, se han llevado a cabo varios experimentos con datos estándar. En el siguiente paso, al analizar los métodos propuestos, comparamos los resultados de los experimentos con varios algoritmos informados en artículos válidos y nuevos. Estas comparaciones han mostrado mejoras en la eficiencia de los métodos propuestos en términos de la precisión de la categorización y la reducción de características en comparación con los métodos de la competencia. Según el análisis, esta mejora se debió al efecto positivo de la agrupación en una búsqueda más rápida del espacio problemático mediante el algoritmo genético y la visualización adaptada.
Descargas
Citas
Bekkerman, R., El-Yaniv, R., Tishby, N., & Winter, Y. (2003). Distributional word clusters vs. words for text categorization. J. Mach. Learn. Res., 3, 1183-1208 .
Blum, A. L., & Langley, P, (1997), Selection of relevant features and examples in machine learning. Artif. Intell., 97(1-2), 245-271. doi: 10.1016/s0004-3702(97)00063-5
Chuang, L.-Y., Chang, H.-W., Tu, C.-J., & Yang, C.-H, (2008), Improved binary PSO for feature selection using gene expression data. Comput. Biol. Chem., 32(1), 29-38. doi: 10.1016/j.compbiolchem.2007.09.005
Dhillon, I. S., Mallela, S., & Kumar, R. (2003). A divisive information theoretic feature clustering algorithm for text classification. J. Mach. Learn. Res., 3, 1265-1287 .
Guyon, I., Andr, #233, & Elisseeff, (2003), An introduction to variable and feature selection. J. Mach. Learn. Res., 3, 1182-157 .
Guyon, I., Weston, J., Barnhill, S., & Vapnik, V, (2002), Gene Selection for Cancer Classification using Support Vector Machines. Mach. Learn., 46(1-3), 389-422. doi: 10.1023/a:1012487302797
Kohavi, R., & John, G. H. (1997). Wrappers for feature subset selection. Artificial Intelligence, 97(1–2), 273-324 . doi: http://dx.doi.org/10.1016/S0004-3702(97)00043-X
Torkkola, K, (2003), Feature extraction by non parametric mutual information maximization. J. Mach. Learn. Res., 3, 1415-1438 .