Raoul Jetley ABB Corporate Research, Bangalore, India, raoul.jetley@in.abb.com
Se estima que hasta el 80 % de toda la información de las organizaciones se almacena en un formato de texto no estructurado. Esta información incluye requisitos del cliente, expedientes de ventas, especificaciones técnicas, informes de mantenimiento y comentariosde las partes interesadas. Es difícil extraer conocimiento empresarial de datos tan dispares por métodos tradicionales de análisis de datos, por lo que, en su lugar, se utiliza la minería de datos basada en textos, también llamada “minería de textos” →1.
En pocas palabras, la minería de textos es el conjunto de procesos necesarios para transformar documentos o recursos de texto desestructuradosen información significativa y estructurada. La información estructurada puede utilizarse para descubrir automáticamente patrones ocultos y predecir resultados futuros utilizando una combinación de técnicas estadísticas, lingüísticasy de reconocimiento de patrones.
La minería de textos es un campo interdisciplinar que utiliza la recuperación de información, la minería de datos, el aprendizaje automático, la estadística y la lingüística computacional para descubrir y presentar conocimientos (hechos,reglas comerciales y relaciones) que, de otro modo, estarían bloqueados en forma textual,impenetrables al procesamiento automatizado.
Un proceso típico de minería de textos consta de los siguientes pasos:
- Identificar el texto y someterlo a pretratamiento:limpieza del texto para eliminar información innecesaria, división en “tokens” individuales (componentes más pequeños) e identificaciónde las categorías gramaticales según lagramática del idioma utilizado.
- Extraer información pertinente y transformarla en datos estructurados. La información se recupera buscando en todo el texto convertido en "okens y almacenando los resultados de unamanera más estructurada y organizada quepermita el análisis.
- Seleccionar características importantes paracrear modelos y categorías conceptuales. El número de conceptos presentes en los datos desestructurados suele ser muy grande. La clave es identificar las características más relevantes y utilizarlas para construir modelos significativos basados en categorías yrelaciones de datos.
- Analizar los datos estructurados para descubrirrelaciones entre los conceptos. Aquí la mineríade textos se fusiona con la minería de datos.Las técnicas clásicas de minería de datos, como agrupación, predicción y clasificación, se aplican a los datos estructurados resultantes de los pasos anteriores.
Las aplicaciones comunes resultantes de estosanálisis incluyen el reconocimiento de las entidades nombradas, el resumen automático, la categorización por características relevantes y la extracción de puntos de vista y opiniones de los clientes expresados en el texto →2.