El objetivo principal de este trabajo es crear bases de información lingüísticas: Diccionarios y Gramáticas electrónicas, que se puedan utilizar por mecanismos automáticos de análisis para la identificación y agrupación de variantes léxicas y sintácticas en idioma español.
El objetivo potencial de estas herramientas sería mejorar las entradas a los índices de los sistemas de RI, con técnicas procedentes del PLN.
La metodología de investigación lingüística que hemos empleado Expresiones y Relaciones Regulares, como mecanismo automático de control hemos utilizado una aplicación informática basada en Transductores de Estado-Finito Gráficos.
Con este procedimiento se han obtenido los siguientes resultados:
A,- Equiparar Formas flexionadas a Formas controladas, por medio de las bases de información léxicas, consistentes en Diccionarios electrónicos.
B,- Equiparar variantes estructurales de Sintagmas Nominales con estructuras controladas, por medio de las bases de información sintácticas.
C,- Comprobar las hipótesis explicativas, mediante la aplicación de los analizadores, desarrollados con estas bases de información, sobre un corpus de verificación.
D,- Evaluar los resultados de esta aplicación, que se sintetizan como sigue: los analizadores léxicos son muy precisos y consiguen reducir las variantes en un 26,4%, mientras que los analizadores sintácticos son también muy precisos, pero tienen un índice de exhaustividad medio-bajo.
Las conclusiones generales que hemos extraído son las siguientes:
1,- Los analizadores léxicos constituyen una técnica de conflación adecuada, aunque tienen un problema de infraanálisis.
2,- Los analizadores sintácticos constituyen una técnica de conflación adecuada, aunque tiene un problema de sobreanálisis, que se puede solucionar con la aplicación de modelos probabilísticos.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados