El objetivo de esta tesis ha sido abordar diferentes técnicas de búsqueda semántica y analizar su aplicabilidad a textos escritos en griego antiguo, para lo cual hemos tomado como ejemplo el texto de las Historias de Heródoto. Entendemos por búsqueda semántica una serie de métodos de extracción o recuperación automática de información a partir de diversas fuentes documentales, y nos centramos en aquellos concebidos para extraer información de documentos textuales. A lo largo de este trabajo hemos intentado ofrecer un panorama de las técnicas de recuperación automática de información desarrolladas dentro y fuera del ámbito de la Filología Clásica más importantes, dirigidos por el deseo de mejorar su utilización actual.
Nuestra exposición comienza con un introducción sobre el texto como fuente de información, centrándonos en las características del mismo en la Antigüedad, y especialmente en el importante papel de la memoria y la oralidad como soporte de la información y vehículo de su transmisión en la antigua Grecia. Se aprecia una evolución en las forma de codificar información en el objeto textual, que depende cada vez más de elementos visuales a medida que se extiende el uso de la escritura. Una vez definidos los rasgos generales de nuestro objeto de estudio se ofrece una clasificación de los diferentes sistemas de búsqueda y recuperación de información. Hemos abordado la tarea de la clasificación a partir de dos criterios básicos: por un lado, hemos tenido en cuenta quién es el sujeto que realiza el procesamiento de los datos, y, por otro lado, el modo en el que se aborda el continente de dichos datos, el texto. Para ello hemos utilizado como criterios el método concreto de manipulación de los datos, el tipo de resultado obtenido y el objetivo perseguido. De este modo proponemos una división en métodos de búsqueda de información directa o mediada, según intervengan otras herramientas ajenas a la observación directa de los datos. Las búsquedas mediadas se subdividen a su vez en sistemas basados en la reducción del volumen de datos en el texto y en sistemas basados en la reconstrucción de los datos.
A la luz de esta clasificación abordamos la cuestión del procesamiento de textos por ordenador. Se desarrolla brevemente la historia del ordenador como herramienta de gestión de información y su funcionamiento básico. Al igual que la escritura introdujo cambios en la forma en la que se codificaba la información en el texto, el entorno digital ha modificado nuestro acercamiento a la cuestión de la recuperación de información textual. Como muestra analizamos algunas herramientas generales de búsqueda por ordenador, como son las expresiones regulares, los lenguajes descriptivos y procedimentales. En particular nos centramos en dos ejemplos de aplicación de los métodos de búsqueda semántica para obtener información de textos. En primer lugar abordamos el Análisis Semántico Latente (ASL), un método de análisis del contenido de textos basado en el estudio y comparación de frecuencias. En concreto, hemos aplicado una técnica basada en este método, denominada «modelado de temas» o topic modeling. En segundo lugar abordamos brevemente las ontologías, un modelo de categorización y clasificación de información, cuyo origen remonta a la tradición filosófica pero que ha terminado por convertirse en una técnica muy utilizada para la gestión de contenido en diversos ámbitos, como pueden ser bibliotecas o internet. Creemos que algunas características del lenguaje descriptivo XML (eXtensible Markup Language) constituyen una forma de aplicación válida y concreta del concepto de ontología, y explicamos el por qué.
De todas ellas, el etiquetado del texto mediante XML resulta el método más transparente, que otorga al investigador un poderoso instrumento de codificación. En efecto, si bien no permite un análisis a priori de los datos, el lenguaje XML posibilita la expresión de un número indefinido de rasgos textuales, de un modo que no sólo resulta comprensible para un lector humano, sino para un programa informático. Las únicas limitaciones al tipo de rasgos codificables son pocas, además de una consecuencia de la naturaleza lógica y matemática de cualquier mecanismo informático digital: (a) los datos deben tener un principio y un final claro y (b) los tipos de datos y las relaciones entre los mismos deben estar perfectamente definidas. Al margen de estas observaciones, la expresividad del lenguaje XML y el control que ofrece sobre los datos lo convierten en una herramienta muy apropiada para el procesamiento de texto por ordenador. Por estas razones, a partir del análisis del procedimiento de generación de topic models, cuyos resultados se adjuntan como anexo a la tesis, dirigimos la mirada a los lenguajes descriptivos como método alternativo. En este caso, nos hemos centrado en la optimización del uso del sistema de etiquetado XML para codificar la información detectada en el texto. En efecto, hemos tratado de mostrar que el uso del lenguaje XML hecho por Perseus resulta pobre en comparación con las posibilidades que ofrece, recogidas en la teoría y con ejemplos en la normativa TEI. El texto de Heródoto, con su riqueza estructural y temática, derivada de la naturaleza oral del texto transmitido, es un campo de trabajo perfecto para demostrar la versatilidad de esta herramienta, y esperamos que lo expuesto anime a otros a aplicarla a otros autores.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados