A deep learning question answering method over mixed closed domain information sources

Andrés Enrique Rosso Mateus

Ayuda

A deep learning question answering method over mixed closed domain information sources

Autores: Andrés Enrique Rosso Mateus
Directores de la Tesis: Fabio A. González Osorio (dir. tes.), Manuel Montes y Gómez (dir. tes.)
Lectura: En la Universidad Nacional de Colombia (UNAL) ( Colombia ) en 2021
Idioma: inglés
Títulos paralelos:
- Un método de aprendizaje profundo para responder automáticamente a preguntas en dominio cerrado sobre fuentes de información mixta
Enlaces
- Tesis en acceso abierto en: repositorio.unal.edu.co
Resumen
- español
  La tarea de respuesta automática a preguntas (QA), es un área de investigación muy activa debido a su utilidad para acceder a la creciente cantidad de datos. Las necesidades de información han llevado a la aparición de nuevos paradigmas de recuperación de información en los que el usuario puede acceder fácilmente a información precisa.
  
  Los métodos de QA permiten resolver las consultas enviadas por el usuario en lenguaje natural de forma concisa y eficaz, reduciendo la necesidad de validación manual de grandes documentos. En dominios cerrados, como el biomédico, estos métodos son relevantes debido a la gran cantidad de documentos especializados que dificultan la tarea de encontrar información específica, así como la utilidad de esta información para apoyar la práctica y la investigación.
  
  En este trabajo de investigación se abordó especialmente la recuperación de pasajes, que suele ser el último paso de un sistema de QA. Esta tarea evalúa los fragmentos de texto que componen los documentos que pueden contener la respuesta a la pregunta presentada por el usuario. Esta evaluación realiza comprobaciones semánticas y a veces sintácticas que permiten deducir si el pasaje de texto es una respuesta válida, para finalmente devolver una lista clasificada de pasajes que tienen una mayor probabilidad de ser una respuesta.
  
  En un dominio cerrado, como el biomédico, la recuperación de pasajes es especialmente difícil debido a la complejidad de la terminología biomédica y a la heterogeneidad de las fuentes de información. Estos retos, junto con otros que se detallarán a lo largo del documento, hacen necesario el uso de otras fuentes de información, como las semánticas, que, utilizadas en combinación con las fuentes textuales, ayudan a gestionar la complejidad del lenguaje.
  
  Por otro lado, el uso del aprendizaje profundo en este campo tiene un gran interés y recientemente se ha popularizado como una importante herramienta para resolver la tarea de recuperación de pasajes, sin embargo existen muy pocos métodos que fusionen las diferentes modalidades de información que en un dominio como el biomédico ofrece evidentes ventajas.
  
  En este trabajo de investigación se exploraron diferentes técnicas de aprendizaje profundo. Además, se evaluaron varios métodos de fusión de información para aprovechar la complementariedad de las modalidades. Los métodos propuestos se evaluaron sistemáticamente en diferentes conjuntos de datos de dominio abierto y cerrado. Particularmente en el dominio biomédico los resultados fueron sobresalientes, superando el estado del arte y demostrando su efectividad en el mayor desafío global para esta tarea en particular, BioASQ.
- English
  Question Answering (QA) is an active research area due to its usefulness in accessing the ever increasing amount of data. Information needs have led to the emergence of new information retrieval paradigms in which the user can easily access accurate information.
  
  QA methods allow to solve queries submitted by the user in natural language concisely and effectively, reducing the need for manual validation of large documents. In closed domains, such the biomedical one, these methods are relevant due to the large amount of specialized documents that make difficult the task of finding specific information as well as the usefulness of this information to support practice and research.
  
  In this research work, passage retrieval, which is often the final step in a question-answer system, was particularly addressed. This task evaluates the text fragments that make up the documents that may contain the answer to the question submitted by the user. This evaluation carries out semantic and sometimes syntactic checks that allow to deduce if the text passage is a valid answer, to finally return a ranked list of passages that have a higher probability of being an answer.
  
  In a closed domain, such as the biomedical domain, passage retrieval is particularly challenging due to the complexity of biomedical terminology and the heterogeneity of information sources. These challenges, along with others that will be detailed throughout the document, make it necessary to use other sources of information, such as semantic ones, which, when used in combination with textual sources, help to manage the complexity of language.
  
  On the other hand, the use of deep learning in this field has great interest and recently it has become increasingly popular as an important tool to solve the task of passage retrieval, however there are very few methods that merge the different modalities of information that in a domain like biomedicine offer obvious advantages.
  
  In this research work, different deep learning techniques were explored. In addition, several methods of information fusion were evaluated to take advantage of the complementarity of the modalities. The proposed methods were systematically evaluated in different open and closed domain data sets. Particularly in the biomedical domain the results were outstanding, surpassing the state of the art and demonstrating their effectiveness in the biggest global challenge for this particular task, BioASQ.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: