Approximating the disambiguation of some German nominaliations by use of weak structural, lexical and corpus inforamation

Kurt Eberle; Gertrud Faasz; Ulrich Heid

Ayuda

Approximating the disambiguation of some German nominaliations by use of weak structural, lexical and corpus inforamation

Autores: Kurt Eberle, Gertrud Faasz, Ulrich Heid
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 46, 2011, págs. 67-74
Idioma: inglés
Enlaces
- Texto completo
Resumen
- español
  Entre el método clásico y simbólico de desambiguación de sentidos (WSD) que utiliza representaciones semánticas profundas de oraciones y textos, y el método estadístico que utiliza información relativa a la co-ocurrencia de palabras, existe una tendencia reciente a usar métodos híbridos. De manera similar a la llamada semántica light-weight (Marek, 2009), en este artículo se propone hacer uso de escasa información semántica. Describimos un modelo de aproximación sobre la base de Flat Underspecified Discourse Representation Structures (FUDRSs, cf. Eberle 2004) que valora conocimiento sobre estructura contextual, restricciones de semántica léxica e interpretaciones preferenciales. Presentamos una guía de anotación para la anotación por humanos de textos con los correspondientes indicadores. Mediante su uso, la fiabilidad de la herramienta que implementa el modelo puede ser testada con respecto a la precisión de anotación y a la predicción de desambiguación, y cómo ambas pueden ser mejoradas mediante el bootstrapping del conocimiento del sistema usando información de corpus. Para el corpus set de test considerado, la tasa de reconocimiento de la lectura preferida es del 80-90% (dependiendo de la compensación de errores de análisis sintáctico).
- English
  Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called light-weight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors).

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: