Using Parallel Corpora for Translation-Oriented Term Extraction

Spela Vintar

Ayuda

Using Parallel Corpora for Translation-Oriented Term Extraction

Autores: Spela Vintar
Localización: Babel: Revue Internationale de la Traduction = International Journal of Translation, ISSN 0521-9744, Vol. 47, Nº 2, 2001, págs. 121-132
Idioma: francés
Texto completo no disponible (Saber más ...)
Resumen
- In many scientific, technological or political fields terminology and the production of up-to-date reference works is lagging behind, which causes problems to translators and results in inconsistent translations. Parallel corpora of texts already translated can be used as a resource for automatic extraction of terms and terminological collocations. Especially for smaller languages where existing resources are scarce, collecting and exploiting parallel corpora may be the chief method of obtaining terminological data.
  
  The paper describes how a methodology for multi-word term extraction and bilin-gual conceptual mapping was developed for Slovene-English terms. We used word-to-word alignment to extract a bilingual glossary of single-word terms, and for multi-word terms two methods were tested and compared. The statistical method is broadly applicable but gives results of very limited use, while the method of syntactic patterns extracts highly useful terminological phrases, however only from a tagged corpus. A vision of further development is given and how these methods might be incorporated into existing transla-tion tools = Dans des nombreux domaines scientifiques, technologiques ou politiques, la terminologie et la production de travaux de références actualisés prend du retard, ce qui cause des problémes aux traducteurs et a comete conséquence des traductions incohérentes. Des corpus paralléles de textes dejó traduits peuvent étre utilisés comme une ressource pour 1'extraction automatique de termes et de collocations terminologiques. Spécialement pour des langues de faible diffusion, dans lesquelles les ressources existantes sont rares, la collection et 1'exploitation des corpus paralléles peuvent devenir la méthode principale pour 1'obtention de données terminologiques.
  
  L'article décrit comment une méthodologie d'extraction de termes comprenant plusieurs mots et la représentation conceptuelle et bilingue a été développée pour les termes de langue slovéne et de langue anglaise.
  
  Nous avons utilisé un alignement mot-par-mot en vue d'extraire un glossaire bi-lingue de termes comprenant un mot unique, et pour les termes comprenant plusieurs mots, deux méthodes ont été appliquées et comparées. La méthode statistique est large-ment applicable, mais offre des résultats d'un usage trés limité, tandis que la méthode de modéles syntaxiques produit des expressions terminologiques extrémement utiles bien qu'elles proviennent seulement d'un corpus spécifique.
  
  Un plus ample progrés se profile et la faqon dont ces méthodes pourraient étre incorporées dans les instruments déjá existants de la traduction est démontrée.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: