Ayuda
Ir al contenido

Dialnet


Construcción de corpus y word embedding para datos de Covid-19 en español

  • Autores: Kyungjin Hwang
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 67, 2021, págs. 37-44
  • Idioma: español
  • Títulos paralelos:
    • Constructing Corpus and Word Embedding for Spanish Covid-19 Data
  • Enlaces
  • Resumen
    • español

      La Enfermedad Infecciosa por Coronavirus-19 (en adelante Covid-19), que comenzó a extenderse globalmente en diciembre de 2019, mostró una alta tasa de infección y mortalidad, y tuvo un gran impacto en el mundo en 2020. Sin embargo, los estudios existentes de procesamiento del lenguaje natural en español no han utilizado la construcción de corpus o la incrustación de palabras para enfermedades infecciosas, incluido el coronavirus. La construcción de corpus y la incrustación de palabras en el campo biomédico no han mostrado un rendimiento eficaz en la ayuda para luchar contra las enfermedades infecciosas, por lo tanto, este estudio recopila datos en español relacionados con el coronavirus para proceder después a construir un corpus de coronavirus en español e incrustar palabras a través de un preprocesamiento adecuado. Posteriormente, nos gustaría presentar un corpus e incrustación de palabras adecuadas para coronavirus mediante la comparación de la similitud del coseno y la evaluación de visualización con el corpus español existente.

    • English

      Severe acute respiratory syndrome coronavirus 2 (COVID 19), colloquially referred to as coronavirus, escalated into a global pandemic with severe transmission and mortality rates in 2019. Despite the escalation of the virus’ worldwide impact in 2020, numerous studies on Natural Language Processing in Spanish have neglected corpus construction or word embedding, especially conspicuous in its absence being the corpora involving coronavirus or infectious diseases. Additionally, corpus construction or word embedding conducted in the medical field do not display efficacy in production pertaining to coronavirus or infectious diseases. To supplement this potentially detrimental insufficiency, this study collects Spanish Language data to build a relevant coronavirus corpus through appropriate preprocessing and then obtains a word embedding. Performance of the corpus and word embedding are then tested through word similarity evaluations, a cosine similarity evaluation, and a visualization evaluation with the existing Spanish corpus. After comparison, corpus and word embedding suitable for coronavirus will be suggested.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno