Construcción de corpus y word embedding para datos de Covid-19 en español

Kyungjin Hwang

Ayuda

Construcción de corpus y word embedding para datos de Covid-19 en español

Autores: Kyungjin Hwang
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 67, 2021, págs. 37-44
Idioma: español
Títulos paralelos:
- Constructing Corpus and Word Embedding for Spanish Covid-19 Data
Enlaces
- Texto completo
Resumen
- español
  La Enfermedad Infecciosa por Coronavirus-19 (en adelante Covid-19), que comenzó a extenderse globalmente en diciembre de 2019, mostró una alta tasa de infección y mortalidad, y tuvo un gran impacto en el mundo en 2020. Sin embargo, los estudios existentes de procesamiento del lenguaje natural en español no han utilizado la construcción de corpus o la incrustación de palabras para enfermedades infecciosas, incluido el coronavirus. La construcción de corpus y la incrustación de palabras en el campo biomédico no han mostrado un rendimiento eficaz en la ayuda para luchar contra las enfermedades infecciosas, por lo tanto, este estudio recopila datos en español relacionados con el coronavirus para proceder después a construir un corpus de coronavirus en español e incrustar palabras a través de un preprocesamiento adecuado. Posteriormente, nos gustaría presentar un corpus e incrustación de palabras adecuadas para coronavirus mediante la comparación de la similitud del coseno y la evaluación de visualización con el corpus español existente.
- English
  Severe acute respiratory syndrome coronavirus 2 (COVID 19), colloquially referred to as coronavirus, escalated into a global pandemic with severe transmission and mortality rates in 2019. Despite the escalation of the virus’ worldwide impact in 2020, numerous studies on Natural Language Processing in Spanish have neglected corpus construction or word embedding, especially conspicuous in its absence being the corpora involving coronavirus or infectious diseases. Additionally, corpus construction or word embedding conducted in the medical field do not display efficacy in production pertaining to coronavirus or infectious diseases. To supplement this potentially detrimental insufficiency, this study collects Spanish Language data to build a relevant coronavirus corpus through appropriate preprocessing and then obtains a word embedding. Performance of the corpus and word embedding are then tested through word similarity evaluations, a cosine similarity evaluation, and a visualization evaluation with the existing Spanish corpus. After comparison, corpus and word embedding suitable for coronavirus will be suggested.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: