Javier Muñoz Basols, María del Mar Palomares Marín
, Francisco Moreno Fernández
La llegada de la inteligencia artificial generativa a nivel de usuario, especialmente a partir de los Modelos de Lenguaje Masivos (MLM), nos obliga a reflexionar sobre la proliferación de sesgos en la construcción, desarrollo, uso y representatividad de estos modelos basados en datos lingüísticos. En este artículo, se revisan las iniciativas desarrolladas para el español en el campo de la inteligencia artificial (IA), tanto desde la América hispanohablante como desde España, de modo que se presta especial atención a los recursos lingüísticos y a los MLM. Se examina la composición de los principales MLM actuales del español y se comparan con otros MLM de lenguas peninsulares (catalán, euskera, gallego y valenciano). Asimismo, se introduce el término Sesgo Lingüístico Digital (SLD) para identificar la hibridez lingüística que la IA genera tanto a nivel interlingüístico (p. ej., en relación con la base del inglés utilizada para entrenar estos modelos) como intralingüístico (en relación con las distintas variedades de la lengua). Finalmente, se sugiere que un usuario con conciencia digital podrá contribuir a mitigar los efectos del SLD. En conclusión, se enfatiza la necesidad de una acción coordinada por parte de los agentes institucionales para preservar la diversidad del patrimonio lingüístico hispanohablante en el desarrollo de los MLM.
O advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados linguísticos. Este artigo analisa, em primeiro lugar, as iniciativas desenvolvidas para o espanhol no campo da IA, tanto na América de língua espanhola quanto na Espanha, dando atenção especial aos recursos linguísticos e aos GML. A composição dos principais GML atuais do espanhol é examinada e comparada com outros GML de idiomas peninsulares (catalão, basco, galego e valenciano). Além disso, o termo Viés Linguístico Digital (VLD), que é específico da IA, é apresentado, tanto em nível inter quanto intralinguístico. Por fim, sugere-se que um usuário digitalmente consciente poderá contribuir para atenuar os efeitos do VLD. Para concluir, enfatiza-se a necessidade de uma ação coordenada dos agentes institucionais para preservar a diversidade do patrimônio linguístico de língua espanhola no desenvolvimento de GML.
The advent of generative artificial intelligence at the user level, particularly through the development of Large Language Models (LLMs), prompts us to reflect on the proliferation of biases in the construction, development, use, and representation of these models based on linguistic data. This article first reviews the initiatives developed for Spanish in the field of AI from Latin America and Spain, with special attention to linguistic resources and LLMs. The composition of the current major LLMs for Spanish is examined and compared with other LLMs for peninsular languages (Catalan, Basque, Galician, and Valencian). Subsequently, the term Digital Linguistic Bias (DLB), a consequence of the linguistic hybridity generated in the use of AI-powered tools, is introduced, both at the interlinguistic and intralinguistic levels. Finally, it is suggested that a digitally aware user can intervene mitigating the effects of the DLB. In conclusion, the need for coordinated action by institutional agents to preserve the diversity of the Spanish-speaking linguistic heritage in the development of LLMs is emphasized.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados