La motivación del presente artículo nace de la intuición de que la sola utilización de la densidad léxica de muestras textuales pertenecientes a diferentes idiomas, autores, dominios lingüísticos, etc., puede ser potencialmente válida para discriminar textos de forma automática. Con el fin de encontrar un índice de densidad léxica válido y fiable, hemos revisado y clarificado la relación matemática entre tipos (formas) y tokens (palabras), para construir modelos de regresión adecuados que nos permitan distinguir tipos de textos. Por añadidura, hemos hecho uso de modelos estadísticos multivariantes (análisis de conglomerados y análisis discriminante) con el fin de complementar y optimizar el modelo matemático de regresión para la densidad léxica (TYT)
© 2001-2024 Fundación Dialnet · Todos los derechos reservados