Este estudio pretende examinar las potenciales diferencias entre las evaluaciones de los profesores y los sistemas de evaluación basados en herramientas de inteligencia artificial (IA) en los exámenes universitarios. La investigación ha evaluado un amplio espectro de exámenes que incluyen exámenes de cursos numéricos y verbales, exámenes con distintos estilos de evaluación (proyecto, examen de prueba, examen tradicional) y exámenes de cursos tanto teóricos como prácticos. Estos exámenes se seleccionaron mediante un método de muestreo de criterios y se analizaron mediante el análisis de Bland-Altman y los análisis del coeficiente de correlación intraclase (ICC) para evaluar el rendimiento del IA y las evaluaciones de los profesores en una amplia gama. Los resultados de la investigación indican que si bien existe un alto nivel de competencia entre las puntuaciones totales de los exámenes evaluadas por inteligencia artificial y las evaluaciones de los profesores; Se halló una consistencia media en la evaluación de los exámenes basados en la visualidad, una consistencia baja en los exámenes de vídeo, una consistencia alta en los exámenes de prueba y una consistencia baja en los exámenes tradicionales. Esta investigación es crucial puesto que ayuda a identificar áreas específicas donde la inteligencia artificial puede complementar o necesitar mejora en la evaluación educativa, orientando el desarrollo de herramientas de evaluación más precisas y justas.
Aquest estudi pretén examinar les diferències potencials entre les avaluacions dels professors i els sistemes d'avaluació basats en eines d'intel·ligència artificial (IA) en els exàmens universitaris. La investigació ha avaluat un ampli espectre d'exàmens que inclouen exàmens de cursos numèrics i verbals, exàmens amb diferents estils d'avaluació (projecte, examen de prova, examen tradicional) i exàmens de cursos tant teòrics com pràctics. Aquests exàmens es van seleccionar mitjançant un mètode de mostreig de criteris i es van analitzar mitjançant l'anàlisi de Bland-Altman i les anàlisis del coeficient de correlació intraclasse (ICC) per avaluar el rendiment de l'IA i les avaluacions dels professors en una àmplia gamma. Els resultats de la investigació indiquen que si bé hi ha un alt nivell de competència entre les puntuacions totals dels exàmens avaluades per intel·ligència artificial i les avaluacions dels professors; Es va trobar una consistència mitjana en l'avaluació dels exàmens basats en la visualitat, una consistència baixa en els exàmens de vídeo, una consistència alta en els exàmens de prova i una consistència baixa en els exàmens tradicionals. Aquesta investigació és crucial ja que ajuda a identificar àrees específiques on la intel·ligència artificial pot complementar o necessitar millora en l'avaluació educativa, orientant el desenvolupament d'eines d'avaluació més precises i justes.
This study aims to examine the potential differences between teacher evaluations and artificial intelligence (AI) tool-based assessment systems in university examinations. The research has evaluated a wide spectrum of exams including numerical and verbal course exams, exams with different assessment styles (project, test exam, traditional exam), and both theoretical and practical course exams. These exams were selected using a criterion sampling method and were analyzed using Bland-Altman Analysis and Intraclass Correlation Coefficient (ICC) analyses to assess how AI and teacher evaluations performed across a broad range.The research findings indicate that while there is a high level of proficiency between the total exam scores assessed by artificial intelligence and teacher evaluations; medium consistency was found in the evaluation of visually basedexams, low consistency in video exams, high consistency in test exams, and low consistency in traditional exams.This research is crucial as it helps to identify specific areas where artificial intelligence can either complementor needs improvement in educational assessment, guiding the development of more accurate and fair evaluation tools
© 2001-2024 Fundación Dialnet · Todos los derechos reservados