En virtud del fuerte impacto que ha tenido la evaluación en la enseñanza, resultan indispensables instrumentos de evaluación del aprendizaje que sean válidos y confiables. La Facultad de Idiomas de la Universidad Autónoma de Baja California no implementa una herramienta tecnológica para el desarrollo de exámenes estandarizados y su análisis psicométrico, de ahí que este trabajo analice la aplicación de exámenes estandarizados referidos a un criterio y basados en la teoría de respuesta al ítem. La metodología empleada requirió la integración de varios comités de especialistas para producir instrumentos que guiaran la construcción del examen, como la tabla de índices de relevancia curricular y la justificación de contenidos. La calidad del examen se midió mediante un desarrollo innovador que cuantificó automáticamente los criterios psicométricos de validez y confiabilidad, como el índice de dificultad de los ítems y el índice de discriminación. Los resultados permiten observar la calidad del examen e identificar el rendimiento de cada ítem, así como el nivel de dominio de la muestra de alumnos participantes, lo que contribuye a la realización de valoraciones más exactas de su desempeño académico. El instrumento mostró utilidad tanto para la evaluación formativa como para la sumativa.
The evaluation has had a strong impact on teaching, which is why learning instruments that are valid and reliable are indispensable. The Faculty of Languages of the Universidad Autónoma de Baja California does not implement a technological tool for the development of standardized tests and their psychometric analysis. Therefore, this paper analyze the implementation of standardized tests referred to a criterion, based on the Item Response Theory. The used methodology required the integration of several committees of specialists to produce instruments that guided the construction of the test, such as the curricular relevance index table, the contents justification, etc. The test quality was evaluated using an innovating development that automatically quantified the psychometric criteria of validity and trustworthiness like the difficulty index of the items and the discrimination index. The results allow to observe the quality of the test identifying the yield of each item, as well as the yield and level of knowledge of the participant students sample, which contributes to the realization of more accurate assessments of their academic performance. It is concluded that the instrument showed utility for both formative and summative evaluation.
Diferentes propósitos educativos requieren diversas pruebas y usos de estas. Cuando una prueba no guarda estrecha relación con sus propósitos, difícilmente pueden efectuarse inferencias válidas a partir de sus resultados. Desarrollar exámenes para la evaluación estandarizada del aprendizaje (
Para
En las instituciones de educación superior de los países industrializados es común que se utilicen evaluaciones diseñadas y validadas para propósitos de admisión. En Estados Unidos, por ejemplo, desde 1926 se emplea el Scholastic Aptitude Test para ingresar a la licenciatura; desde 1949, el Graduate Record Examination, para el posgrado; y desde 1964, el Test of English as a Foreing Languaje, para acreditar el conocimiento del inglés (
En el caso específico de México, en 1994 se creó el Centro Nacional para la Evaluación de la Educación Superior (Ceneval) a fin de que se contará con un examen nacional de carácter indicativo que proporcionara información confiable y válida sobre los conocimientos y las habilidades que adquieren las personas como beneficiarias de los distintos programas educativos; el examen serviría como un indicador para las instituciones de educación superior que participaran. La concepción del Ceneval pretendía atender la necesidad del país,
de contar con un examen nacional indicativo previo a la licenciatura [...] [que permitiera] a las propias instituciones, a las autoridades gubernamentales y a la sociedad en general, evaluar las habilidades y los conocimientos básicos que poseen los aspirantes al cursar estudios de licenciatura y un examen general de calidad profesional [.] [que hiciera posible] conocer la pertinencia e idoneidad de la formación académica de los nuevos profesionistas del país (
Las necesidades anteriores se convirtieron en lo que ahora se conoce como Examen Nacional de Ingreso a la Educación Media Superior, Examen Nacional de Ingreso a la Educación Superior, Examen Nacional de Ingreso al Posgrado y Examen General para el Egreso de la Licenciatura, mecanismos insoslayables en materia de selección, promoción y obtención de borlas académicas en el sistema educativo mexicano.
Actualmente, el Examen de Competencias Básicas (Excoba), antes denominado Exhcoba (
La Facultad de Idiomas de la Universidad Autónoma de Baja California (UABC) no dispone de una herramienta tecnológica que ayude a construir exámenes estandarizados y que, a su vez, puedan valorarse mediante el análisis psicométrico. Si bien existen algunos
En los siguientes apartados se detalla, en primer lugar, el método elegido para guiar el desarrollo del examen, que incluye la descripción de los instrumentos utilizados para su construcción y evaluación. Se explica la interpretación numérica para los valores de calidad que se van a medir y lo que estos implican. En el apartado de resultados se muestra la valoración técnica del análisis psicométrico, que es la que determina la calidad y confiabilidad del examen, como lo es el índice de dificultad y discriminación. Asimismo, se presentan los datos obtenidos con tres de los principales instrumentos que conducen la elaboración del examen. En el último apartado se concluye la relevancia de contar con instrumentos estandarizados de evaluación y las ventajas de tener
Al tomar como referencia el objetivo general de esta investigación (diseñar una propuesta innovadora de análisis psicométrico para los exámenes estandarizados de los aprendizajes en la Facultad de Idiomas de la UABC), la metodología empleada en la estructuración de este examen fue formulada en el Instituto de Investigación y Desarrollo Educativo (
El desarrollo de estos exámenes requiere la definición de ciertas etapas propias de la metodología para elaborarlos de manera estandarizada y con calidad. Además, para las últimas dos etapas del proceso, que implican el análisis del comportamiento de los ítems, es necesario un análisis estadístico especializado que precisa un
Un elemento importante en la metodología es la integración de comités que se encarguen de la ejecución de las actividades para cada fase del desarrollo del examen. El comité diseñador prepara el diseño general de la prueba; entre sus acciones se puede citar el análisis del currículo, la elaboración de la retícula y el análisis de los índices de relevancia curricular. Otro comité es el responsable de las especificaciones para la construcción de los ítems y de detallar la estructura estándar que estos deben mostrar.
El comité de ítems tiene la encomienda de producirlos de acuerdo con las características señaladas en las especificaciones. El comité de jueceo realiza una valoración de diferentes aspectos, como la calidad técnica del ítem, la validez cognitiva, el formato y la edición, entre otros. El último comité es el analítico informático, que lleva a cabo los procesos de evaluación psicométrica de los ítems mediante el procesamiento de la información con un
Otro detalle importante sobre la integración de estos comités es que se conforman por un docente especialista en la asignatura, un docente experto en el currículo, un docente con años de experiencia en educación y uno con amplia práctica en evaluación. Estos comités, a su vez, pueden preparar o capacitar a otros docentes para que participen en las actividades que se desempeñan.
Con base en lo anterior, la muestra a la que se aplicó este examen se integró de 394 alumnos, quienes cursan el primer semestre del tronco común de la Licenciatura en Idiomas. La asignatura para la cual se diseñó el examen fue Morfología de la segunda lengua, que está seriada con Morfosintaxis, ambas ponderadas con la más alta relevancia curricular para el tronco común. El género de la población fue 50% masculino y 50% femenino; de estos, se eligió 33% de alumnos con bajo rendimiento (menores o iguales a 6.9), 33% de alumnos con rendimiento regular (entre 7 y 8.9) y 34% de alumnos con alto rendimiento (mayores o iguales a 9).
Las variables que se midieron para valorar la calidad del examen son las establecidas por la teoría de respuesta al ítem (
El índice de dificultad se mide en un rango de valores que va de 0 a 1; entre más cerca se encuentre el valor del índice a 1, la pregunta es más fácil de contestar, y viceversa. Sucede lo mismo con el índice de discriminación del ítem, ya que se mide entre 0 y 1, y la discriminación será mejor entre más cercano a 1 se encuentre este valor. La correlación ítem-total como mínimo debe situarse en un valor de .25, y entre más cerca esté al 1, el ítem guardará mayor relación con la probabilidad más alta de obtener un buen puntaje en todo el examen si este es contestado correctamente.
El sustento rector en la construcción del examen es la carta descriptiva de la asignatura, documento que establece el universo de conocimientos a evaluar. Por esto, a la prueba se le conoce como examen referido a un criterio (
Uno de los instrumentos especializados indispensable para las etapas finales del desarrollo son aquellos
Uno de los productos que arroja la aplicación de la metodología y que tiene amplia utilidad para los docentes es la retícula. Este instrumento permitió apreciar de manera completa cómo los contenidos temáticos de la asignatura se relaciónaban entre sí, e identificar aquellos que tenían un mayor impacto para concretar otros conocímientos.
La
El producto correspondiente a los resultados del índice de relevancia curricular (IRC) de los
contenidos temáticos se muestra en la
Fuente: elaboración propia.
Contenido
Contribución al logro de la competencia de la unidad 20%
Dosificación (cuantía de contenidos implícitos) 10%
Carga horaria (asignada 0 estimada para su aprendizaje) 10%
Relevancia disciplinaria 20%
Indice de relevancia curricular
1.1.1 Definition of the discipline
0.20
0.10
0.10
0.20
0.600
1.1.2 History
0.13
0.07
0.07
0.13
0.400
1.2.1 Free forms
0.20
0.10
0.07
0.13
0.533
1.2.2 Signs and morphemes
0.20
0.10
0.10
0.20
0.633
Fuente: elaboración propia.
Items
Medía de aciertos
Desviación estándar
Puntaje mínimo
Puntaje máximo
Medía del valor ρ
Medía de rpBís
Alpha
63
40.211
7.242
27
61
0.638
0.212
0.796
La
Debido a que el propósito de estos exámenes es evaluar el dominio de un determinado conocimiento que los estudiantes poseen, se utiliza una cantidad más grande de ítems de contenidos temáticos que posean un mayor IRC, porque este tipo de temas requieren la integración de una mayor cantidad de conocimientos y, por ende, supone un grado de dominio más alto. Estos fueron algunos de los resultados obtenidos en las primeras etapas de la metodología; sin embargo, para las siguientes etapas los resultados fueron más técnicos, ya que implicaron la valoración de mayor peso en el desarrollo del examen y la medición de la calidad a través del análisis psicométrico.
El análisis psicométrico que se derivó de la aplicación del pilotaje mostró en el ítem los
diferentes criterios de calidad que se deseaban medir. En total, 63 ítems se
aplicaron para el examen de Morfología de la segunda lengua; para cada uno se emitió
un juicio a fin de determinar si se aceptaban o no, y las razones de este dictamen.
Las estadísticas descriptivas generales del examen se presentan en la
Entre los datos importantes de la
Ahora bien, la
Fuente: elaboración propia.
Análisis
IT25
IT26
IT28
IT48
Dificultad (
Ítem fácil con p=.789
Dificultad difícil con .395
Ítem muy difícil, con una
Ítem muy difícil con .21
Discriminación
Discriminación regular con .26
Discriminación muy buena .53
Discriminación buena con .33
Discriminación negativa con .16
rpBis
Buena con .264
Muy buena con .432
Baja con .132
Negativa con .271
Distractor
Los distractores funcionaron bien; se obtuvieron diferencias de -.173 y -.091.
Los distractores funcionaron bien; se obtuvieron diferencias de -.173 y -.355.
Los distractores funcionaron bien, se obtuvieron diferencias de -.064 y -.264.
Los distractores fueron elegidos, pero en igual proporción por el grupo alto y bajo
El poder discriminatorio del ítem es regular, con un valor obtenido de .26; además, el contestarlo correctamente tiende a guardar relación con los buenos puntajes en todo el examen (rpBis de .264).
Otro factor que se observa en el ítem 25 son los distractores o las respuestas incorrectas. Estos fueron elegidos en todos los casos y con mayor proporción por los grupos bajos (alumnos con escaso rendimiento, promedios menores o iguales a 6.9) o los que obtuvieron menor nota al final del examen. Para saber si un ítem discrimina bien, o no, los valores alcanzados de rpBis para la respuesta correcta deben ser mayores de .2; las respuestas incorrectas o distractores deben ser negativos, en caso de ser positivos, deben contar con valores menores que los de la respuesta correcta. Aunado a esto, también se debe considerar que todos los distractores tienen que ser elegidos.
El ítem 25 es el ideal que se busca en un examen, ya que cumple correctamente con los estándares de calidad para todos los criterios de valoración mencionados. La gráfica ilustra el comportamiento del ítem.
En la gráfica, las tres respuestas posibles se representan con una línea de color rojo, una negra y una rosa. El eje
Los resultados mostrados se obtuvieron a partir del análisis psicométrico realizado con el
Después de la aplicación de la metodología para la construcción del examen estandarizado y la realización del análisis psicométrico, se identificó con claridad cómo ciertos reactivos en el examen presentaban indicadores de calidad aceptables, mientras que otros aún necesitaban ser corregidos. El proceso de diseñar y construir el examen aportó información suficiente para determinar si el instrumento era válido y confiable, pero no solo mediante el análisis del examen, sino también la herramienta tecnológica utilizada para su construcción, aplicación y posterior análisis. Este último rubro permitirá, en breve, dar respuesta al objetivo principal de la investigación: el diseño de una propuesta tecnológica para el análisis psicométrico de exámenes estandarizados.
La intención de la herramienta propuesta es eliminar las dificultades que representa para un docente llevar a cabo un análisis psicométrico de un examen, porque el
De esta manera, después de aplicar cada una de las fases propuestas en la metodología, se obtuvo una serie de productos que permitieron conocer mejor el universo de conocimientos que se tenían que evaluar en el examen, así como identificar, de una manera gráfica y cuantificable, la importancia de cada uno de los contenidos temáticos de la asignatura específica.
Por otro lado, la integración de los distintos comités que participaron en el diseño del examen fue un gran aporte para el trabajo, pues en estos se sustentó, con mayor precisión, cada uno de los elementos de la propuesta aquí presentada. Los comités se constituyeron a partir de la experiencia de los docentes participantes en los campos del diseño general de la prueba, las especificaciones, los ítems, el jueceo y el aparato analítico informático, con lo que se obtuvieron juicios más objetivos del examen que enriquecieron las etapas de justificación de contenidos, la elaboración de especificaciones de los ítems, la evaluación de estos, entre otras etapas.
Aún existen elementos que deben ser mejorados, por ejemplo, se advirtió que de los 63 ítems que integran el examen, en doce existen deficiencias; de estos, ocho corresponden al índice de discriminación, por lo que hay que analizar las respuestas que esos ítems consideran. De igual forma, todavía deben producirse más ítems para el examen a fin de generar diferentes versiones de este.
También es importante dar seguimiento a las observaciones realizadas durante la elaboración de la tabla con los índices de relevancia curricular y la retícula sobre aquellos contenidos temáticos que aportan poco al aprendizaje de los estudiantes, ya que este tipo de situaciones repercuten de modo directo en la calidad del diseño del currículo de la asignatura. Asimismo, se debe dar continuidad a las sugerencias y valoraciones que los alumnos y maestros participantes formularon sobre el
Al retomar el aspecto educativo de este trabajo, se optó por utilizar exámenes referidos a un criterio, ya que la intención principal del examen es explorar el nivel de dominio del estudiante sobre un universo de conocimientos claramente delimitado, es decir, medir las habilidades y los conocimientos que este domina, o no, en un campo específico del conocimiento. Como se mencionó, el criterio para guiar el desarrollo del examen es el currículo de la asignatura en cuestión, el cual especifica los contenidos temáticos a evaluar y su secuencia. Todas las decisiones de lo que se evaluará y la forma en que se hará están orientadas por lo establecido en el currículo. Por lo anterior, se tiene la ventaja de describir con precisión y claridad lo que se intenta medir.
A través de este tipo de exámenes, se obtienen puntuaciones individuales asociadas solo al desempeño del estudiante, y no en función del desempeño del grupo al que el estudiante pertenece, como supone la evaluación normativa. Además, las puntuaciones particulares de cada alumno ofrecen la posibilidad de diseñar estrategias individuales de mejora, situación que resulta complicada con los exámenes normativos.
El punto principal de la evaluación criterial es la representatividad del elemento respecto al universo de medida, entendida en el aspecto educativo como congruencia entre el ítem y el objetivo; así, el estudiante puede tener la certeza de que lo que se le evalúa es en realidad lo que aprendió y no otro aspecto del conocimiento ajeno a su aprendizaje, mientras que para el docente significa la seguridad de que el puntaje obtenido en el examen refleja exactamente el aprendizaje del alumno en relación con lo enseñado en clases y conforme a los contenídos temáticos determinados en el currículo.
En otro momento, fue necesario para la investigación recuperar la opinión de los docentes y alumnos participantes en el pilotaje del examen, para lo cual se aplicó una encuesta de satisfacción a una muestra con base en el criterio de la conveniencia; es decir, que de manera voluntaria quisieran emitir sus comentarios y percepciones acerca de este examen. Se obtuvieron estos comentarios:
Estudiante 1: Me gustó el formato de opción múltiple, facilita responder el examen.
Estudiante 2: Las preguntas fueron claras y sin tantos rodeos, como esas que son capciosas.
Estudiante 3: Siento que el examen realmente puso a prueba lo que sabía de la materia, creo que abarcó todos los temas vistos.
Docente 1: Un examen que sigue un método cuantificable para determinar si una pregunta en un examen está bien hecha o no, me da la tranquilidad de saber que si un alumno mío responde correctamente a dicha pregunta es porque realmente sabe lo que se le está preguntando y, de cierta manera, me dice que mis estrategias de aprendizaje han ayudado a que él pueda contestar correctamente.
Docente 2: La puntuación final del examen me hace saber si en general enseñé bien o no lo que se supone que se debe ver en la materia, pensando en que la clase se apega a lo que dice la carta descriptiva de la materia.
Docente 3: En un principio era escéptico de la calidad del examen, pero después de observar que cada tema se evaluó de acuerdo a la experiencia de más de un docente, que se justificó cada pregunta, que no fueron los mismos maestros los que hicieron todo el examen sino que participaron diferentes comités durante todo el proceso, y que después de eso se aplicaron cálculos para demostrar lo que debía venir y lo que no en el examen, me hizo darme cuenta que la calificación que un alumno obtuviera en el examen en realidad era la que merecía tener, que ese número significaba realmente lo que sabía de la materia.
Con los comentarios anteriores queda manifiesta la importancia de contar con exámenes estandarizados. Sin importar si existe "n" cantidad de versiones de un examen, cada una de estas evalúan de igual forma el aprendizaje del estudiante; no hay exámenes más difíciles o más fáciles. Así, el docente y el alumno tienen la seguridad de que el instrumento es válido y confiable.
En esta primera aproximación, el
El caso anterior es el tipo de situaciones que las áreas de coordinación académica necesitan identificar para tomar acciones tanto preventivas como correctivas en el proceso de aprendizaje de los estudiantes. La intención de recabar estos datos busca incentivar el proceso de análisis para conocer las causas de estas variaciones en los resultados, que pueden indicar situaciones como absentismo del docente durante ese período, algunas estrategias de aprendizaje mal empleadas, entre otros factores.
Un ejemplo de esas acciones o decisiones por parte de estas áreas de coordinación pueden ser los cursos de capacitación para los docentes, observaciones o sanciones por malas prácticas o, por el contrario, reconocimientos por buen desempeño. Con los reportes técnicos y especializados que el
Es preciso mencionar que una educación de calidad no será objeto de medición únicamente por los tipos de instrumentos de evaluación que se utilicen, ya que implica otros procesos que, de igual modo, deberían someterse a valoraciones. El examen constituye por sí solo una muestra de tareas evaluativas representativas del dominio de un contenido en específico. En este sentido, se habla, por ejemplo, de las estrategias de aprendizaje que se emplean en el curso, la pertinencia de los contenidos temáticos que se estudian, los niveles cognitivos que se alcanzan, las estrategias de enseñanza del docente, entre muchos otros elementos que, a manera de sinergia, puedan resultar en una educación de calidad.
En el aprendizaje basado en el enfoque constructivista, por ejemplo, se le da mayor importancia al proceso de enseñanza y aprendizaje que a los propios contenidos; esto implica, entonces, que se valore más lo que un estudiante debe hacer que lo que debe saber. Lo anterior puede ser la causa de que algunos contenidos temáticos de la asignatura resultaran con índices de relevancia curricular tan bajos, temas que, como se mencionó pueden ser omitidos y no tendrían mayor impacto sobre el aprendizaje del estudiante. Puede ser el caso que, al diseñar el contenido temático de la asignatura, se priorizó lo que el estudiante debe ser capaz de hacer en relación con lo que debe saber.
Al considerar la evaluación desde el enfoque cognitivista, se requiere que todos los instrumentos que se vayan a utilizar tengan como fin objetivos cognitivos, lo que implica que los mismos ítems o reactivos de un examen reflejen la relación con estos objetivos. Los resultados obtenidos en el análisis técnico mostraron aspectos relacionados con este enfoque; por ejemplo, la diferencia del dominio logrado en la unidad tres entre los dos grupos fue notoria, si se parte de la suposición de que los estudiantes de ambos grupos tuvieron la misma dosificación de horas para aprender esos temas. Una primera aproximación a identificar la causa de esa diferencia puede ser el tipo de estrategias de aprendizaje empleadas por los docentes, o bien, la irregular o inadecuada dosificación de horas, que, de nuevo, expone un posible mal diseño en el currículo.
La investigación, al considerar estos primeros resultados y a pesar de que aún falta calibrar algunos aspectos del examen, ofreció información relevante: identificó el nivel de dominio que poseen de la asignatura en cuestión, reveló que para un contenido temático en particular existió una diferencia marcada entre un grupo y otro, y señaló posibles deficiencias en el currículo de la asignatura por incluir temas que no tenían relevancia curricular o secuencias temáticas mal empleadas.
El examen, además de aportar a la evaluación formativa de los estudiantes, también lo hace para la evaluación sumativa; por ejemplo, puede ayudar a predecir el éxito de un estudiante en cursos posteriores referidos a la asignatura, sobre todo cuando obtiene niveles de dominio altos en contenidos temáticos que están conectados con aprendizajes posteriores y, de cierta manera, la garantía del estudiante de que, al realizar su examen, posee un determinado dominio.
Es un hecho conocido que para una institución educativa es importante obtener información del rendimiento que tienen sus estudiantes, estimar el aprendizaje logrado y comparar esos logros con las metas establecidas. Por esta razón, es indispensable contar con instrumentos de evaluación del aprendizaje que sean válidos y confiables; es decir, que estén correctamente diseñados y que ofrezcan una seguridad sobre lo evaluado en términos de conocimientos y habilidades para los cuales se planteó.
Comentarios sobre este artículo
por Dea Prilia (2021-09-14)
por unsur terpercaya (2021-09-15)