Introducción

Diferentes propósitos educativos requieren diversas pruebas y usos de estas. Cuando una prueba no guarda estrecha relación con sus propósitos, difícilmente pueden efectuarse inferencias válidas a partir de sus resultados. Desarrollar exámenes para la evaluación estandarizada del aprendizaje (Fernández, Alcaraz y Sola, 2017; Márquez, 2014) es una tarea delicada, ya que evaluar con un instrumento mal diseñado puede tener un impacto negativo tanto para el sustentante como para el docente; incluso medir aspectos del conocimiento distintos a los que se tenían pensados evaluar va en detrimento de este.

Para Hernández, Ramírez y Gamboa (2018), uno de los retos más desafiantes para las instituciones educativas consiste en la identificación, mediante procesos evaluativos, de las capacidades, conocimientos y habilidades de los estudiantes, a fin de que se adecuen los planes, los programas y los métodos educativos para mejorar el proceso de enseñanza y aprendizaje. Lo anterior hace evidente la importancia de los aparatos metodológicos en el desarrollo o la elaboración de exámenes, pues, a través de estos, se puede asegurar la calidad del instrumento, así como su aporte para la obtención de información válida y confiable.

En las instituciones de educación superior de los países industrializados es común que se utilicen evaluaciones diseñadas y validadas para propósitos de admisión. En Estados Unidos, por ejemplo, desde 1926 se emplea el Scholastic Aptitude Test para ingresar a la licenciatura; desde 1949, el Graduate Record Examination, para el posgrado; y desde 1964, el Test of English as a Foreing Languaje, para acreditar el conocimiento del inglés (Tirado 1997).

En el caso específico de México, en 1994 se creó el Centro Nacional para la Evaluación de la Educación Superior (Ceneval) a fin de que se contará con un examen nacional de carácter indicativo que proporcionara información confiable y válida sobre los conocimientos y las habilidades que adquieren las personas como beneficiarias de los distintos programas educativos; el examen serviría como un indicador para las instituciones de educación superior que participaran. La concepción del Ceneval pretendía atender la necesidad del país,

de contar con un examen nacional indicativo previo a la licenciatura [...] [que permitiera] a las propias instituciones, a las autoridades gubernamentales y a la sociedad en general, evaluar las habilidades y los conocimientos básicos que poseen los aspirantes al cursar estudios de licenciatura y un examen general de calidad profesional [...] [que hiciera posible] conocer la pertinencia e idoneidad de la formación académica de los nuevos profesionistas del país (Centro Nacional para la Educación Superior, 2017, p. 14).

Las necesidades anteriores se convirtieron en lo que ahora se conoce como Examen Nacional de Ingreso a la Educación Media Superior, Examen Nacional de Ingreso a la Educación Superior, Examen Nacional de Ingreso al Posgrado y Examen General para el Egreso de la Licenciatura, mecanismos insoslayables en materia de selección, promoción y obtención de borlas académicas en el sistema educativo mexicano.

Actualmente, el Examen de Competencias Básicas (Excoba), antes denominado Exhcoba (Góngora, Rocha y Verver, 2015; Pérez, Larrazolo y Backhoff, 2015), permite incluir elementos multimedia que enriquecen la experiencia evaluativa y ofrecen resultados automáticos. Este examen es una propuesta innovadora de evaluación sobre las competencias escolares, pues se aleja del formato de opción múltiple y se acerca a formas más "auténticas o naturales" de evaluar los aprendizajes (Ferreyra y Backhoff, 2016); sin embargo, la estructura del Excoba está alineada con el currículo nacional, por lo que evalúa competencias académicas básicas que se precisan en los planes de estudio de la educación obligatoria.

La Facultad de Idiomas de la Universidad Autónoma de Baja California (UABC) no dispone de una herramienta tecnológica que ayude a construir exámenes estandarizados y que, a su vez, puedan valorarse mediante el análisis psicométrico. Si bien existen algunos software que permiten efectuar estos análisis, se requieren conocimientos previos por parte del usuario; además, es necesario construir archivos fuente en formatos técnicos, lo que limita su uso para personal con experiencia en estos campos del conocimiento. Lo anterior abre la posibilidad de innovar el proceso de construcción de exámenes para la evaluación en los estudiantes, y también para la medición de su calidad desde una perspectiva psicométrica de manera más eficiente.

En los siguientes apartados se detalla, en primer lugar, el método elegido para guiar el desarrollo del examen, que incluye la descripción de los instrumentos utilizados para su construcción y evaluación. Se explica la interpretación numérica para los valores de calidad que se van a medir y lo que estos implican. En el apartado de resultados se muestra la valoración técnica del análisis psicométrico, que es la que determina la calidad y confiabilidad del examen, como lo es el índice de dificultad y discriminación. Asimismo, se presentan los datos obtenidos con tres de los principales instrumentos que conducen la elaboración del examen. En el último apartado se concluye la relevancia de contar con instrumentos estandarizados de evaluación y las ventajas de tener software automatizados para la aplicación, la construcción y el análisis psicométrico de los exámenes.

Diseño

Al tomar como referencia el objetivo general de esta investigación (diseñar una propuesta innovadora de análisis psicométrico para los exámenes estandarizados de los aprendizajes en la Facultad de Idiomas de la UABC), la metodología empleada en la estructuración de este examen fue formulada en el Instituto de Investigación y Desarrollo Educativo (Contreras, 2000; Contreras y Backhoff, 2004; Contreras, Encinas y De las Fuentes, 2005) con base en el modelo psicométrico que propuso originalmente Nitko (1994) para elaborar exámenes de gran escala de referencia criterial, orientados por el currículo.

El desarrollo de estos exámenes requiere la definición de ciertas etapas propias de la metodología para elaborarlos de manera estandarizada y con calidad. Además, para las últimas dos etapas del proceso, que implican el análisis del comportamiento de los ítems, es necesario un análisis estadístico especializado que precisa un software diseñado ex profeso para efectuar estos cálculos.

Un elemento importante en la metodología es la integración de comités que se encarguen de la ejecución de las actividades para cada fase del desarrollo del examen. El comité diseñador prepara el diseño general de la prueba; entre sus acciones se puede citar el análisis del currículo, la elaboración de la retícula y el análisis de los índices de relevancia curricular. Otro comité es el responsable de las especificaciones para la construcción de los ítems y de detallar la estructura estándar que estos deben mostrar.

El comité de ítems tiene la encomienda de producirlos de acuerdo con las características señaladas en las especificaciones. El comité de jueceo realiza una valoración de diferentes aspectos, como la calidad técnica del ítem, la validez cognitiva, el formato y la edición, entre otros. El último comité es el analítico informático, que lleva a cabo los procesos de evaluación psicométrica de los ítems mediante el procesamiento de la información con un software especializado.

Otro detalle importante sobre la integración de estos comités es que se conforman por un docente especialista en la asignatura, un docente experto en el currículo, un docente con años de experiencia en educación y uno con amplia práctica en evaluación. Estos comités, a su vez, pueden preparar o capacitar a otros docentes para que participen en las actividades que se desempeñan.

Con base en lo anterior, la muestra a la que se aplicó este examen se integró de 394 alumnos, quienes cursan el primer semestre del tronco común de la Licenciatura en Idiomas. La asignatura para la cual se diseñó el examen fue Morfología de la segunda lengua, que está seriada con Morfosintaxis, ambas ponderadas con la más alta relevancia curricular para el tronco común. El género de la población fue 50% masculino y 50% femenino; de estos, se eligió 33% de alumnos con bajo rendimiento (menores o iguales a 6.9), 33% de alumnos con rendimiento regular (entre 7 y 8.9) y 34% de alumnos con alto rendimiento (mayores o iguales a 9).

Las variables que se midieron para valorar la calidad del examen son las establecidas por la teoría de respuesta al ítem (Gómez, 2015; Mola 2013; Muñiz, 2010; Mayaute y Vázquez, 2010; Lord y Novick, citado en Kramp, 2008), la cual plantea un modelo y un conjunto de criterios que, de ser alcanzados, garantizan la precisión en la medida del dominio de los estudiantes sobre un determinado aprendizaje. Estos criterios son el índice de dificultad del ítem (p), el índice de discriminación, la correlación ítem-total y la relación opción-total de los distractores.

El índice de dificultad se mide en un rango de valores que va de 0 a 1; entre más cerca se encuentre el valor del índice a 1, la pregunta es más fácil de contestar, y viceversa. Sucede lo mismo con el índice de discriminación del ítem, ya que se mide entre 0 y 1, y la discriminación será mejor entre más cercano a 1 se encuentre este valor. La correlación ítem-total como mínimo debe situarse en un valor de .25, y entre más cerca esté al 1, el ítem guardará mayor relación con la probabilidad más alta de obtener un buen puntaje en todo el examen si este es contestado correctamente.

Instrumentos

El sustento rector en la construcción del examen es la carta descriptiva de la asignatura, documento que establece el universo de conocimientos a evaluar. Por esto, a la prueba se le conoce como examen referido a un criterio (Leyva, 2011); por criterio se entiende específicamente los conocimientos a los que se enfoca el examen. Algunos de los instrumentos empleados en el desarrollo son producto de la ejecución de etapas propias de la metodología para elaborar exámenes estandarizados, por ejemplo, la retícula, la justificación de contenido y las especificaciones de la prueba.

Uno de los instrumentos especializados indispensable para las etapas finales del desarrollo son aquellos software que permiten efectuar el análisis psicométrico. Los utilizados fueron ITEMAN (Cechova, Neubauer y Sedlacik, 2014; Thoe, Fook & Thah, 2008) de la compañía Assessment Systems Corporation, así como TAP, publicado por Brooks y Johanson (2003). También, se recurrió a un software nuevo llamado SIEXAES, que permite integrar en un mismo sistema el espacio para la construcción digital del examen y la funcionalidad de generar de modo automático el análisis psicométrico.

Resultados

Uno de los productos que arroja la aplicación de la metodología y que tiene amplia utilidad para los docentes es la retícula. Este instrumento permitió apreciar de manera completa cómo los contenidos temáticos de la asignatura se relacionaban entre sí, e identificar aquellos que tenían un mayor impacto para concretar otros conocimientos.

La figura 1 ejemplifica un pequeño segmento de la retícula, en la que se puede observar mediante las flechas cómo los contenidos temáticos de la primera unidad guardan relación con los de la unidad 2, y cómo algunos de estos tienen un número más amplio de relaciones con temas de unidades anteriores o posteriores. Este tipo de contenidos originan un mayor impacto en el aprendizaje del estudiante.

Figura 1. Ejemplo de la retícula de la materia de Morfología de la segunda lengua.