Preview only show first 10 pages with watermark. For full document please download

La Evaluación De Aprendizajes

Descripción: herramientas para evaluar en el salón de clases

   EMBED


Share

Transcript

I LA EVALUACION • Problemática DE APRENDIZAJES en torno a la evaluación • Evolución del concepto de evaluación • La medida en educación. 1. de aprendizajes educativa Recogida de información • Pruebas objetivas ' • Pruebas verdadero/falso • Pruebas de elección múltiple • Otros tipos de pruebas objetivas • Pruebas libres • Otros tipos de pruebas libres • Pruebas diagnóstico • Características de las pruebas • Banco de pruebas • La medida en educación. • Toma de decisiones 11. Clasificación en la evaluación educativa • Clases de evaluación • El proceso de la evaluación ~ ,. ~ ~ Alcalá, 166 CCS I EDITORIAL - 28028 MADRID 'Ir 91 725 20 00 / @§ 91 726 25 70 www.editorialees.eom I e.e.: [email protected] ISBN84f42-019-9 9 "788498"420197 Teófilo Rodríguez Neira • Luis Álvarez Pérez Paloma González-Castro • Julio A. González-Pienda José Muñiz Fernández • José C. Núñez Pérez Enrique Soler Vázquez LA EVALUACiÓN DE APRENDIZAJES Editorial ees Página web de EDITORIAL CCS: www.editorialccs.com © Autores Varios © 2006. EDITORIAL CCS, Alcalá 166/28028 MADRID Queda prohibida, saivo excepción prevista en la ley, cuaiquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de la propiedad intelectuai. La infraccIón de los derechos mencionados puede ser constitutiva de delito contra ia propiedad intelectuai (arts. 270 y ss. dei Código Penai). El Centro Españoi de Derechos Reprográficos (www.cedro orgl vela por el respeto de los citados derechos. Diagramación editorial: Concepción Hernanz ISBN-1 O: 84-9842 -019-9 ISBN-13: 978-84-9842-019-7 Depósito legal: M-38569-2006 Fotocomposición: M&A, Becerril de la Sierra (Madrid) Imprime: Gráficas Blonde S.L. (Madrid) AUTORES Álvarez Pérez, Luis. Universidad de Oviedo. Departamento de Psicología González-Castro, Paloma. Universidad de Oviedo. Departamento de Psicología González-Pienda, Julio Antonio. Universidad de Oviedo. Departamento de Psicología Muñiz Fernández, José. Universidad de Oviedo. Departamento de Psicología Núúez Pérez, José Carlos. Universidad de Oviedo. Departamento de Psicología Rodriguez Neira, Teó:ftlo. Universidad de Oviedo. Departamento de C. de la Educación Soler Vázquez, Enrique. Universidad de Columbia. Máster en Educación índice Prólogo 9 1. PROBLEMÁTICA EN TORNO A LA EVALUACIÓN DE APRENDIZAJES 11 2. EVOLUCIÓN DEL CONCEPTO DE EVALUACIÓN EDUCATIVA 23 3. LA MEDIDA EN EDUCACIÓN. 1. RECOGIDA DE INFORMACIÓN 53 4. PRUEBAS OBJETIVAS 73 5. PRUEBAS VERDADERO/FALSO 81 6. PRUEBAS DE ELECCIÓN MÚLTIPLE 95 7. OTROS TIPOS DE PRUEBAS OBJETIVAS 1. 2. 3. 4. V/F múltiples Respuestas combinadas Emparejamiento Clasificación 5. Respuesta doble 6. Respuesta limitada 7. Problemas científico-matemáticos 121 ,. 123 124 124 126 127 128 130 8. PRUEBAS LIBRES 133 1. Respuesta abierta 136 8 La evaluación 9. OTROS TIPOS DE PRUEBAS LIBRES 1. 2. 3. 4. de aprendizajes 147 Pruebas mixtas Examen oral Prueba práctica real Proyecto 5. Simulación 149 150 155 156 157 10. PRUEBAS DIAGNÓSTICO 167 1. Observación 169 1.1. Observación espontánea 1.2. Observación estructurada 169 170 2. Encuesta 178 2.1. Entrevista 2.2. Cuestionario 178 179 11. CARACTERÍSTICAS DE lAS PRUEBAS 1. 2. 3. 4. Propiedades psicométricas Otras características Relación entre las características de un examen Principios éticos y deontológicos de la evaluación 12. BANCO DE PRUEBAS 13. lA MEDIDA EN EDUCACIÓN. 183 185 189 190 193 195 11. CALIFICACIÓN 217 14. TOMA DE DECISIONES EN lA EVALUACIÓN EDUCATIVA 227 15. ClASES DE EVALUACIÓN 247 1. Sistema evaluado 2. Tiempo de aplicación 3. Fines de la evaluación 249 250 252 3.1. Evaluación formativa 3.2. Evaluación aumativa 252 256 16. EL PROCESO DE lA EVALUACIÓN 263 Glosario 283 Referencias bibliográficas 297 Prólogo El objetivo fundamental de este libro, que ahora presentamos, es analizar desde distintas perspectivas la problemática implicada en la evaluación del aprendizaje de los estudiantes. Nos guía la idea de que no puede haber un aprendizaje cabal si no se acompaña de una evaluación eficaz y rigurosa, pues aprender y evaluar son dos caras de la misma moneda del saber. El libro pretende facilitar al profesorado estrategias y pautas prácticas para llevar a cabo una evaluación adecuada de los aprendizajes de los estudiantes. Se han tratado de combinar de forma equilibrada los fundamentos teóricos y técnicos de la evaluación con la vertiente aplicada, incluyendo todo un conjunto de ejemplos, casos prácticos e ilustraciones que permitan un acercamiento a lo que realmente ocurre en el día a día del aula. Se trata, en suma, de un libro con vocación aplicada y práctica, basado en casos reales, pero sin que ello suponga olvidarse de los fundamentos sobre los que descansan las estrategias de evaluación propuestas. El texto ha sido distribuido en 16 capítulos. Se empieza con una invitación al análisis de la problemática singular que cada uno tiene sobre la evaluación. Sigue un estudio diacrónico de su evolución a lo largo de la historia de la educación, con el fin de llegar a una definición de lo que hoy se entiende por evaluación. En este punto nos detenemos para estudiar dicha definición, analizando separadamente sus componentes. Se aclara el sentido de la medida en educación, primero con un pormenorizado estudio de distintos instrumentos para recoger información sobre los resultados conseguidos por los alumnos, completado con una serie de características psicométricas que deben tener dichas pruebas, así como unas directrices deontológicas sobre su uso, y, en segundo lugar, con la manera de formular juicios para valorar dichos resultados en forma de calificación. Finaliza el análisis de dicha definición, c00 el estudio de un tercer aspecto fundamental, a la par que comprometido para el profesor, la toma de decisiones, que supone una aproximación deontológica a la tarea evaluadora, dadas las consecuencias que de la misma pueden derivarse para el alumno. Este tercer aspecto, esencial de toda evaluación de aprendizajes, trata 10 La evaluación de aprendizajes también de ayudar y dar respuesta al profesorado que a menudo se siente poco ap(jyado ante su responsabilidad evaluadora. El profesor no está solo y, aunque con singular responsabilidad, en modo alguno debe constituirse en agente único de las consecuencias de la evaluación, lo que sí debe asegurar el profesor es su objetividad y las garantías de su «modus operandi». Nuevas reflexiones podrían incorporarse al entorno de la toma de decisiones, por ejemplo, la pretensión de identificar igualdad de «oportunidades» con igualdad de «resultados», o el impacto producido por la ampliación del período de enseñanza obligatoria. El estudio sobre la toma de decisiones se completa con un análisis sobre las Clases de evaluación. En el último capítulo, se ofrece un resumen de los distintos pasos del proceso evaluador. Para facilitar la comprensión de la terminología que se usa a lo largo del libro, se añade un glosario que incluye una amplia gama de términos relacionados, no sólo con la evaluación, sino también con otras tareas docentes, tales como la programación, las estrategias de enseñanzaaprendizaje, la acción tutorial, etc. Todo ello se enriquece con una selección actualizada de referencias bibliográficas. En su conjunto, el libro constituye una continuación y actualización de otro publicado anteriormente por los autores sobre La evaluación en el aula. Esperamos que la lectura del libro permita que los profesores de todos los niveles, desde la Educación Primaria hasta la Universidad, reflexionen sobre el sentido mismo de la evaluación y, así, vayan conformando una equilibrada aproximación a su tarea evaluadora, de forma que les ayude a desprenderse de estereotipos, modas pasajeras y prejuicios. En cuanto a los profesores de etapas de educación obligatoria, les ayudará a analizar la estrecha vinculación que la evaluación tiene con la atención a la diversidad, imprescindible en dichas etapas, concretada en una programación flexible y en unas estrategias metodológicas adaptadas a los alumnos. El libro también puede ser de gran ayuda para los alumnos que cursan estudios universitarios sobre educación, tales como maestros, logopedas, educadores sociales, pedagogos y psicólogos, entre otros, dado que como futuros evaluad ores en distintos ámbitos, deben conocer las reglas fundamentales de la evaluación. Los autores 551ntZION5IHdV 510 NOI)Vn1VA5I V1 V ONHO.L N5I I lDl.LVW5I1aOHd I La problemática relacionada con la evaluación, tanto desde el punto de vista teórico como práctico, no suele dejar indiferente a nadie; es más, a menudo se convierte en una «auténtica palestra de confrontación tanto ideológica como técnica» (Zabalza, 1989: 235). Como otros fenómenos educativos, la evaluación, con todo lo que conlleva, sufre periódicos vaivenes en lo que se refiere a su valor y consideración. Con el fin de que cada lector, de acuerdo con su experiencia y sus conocimientos, subraye, elimine o amplíe lo que considere oportuno en relación con este tema, en los párrafos siguientes, y antes de iniciar su estudio sistemático, se recoge una miscelánea de opiniones que suelen oírse en los centros de enseñanza y se leen en la bibliografía especializada. En todas las publicaciones que abordan la evaluación educativa se mencionan problemas asociados. Los interesados encontrarán esta amplia problemática en tratados ya clásicos sobre evaluación que muchos autores han ido aportando a lo largo de la historia de la educación; entre otros, es obligado citar a Adams (1983), Bloom Hasting y Madaus (1975), Cronbach (1972), Ebel YFrisbie (1977), Gronlund (1973), Lafourcade (1977), Popham (1978), Scriven (1967), Stufflbean y Shinkfield (1985), Tenbrink (1981), Thorndike y Hagen (1969), Tyler (1950). También, como más cercanos a nuestro entorno: Barberá (1999), Casanova (1997), Monedero (1998), Sabirón (1999) y Zabalza (1989). Opiniones referentes a aspectos varios y diversos: exámenes; juicios de valor sobre el rendimiento de los alumnos; fines de la evaluación; programación, calificación y evaluación; desfase entre la teoría y la práctica; dificultades y límites de la evaluación; su función de control y selección. 1. Destacan las opiniones sobre los exámenes, en los que, para algunos, se concentran todos los «diablos» de la educación. Así, se dice que los exámenes producen más efectos negativos que positivos, que son represivos y suponen un instrumento de poder, que reflejan un estilo de enseñanza conservador y autoritario, que producen ansiedad y provocan secuelas muy negativas en la personalidad y desarrollo de los alumnos; en fin, a veces se ven como una amenaza que desmotiva y llega a alienar y dañar el propio autoconcepto, por lo que se declaran incompatibles con una educación que pretenda ayudar a'realizarse 14 La evaluación de aprendizajes al alumno. Luchar contra los exámenes fue una de las consignas estudiantiles de Mayo del 68. Otros, sin embargo, acuden al sentido común para demostrar que la mayoría de los alumnos no sufre estos daños. Efectivamente, dicen, una mala nota dada a un alumno que se ha esforzado puede causarle un perjuicio, pero normalmente las malas calificaciones se asignan a los alumnos que no han estudiado; y los alumnos que no se esfuerzan suponen un problema mayor que los que estudian, trabajan y se preocupan, por lo que no hay que corregir la evaluación, sino la instrucción. Por otro lado, añaden, una preocupación moderada por los exámenes es siempre beneficiosa: el aprender a enfrentarse con situaciones problemáticas que la vida va a deparar, como son los exámenes, es una parte necesaria de la maduración. Los problemas de los alumnos que fracasan suelen ser de otra índole, y no se van a solucionar suprimiendo los exámenes. Casi nadie dice que en la enseñanza reglada puede haber instrucción sin evaluación, incluso para algunos ésta llega a ser la «pieza clave» del sistema educativo: no puede haber enseñanza y aprendizaje si no hay unas metas que alcanzar, y si éstas no se valoran; es decir, enseñar, aprender y evaluar son partes interrelacionadas del ciclo de instrucción. Sin embargo, desde otras posiciones, aunque moderadas, se insiste en la sustitución de algunos instrumentos de evaluación, y se llega a decir que se podría educar mejor sin exámenes formales; no obstante, en la práctica parece difícil encontrar alternativas. 2. La emisión de juicios de valor sobre los alumnos y sobre la calidad de sus tareas se suele basar en una información elemental o en una percepción muy genérica sobre su personalidad; es decir, se critica la tendencia en la práctica evaluadora a reducir el espectro de informaciones y, por tanto, a simplificar los juicios de valor. Para Gimeno (1988: 377): «la importancia de las notas y de las evaluaciones escolares desde un punto de vista social, académico y personal para los alumnos contrasta con la simplicidad de los procesos por los que se adjudican a los alumnos; unos procesos que tienen mucho que ver con una típica conducta simplificada de toma de decisiones por parte del profesor». En este sentido, algunos estudios señalan cómo la toma de decisiones se realiza frecuentemente urgida por exigencias administrativo-institucionales y por las necesidades del momento, sin una oportuna elaboración de acuerdo con algún modelo estructurado. 3. Se suele considerar también que los instrumentos de evaluación se usan a menudo con fines distintos para los que fueron diseñados; por ejemplo, pruebas destinadas a identificar logros de los alumnos se utilizan como variable exclusiva para valorar centros o profesores. Si la eficacia de la instrucción se juzga desde instancias externas sólo a partir de las respuestas en los exámenes, surge en los profesores la tentación de preparar a los alumnos para lo que se les va a exigir en las pruebas; tanto más si las consecuencias de las malas notas recaen personal y directamente en el profesor. La Problemática en tomo a la evaluación de aprendizajes excesiva influencia de los exámenes hace que puedan modificarse las calificaciones: la práctica puede ir desde capacitar a los alumnos exclusivamente en los contenidos de los que se van a examinar o enseñar las respuestas de lo que se va a preguntar, hasta subir la nota; lo que muestra que el fin influye en la enseñanza. Otras veces, es el mismo profesor el que decide incluir en las calificaciones factores distintos del grado de adquisición de objetivos de aprendizaje (Stiggins, Frisbie y Griswold, 1989). Se conceden notas altas como premios y bajas como castigos, convirtiéndolas así en instrumentos de control en clase. El uso de las calificaciones para estos propósitos se acepta sólo si revierte indirectamente en una mejor disposición hacia el aprendizaje (una asignatura que no se califica se convierte en una «maría»); porque, de lo contrario, se estaría comunicando a los alumnos que se prima más el comportamiento social que el aprendizaje de las metas del programa de la escuela. En general, se admite por muchos que los alumnos que hacen más esfuerzo y demuestran más deseo de aprender deben ser recompensados por ello; por lo que un reto significativo para todo profesor es encontrar formas de premio, distintas a las calificaciones, que puedan estimular a los alumnos a actuar cerca de los niveles óptimos de su capacidad cognitiva. Esta no es una tarea fácil, puesto que los alumnos responden de manera diferente a las palabras de elogio, a las notas oficiales, a las caras sonrientes ya privilegios especiales. Sólo si desarrollar actitudes de los alumnos hacia algo o su disposición a esforzarse figuran entre los objetivos de aprendizaje programados, y si el profesor ha planificado procedimientos instruccionales para ayudar a los alumnos a desarrollar estos comportamientos, se puede juzgar apropiado considerados en la asignación de las calificaciones. 4. La presión sobre profesores y alumnos para alcanzar calificaciones altas ha llevado a diseñar currículos dirigidos por los exámenes, es decir, a suprimir aquellos temas o materias que no se van a controlar, con lo que los exámenes se convierten en programación. Así, se critica que a veces se enseña para aprobar exámenes, más que para alcanzar unos objetivos basados en unos intereses personales o en unos valores o necesidades sociales. De aquí el aforismo de que los que construyen las pruebas controlan el programa )~en último término, el aprendizaje de los alumnos. Parece que esto ha influido en las prácticas educativas más de lo conveniente. 5. Con frecuencia se señala que hay un gran desfase entre la teoría y la práctica; incluso entre los materiales disponibles y esa misma práctica. Las causas son muy complejas: burocracia escolar, presión de tiempo, prejuicios acientíficos, actitudes típicas de profesores y alumnos conformadas por años de experiencia escolar, inercia y rutina de las técnicas de evaluación tradicional, etc. Esto no se puede corregir ni fácilmente ni muy de prisa. A este desfase contribuye no poco la confusión patente en la bibliografía y en la normativa al respecto, como lo pone de manifiesto Juan Manuel Álvarez Méndez (1994: 316) cuando escribe: 15 16 La evaluación de aprendizajes Esfácil encontrarse con t(!j.'tosque van matizando sucesivamente el concepto de evaluación, implicando en lo que aparentemente es una simple adjetivación, funciones y formas de evaluación muy dispares. Aparecen términos que aluden a la evaluación como inicial, diagnóstica, formativa, continua, personalizada, predictiva, sumativa, final; normativa, criterial, global, individualizada, sistemática. Más recientemente (MEC [1989] Diseño Curricular Base. Educación Primaria, Madrid, MEC) se habla de evaluación puntual, integral e integradora, uniforme o pluriforme, cualitativa, cuantitativa, interna, externa. Últimamente y ya en la literatura especializada aparecen conceptos de nueva incorporación tales como evaluación iluminativa, procesual, etnográfica, de producto, respondiente, ideográfica, participante, democrática, burocrática ... Muchos términos superponen significados, otros los ocultan, otros los confunden, otros los in tercambian. En otros casos, las interpretaciones que se hacen de ellos los hacen diferentes sin modificar su forma linguística; en otros, a los mismos términos se les asignan funciones y fines diferentes haciéndolos irreconocibles, y en otros la coincidencia sólo se da en la expresión pero aluden a referentes totalmente distintos... No faltan casos donde la confusión es total, pero sobre ella se articulan discursos que desconciertan a quienes se aproximan o intentan comprender el estado de la cuestión. La paradoja es que el profesor que debe «resolver»la evaluación de cada día en el aula contempla abrumado este desconcierto terminológico como espectador de su propio espectáculo sobre un escenario en el que él actúa. Todo lo cual hace ver que la evaluación no es una sola cosa sino varias, aunque se ejerzan al amparo de un mismo rótulo. 6. Debido al deterioro del concepto de evaluación educativa, con demasiada frecuencia tienden a identificarse evaluación y calificación. Es posible que las posiciones extremas, que proponen desterrar la calificación, hayan surgido del hecho de que la práctica tradicional haya entrado en una rutina divorciada de una teoría rigurosa que, por un lado, la depure y,por otro, la avale. 7. Las dificultades a la hora de evaluar objetivos que incluyen algunos tipos de capacidades, supone, más que una opinión, una preocupación generalizada. La mayoría de las pruebas se mueven en torno a una memorización comprensiva; pero hay otros muchos procesos mentales o capacidades cognoscitivas importantes susceptibles de aprendizaje y que, por tanto, se deberían evaluar; por ejemplo, el pensamiento crítico, la creatividad, etc. Sin embargo, a veces resulta casi imposible explicitar sus indicadores, por lo que es difícil evaluados. Los procesos de aprendizaje que experimenta un alumno tienen efectos tremendamente importantes, pero con frecuencia son intangibles, sutiles e impredecibles; incluso algunos de estos efectos pueden no aparecer hasta mucho tiempo después de dejar la escuela. La imposibilidad práctica de medidos con alguno de los tests disponibles en la actualidad, puede impedir la necesidad de medidos, por importantes que sean. Especialmente complicados son los problemas de la evaluación de habilidades manuales o capacidades psicomotrices. Por un lado, se necesitan tiempos reales a veces muy largos; por otro, resulta difícil especificar bien los comportamientos elementales de que se componen para poder evaluados. con el fin de proponer al alumno los procesos remediales para cada uno por sep:lr:ldo. Problemática en torno a la evaluación de aprendizajes Pero sobre todo faltan estrategias para evaluar las capacidades afectivas. Con demasiada frecuencia se califican contenidos actitudinales sin base objetiva, por lo que no es extraño que tales calificaciones estén tan des prestigiadas y devaluadas, tanto para profesores como para alumnos. 8. Frente a las críticas de algunos autores referentes a las limitaciones de la evaluación, otros señalan que éstas van más allá de lo racional: porque no se pueden medir algunos logros educativos, se concluye que no se puede medir ninguno; porque no se pueden operativizar todos los fines educativos, se relega todo intento de operativización previa y necesaria para una medida adecuada; porque la maduración de una persona transciende la educación formal, ni se intentan controlar los logros de la misma; porque se defiende que la evaluación debe ser un instrumento de investigación didáctica y de información, se olvidan otros pasos intermedios y, en todo caso, indispensables para realizar tal investigación, como es la medida rigurosa y explícita de los aprendizajes. 9. Por último, los que defienden como fin de la evaluación informar al alumno de su logros y causas, sin valoración por parte del profesor, censuran lo que la evaluación tiene de control y selección. A este respecto Gimeno (1981: 217), recogiendo el sentir de otros muchos autores, escribe que la evaluación debería tener como función básica: "... de cara al alumno, una información que le ayude a progresar hacia el autoaprendizaje, ofreciéndole noticia del estado en que se encuentra y las razones del mismo, para que coja él mismo este dato como guía de autodirección, meta de toda educación». * * * Hasta aquí algunas de las opiniones más persistentes sobre la evaluación educativa. A continuación nos proponemos es tudiaria con rigor. Para ello es necesario tener respuestas claras a una serie de cuestiones. En primer lugar, tendríamos que preguntamos si es posible evaluar; y en caso de que nuestra respuesta fuese, como es presumible, afirmativa, seguir preguntándonos por el qué, quién, cómo, cuándo y, sobre todo, para qué evaluar. En los párrafos siguientes trataremos estas cuestiones para ir respondiéndolas con más amplitud a lo largo de la presente publicación. 1. ¿Es posible evaluar? ¿Es conveniente, necesario y útil hacerla? La cuestión no es discutir a favor o en contra de la evaluación, sino centrarse en el tipo de evaluación que cada situación requiere según los diferentes diseños curriculares y las exigencias administrativas. De todas maneras, para tomar una postura es imprescindible llegar antes a una definición o al menos a una descripción que no caiga en extremismos. Si tratamos de definirla exhaustivamente, corremos el riesgo de producir una formulación tan complicada que resultará válida sólo para un grupo especializado de investigadores. Pero un enfoque más reducido corre también el peligro de fijarse únicamente en la calificación como actividad que los profesores ejercen más frecuentemente. 17 La evaluación de aprendizajes Para llegar a una definición equilibrada, ayuda analizar su relación con los demás elementos del currículo, programación y metodología, así como con los fines para los que se emplea. a) Se suele admitir que la evaluación marca la diferencia entre un currículo de una sola dirección, de profesor a alumno, en consecuencia asimétrico o «balística» en palabras de Bell (1981), y un proceso interactivo simétrico que proporciona feedback y provoca cambios tanto en profesores como en alumnos. La evaluación sirve también para relacionar los otros elementos del currículo es decir, para relacionar los medios con los efectos que produce la educación, juzgando la pertinencia y eficacia de ambos. Modificar un programa, o incluso unas estrategias de enseñanza, sin cambiar el sistema de evaluación, tiene todas las probabilidades de no conducir a nada. Por el contrario, la experiencia dice que, si se modifica el sistema de evaluación, aun sin modificar explícitamente el programa de enseñanza, es mayor la repercusión sobre el aprendizaje. A esto se refiere el aforismo ya citado de que quien controla el examen controla el programa que se lleva a cabo. Es importante la planificación previa de un sistema de evaluación que pueda servir de base a la preparación de un programa. La evaluación nos da una medida del nivel del que se parte, el nivel al que se llega y del progreso realizado. Pues bien, este proceso debe comenzar ya en el mismo momento de la programación de objetivos de aprendizaje, precisando en la formulación de los mismos el criterio, grado de perfección o nivel aceptable de la actuación esperada del alumno. b) Los fines explícitos de la evaluación se enumerarán al tratar del «para qué» evaluar; pero, además, una serie de fines se esconden tras el currículo oculto. Por citar uno, el prestigio de la institución: no siempre tal prestigio logrado a través de la evaluación es de absoluto interés para los centros, ya que algunos no lo han adquirido por el resultado de sus exámenes, sino por una larga tradición; por el contrario, otros centros acostumbran a dar a conocer el porcentaje de alumnos que tiene éxito en pruebas de todo tipo, como medio para consolidar su prestigio. Todo ello, fines y relación con los otros elementos curriculares, puede dar pistas para formular una adecuada definición de evaluación. 2. Qué: ¿Qué intentamos evaluar? La evaluación educativa puede recaer sobre sistemas, instituciones, docentes, etc. En el presente trabajo nos centramos exclusivamente en el estudio de la evaluación de aprendizajes de los alumnos en el marco de una instrucción formal. Para asegurar la validez de esta evaluación, es decir, para evaluar realmente lo programado, es necesario, entre otros requisitos, describir rigurosamente las capacidades y los contenidos científicos especificando los indicadores pertinentes. Comprende, por consiguiente, Problemdtica en torno a la evaluación de aprendizajes un análisis de objetivos, una formulación de los grados de consecución aceptados y un diseño de situaciones de aplicación. 3. Quién: Debemos también tener respuestas sobre los sujetos que intervienen en la evaluación. ¿Deben intervenir sólo los protagonistas de la instrucción, profesores y alumnos, o también otros agentes externos? ¿Se debe continuar admitiendo que al profesor le corresponde la construcción de pruebas y el análisis de datos; al alumno, la autocorrección y la autoevaluación; y a las Juntas de Evaluación, en las etapas que así lo exige la ordenación educativa, la interpretación global de datos y la toma de decisiones? 4. Cómo: Problemática en torno a los instrumentos de evaluación. Hay que considerar: el formato y el número de preguntas necesario; el tipo de interpretaciones que se van a hacer de los resultados; el referente que se va a utilizar, un grupo normativo o un criterio absoluto. Si la interpretación va a ser normativa, la descripción de lo que se va a evaluar puede ser más general, aunque siempre haya que definir fronteras; en muchos casos, el contenido científico general de los materiales de instrucción basta para marcar los límites de la prueba. Si la interpretación va a ser de dominio, la especificación ha de ser mayor, describiendo por separado los elementos que lo componen, capacidad y contenido. Por último, para hacer una interpretación criterial, hay que formular de modo preciso los objetivos de aprendizaje y controlar adecuadamente cada uno de ellos mediante una nota dada a partir de varias preguntas. Conviene señalar que cuando se hace una evaluación por objetivos, al contrario que cuando se hace una evaluación de dominio, no se puede acudir a una muestra, ni hacer deducciones o extrapolaciones sobre las capacidades y contenidos no examinados a la hora de interpretar las calificaciones; hay que controlar todas y cada una de las capacidades y contenidos reflejados en los objetivos. 5. Cuándo: Hay que decidir en qué momentos se realiza la evaluación: inicial, intermedia, continua, final. 6. Para qué: ¿Para qué evaluamos? A los fines ya mencionados al hablar del currículo oculto, añadimos los que más a menudo se citan explícitamente. a) Control: La evaluación tiene como fin el control del proceso de instrucción. Diferenciar y certificar el fracaso y el éxito de los logros instruccionales de los alumnos ha sido su papel tradicional. b) Motivación: Las investigaciones han demostrado que, cuando un estudiante está verdaderamente motivado, su actuación está mucho más cerca del máximo de sus posibilidades. La buena disposición para aprender es un elemento indispensable para conseguido. Son muchos los factores que intervienen en la motivación (Álvarezet al., 1999). Un estudiante está más motivado, por ejemplo, cuando acepta los objetivos que se le proponen; pero es superfluo decir que la evaluación en general y, en particular, el grado de éxito en un examen están también 19 La evaluación de aprendizajes directamente unidos a la motivación. Los alumnos tienden a estudiar más cuando preparan un examen, y estudian más intensamente aquello que esperan que «caiga».Si los alumnos conocen de antemano que se les va a examinar, los requisitos del examen y, sobre todo, si el examen consigue medir bien los logros de los alumnos respecto a los objetivos pertinentes, entonces su influencia motivadora será definitivamente más útil. Los exámenes deben considerarse como motivación extrínseca y otros factores, como las expectativas y las necesidades, como motivación intrínseca. Como ambas contribuyen al aprendizaje, el suprimir una de ellas produciría una disminución en el rendimiento de muchos alumnos. Para algunos afortunados, la motivación intrínseca puede ser tan fuerte que por sí misma sea suficiente para provocar los esfuerzos necesarios para aprender; para otros, la motivación provocada por los exámenes es indispensable para estudiar. c) Feedback para los profesores: La evaluación permite al profesor detectar si los alumnos han asimilado bien lo que trataba de comunicarles y hacer un juicio sobre las técnicas de enseñanza utilizadas, lo que posibilita la corrección de su modo de enseñar. Además, el proceso de construir las pruebas es una ocasión para que los profesores revisen y precisen la programación. d) Feedback para los alumnos: Permite al alumno informarse de sus aprendizajes, es decir, le hace saber lo que ha aprendido y lo que le falta por aprender, descubriendo sus deficiencias. A veces se insiste excesivamente en lo no conseguido. Los fallos no tienen por qué ser más informativos que los logros; no se deben ignorar, pero hay que subrayar también los logros positivos. Se sabe que tenemos tendencia a realizar y repetir actividades en la medida en que van seguidas de cierto éxito. Este fenómeno se conoce como «Leydel Efecto» de Thorndike. En concreto, los estudiantes llegan a darse cuenta de que ciertos tipos de conducta están asociados al éxito certificado por las buenas notas. Así, si los alumnos son juzgados por su nivel de conocimiento a través de pruebas que exijan exclusivamente memoria, tendrán tendencia simplemente a memorizarlos. Por el contrario, si las pruebas requieren que los estudiantes interpreten datos, apliquen principios y resuelvan problemas, estos mismos estudiantes trabajarán de otra manera para tener éxito en este tipo de pruebas. A la larga, el sistema de evaluación utilizado determina en gran medida el tipo de actividad a la que se entregarán durante el aprendizaje. e) Título: La evaluación supone también una responsabilidad social, de la que se deriva la que tienen los profesores frente a la misma sociedad al evaluar, dado que en algún momento la evaluación supondrá la concesión de títulos por parte de la Administración. * * * Problemática en tomo a la evaluación de aprendizajes A partir de aquí, intentaremos profundizar en el significado que se le ha ido atribuyendo al concepto de evaluación a lo largo de la historia de la educación -sobre todo en las tres últimas décadas, en que muchos autores han ido subrayando y seleccionando distintas formas y funciones de la evaluación educativa para formular su propia definición-, para contestar la primera pregunta, «si es posible evaluar», con el fin de optar por una definición que sintetice las mejores aportaciones. A continuación estudiaremos el resto de las cuestiones aquí planteadas, para analizar los elementos que la constituyen con objeto de depurar sus posibles defectos, redescubrir su concepto y sus funciones auténticamente educativas dentro de una teoría coherente que refuerce las intuiciones y las rutinas cotidianas del aula y, sobre todo, dentro de una práctica asequible a cualquier profesor que necesite perfeccionar la suya. Con todo ello, pretendemos que los profesores mejoren su competencia en la evaluación educativa; lo que se puede concretar en los siguientes estándares, adaptados de los Standards for Teacher Competence in Educational Assessment of Students, elaborados por una comisión de expertos designados por las tres asociaciones educativas más representativas de Estados Unidos: American Federation of Teachers, National Council on Measurement in Education y National Education Association. 1. Elección de métodos de evaluación: Los profesores tienen que saber elegir métodos de evaluación pertinentes, útiles, técnicamente correctos e imparciales. En este sentido, deben comprender, por un lado, cómo una evaluación válida puede ayudar a diagnosticar necesidades educativas a nivel individual y grupal, diseñar adaptaciones curriculares individuales y grupales, proporcionar un adecuado feedback a los estudiantes y motivades, etc.j por otro lado, también deben ser conscientes de que determinados enfoques evaluativos pueden ser incompatibles con algunos objetivos, afectando negativamente a la toma de decisiones acerca de los estudiantes. 2. Elaboración de métodos de evaluación: Si bien los profesores emplean a veces instrumentos elaborados por otros, lo más frecuente es que utilicen los que ellos mismos generan. Por este motivo, deben asimilar y seguir principios adecuados para analizar la calidad de los métodos de evaluación y elaborados. 3. Aplicación de los resultados de la evaluación: No es suficiente que los profesores sean capaces de seleccionar y elaborar buenos métodos de evaluación, también deben estar preparados para aplicar, interpretar y analizar los resultados de pruebas objetivas, abiertas y diagnóstico, identificando así los puntos fuertes y débiles del aprendizaje de sus alumnos, con el fin de estimular su desarrollo educativo y no incrementar innecesariamente sus niveles de ansiedad. 4. Elaboración de procedimientos para la calificación: Calificar,como elemento esencial de la evaluación, es parte indispensable de la tarea docente. Así pues, los profesores deben ser capaces de diseñar e implememar procedimientos para generar cali.ficacionesa partir de puntuaciones obtenidas por los alumnos, asegurándose de q~e sus calificaciones sean racionales, imparciales y justificadas, evitando formas sesgadas, tales como utilizadas como castigo. 21 22 La evaluación de aprendizajes 5. Toma de decisiones educativas: Los profesores deben ser capaces de utilizar de forma efectiva los resultados de las evaluaciones para tomar decisiones educativas, no sólo en clase sobre los estudiantes, sino también en la comunidad local sobre aspectos escolares, y en la sociedad en general sobre el sistema educativo. 6. Comunicación de los resultados de la evaluación: Los profesores tienen que informar habitualmente sobre los resultados de las evaluaciones a los estudiantes, a los padres o a otras personas autorizadas. Así, para hacerla con eficacia, los profesores deben ser capaces de utilizar la terminología adecuadamente y explicar con claridad su significado, limitaciones e implicaciones. 7. Identificación de evaluaciones no éticas o ilegales: La imparcialidad, los derechos de todos los implicados y la ética profesional deben presidir todas las actividades de la evaluación educativa, desde la planificación inicial y la recogida de información hasta la comunicación de las decisiones tomadas. Por esta razón, los profesores deben estar bien informados sobre sus responsabilidades éticas y legales, y deben ser conscientes de que algunos procedimientos de evaluación pueden ser incorrectamente utilizados con consecuencias perjudiciales para los alumnos, tales como violación del derecho a la privacidad o uso inadecuado de los resultados de los exámenes de los alumnos para otros fines como valorar la labor docente de los profesores. "AI.l") n051 NOI)"n'''AEI 510 I OJ.dEl)NO) '510 NOI)n'OAEI I OlnlJd'i) Podríamos decir de manera sencilla, que no simple, que la historia de la evaluación educativa es la historia del referente, defmido por Barbier (1993: 71) como «aquello en relación con lo cual se produce o es susceptible de producirse eljuicio de valor», es decir, del eje de referencia por el que se valora un proceso de enseñanza-aprendizaje. Unas veces este referente es implícito y otras explícito, unas veces es externo al proceso mismo y otras está inserto en él; siempre estuvo allí donde se producía una valoración de algún elemento del proceso educativo. Cuando el referente es implícito, una de las tareas básicas es identificar, definir y precisar los factores que lo constituyen, para evitar subjetivismos o arbitrariedades y reducir el campo del llamado «currículo oculto». Por el contrario, cuando es explícito, está expresado a través de unos indicadores precisos y suele aparecer relacionado con las finalidades o metas educativas. A lo largo de la historia de la educación, esas finalidades han ido cambiando y, en consecuencia, también lo han hecho los ejes de referencia. En unos casos, el referente de la evaluación educativa cumple una función nomotética y, en otros, selectiva. La función nomotética servirá para encontrar regularidades que permitan pronosticar comportamientos futuros y está relacionada con la valoración normativa (cap. 13), que determina el rendimiento de los alumnos a partir de las regularidades del grupo. La función selectiva clasificará a los alumnos en más o menos competentes, por lo que está más relacionada con la valoración criterial (cap. 13). Desde otro punto de vista, el desarrollo de la evaluación educativa, superada la época precientífica, no surge espontáneamente, sino que está ligada a los diversos modos de hacer ciencia, a los paradigmas científicos. LOS COMIENZOS DE LA EVALUACiÓN EDUCATIVA: LA EVALUACiÓN PRECIENTíFICA 1. Los sistemas de enseñanza, desde la Antiguedad hasta la Edad Contemporánea, crearon un gran número de procedimientos de instrucción, que aún siguen influyendo en la actualidad. Sin embargo, no parece que los docentes de estas 26 La evaluación de aprendizajes escuelas hayan utilizado para la evaluación referentes explícitos, sino que se valoraban los logros a partir de referentes implícitos, fueran éstos sociales o económicos, casi siempre con funciones selectivas. Se evalúa sin una teoría expresa de la evaluación. Dubois (1970) y Coffman (1971) citan los procedimientos que ya se empleaban en la China Imperial alrededor del segundo milenio a. C. para seleccionar a los aspirantes que iban a formar parte del alto funcionariado. Por su parte, Sundberg (1977) considera que en la Biblia hay un pasaje que bien pudiera tomarse como una evaluación, cuando Gedeón selecciona a unos luchadores empleando pruebas situacionales. En el mundo clásico griego, Platón, en su libro VII de la República, nos presenta un sistema de enseñanza en el cual la promoción es consecuencia de una evaluación claramente selectiva. McReynold (1975), además, estima que el Tetrabiblos, obra atribuida a Ptolomeo, es el libro de evaluación más importante de la Antiguedad. En la época romana, Cicerón, en su obra De Oratore, ya tiene en cuenta lo que en la actualidad llamaríamos evaluación formativa (cap. 15): el futuro orador ha de desarrollar sus talentos naturales y adquirir aquellos otros de los que carece, ambos descubiertos mediante una tarea de discernimiento. Por fin, san Agustín, en el tratado De Magistra, indica que han de establecerse criterios que permitan distinguir entre un sano realismo y un pedante verbalismo, con el fin de comprobar si el discípulo ha captado la esencia de las cosas no a través de vanas palabras, sino de leyes válidas. En la Edad Media aparecen los exámenes con un carácter más formal. En torno a ellos se centra todo el sistema universitario. Así, por ejemplo, la prueba para llegar a «magister»,llamada «inceptio»,era un claro examen oral público en donde el aspirante debía demostrar sus conocimientos en presencia de un tribunal; sin embargo, los fracasos en estos exámenes eran poco frecuentes, ya que sólo accedían a ellos los alumnos que obtenían el visto bueno previo de sus maestros. En el Renacimiento, como aportación significativa sobre la evaluación propia de nuestro entorno, mencionaremos la obra Examen de ingenios para las ciencias, de Juan Huarte de San Juan, publicada en Baeza en el año 1575, en la que ya se plantea la posibilidad de seleccionar a los individuos. Su procedimiento selectivo supone que los hombres difieren por sus habilidades, y que éstas se fundan en diferencias de naturaleza; las cuales, a su vez, son apreciables a través de exámenes físicos. Con Juan Huarte, la observación se convierte en instrumento básico para llevar a cabo la evaluación. Con el tiempo, las prácticas en los exámenes fueron conformando un conjunto de normas que las disposiciones de instituciones docentes fueron enriqueciendo. Así se introducen los exámenes escritos que se regulan con toda minuciosidad mediante criterios de evaluación para cada nivel y grado. Especialmente interesantes son los criterios que se recogen en Ratio atque Institutio Studiorum (1598, Nápoles, Tarquinio Longo), publicado en edición bilingue por Gil (1992). Este estado de cosas es el que llega a la época de la Ilustración. En el último cuarto del siglo XVIII, el pensamiento enciclopedista y la Revolución Fran- Evolución del concepto de evaluación educativa cesa favorecen el derecho de todos los ciudadanos a la educación, y también plantean la exigencia de que el acceso a la especialización se condicione a la comprobación -evaluaciónde los méritos individuales. Ya en la primera mitad del siglo XIX se asiste a un cambio con la instauración de los sistemas nacionales de educación vinculados a la concesión de diplomas garantizados por el Estado; el ejemplo más claro es el sistema educativo napoleónico. Tales diplomas se lograban después de superar un programa de exámenes, que dio lugar al «examen de Estado»; lo que capacitaba para desempeñar determinados puestos sociales y, en algunas ocasiones, eran el instrumento idóneo para determinar la jerarquía en la sociedad y aumentar el poder social (Barbier, 1993). Tal es el caso de los títulos de bachillerato concedidos por el gobierno francés a los que deseaban ser funcionarios civiles o militares. Lo mismo ocurría en Inglaterra con las comisiones reales que evaluaban los servicios públicos de instrucción, y cuyo referente evaluador era económico y de ajuste social. Surge así, según Weber, un sistema de exámenes que consagra una preparación específica para satisfacer las necesidades de una nueva sociedad jerárquica y burocratizada. En este sentido, dice Max Weber (Weber, M. [1956] Wirschaft und Gesellschaft, T. II, Berlin, Kinpenhauer und Witsch, pág. 735; citado por Barbier, 1993): «un sistema de exámenes jerarquizados, que consagra un entrenamiento específico y que permite la aparición de carreras específicas (..), Jn la Europa moderna, en relación con el desarrollo de las necesidades de una organización burocrática, que intenta poner en correspondencia individuos jerarquizados y comparables con lajerarquía de lospuestos ofrecidos». En este tiempo influyen poderosamente concepciones educativas y sociales como el Positivismo de Comte (1795-1857) y el Sociologismo de Durkheim (1858-1917). Los fenómenos sociales adquieren la categoría de realidades objetivas que rigen los procesos del desarrollo humano. Tienen el doble carácter de metas que deben ser alcanzadas y de condiciones genéricas de la existencia. En este sentido, se convierten en los únicos criterios de la evaluación que actúan como referentes, unas veces explícitos y, las más de ellas, implícitos. La conducta se mide tanto por lo que tiene que lograr como por lo que en ella interviene y la moldea de distintas maneras. No obstante, esas pruebas evaluativas quedan perfectamente integradas en el racionalismo académico europeo, preocupado casi exclusivamente de la instrucción académica. Mientras, empiezan a aplicarse en América las primeras técnicas evaluativas.Así en 1845, Horace Mann (1845) dirige una evaluación basada en tests de papel y lápiz, que llegan a implantarse en las escuelas de Bastan. Fisher, en 1864, siguiendo el camino iniciado por Mann, contribuye a hacer las evaluaciones con referentes más objetivos y explícitos respecto a determinadas destrezas lectoescritoras. Este modo de evaluar no responde a la aplicación de un enfoque teórico o paradigma. La evaluación se reduce más bien a un modo de hacer basado en prácticas rutinarias, que frecuentemente usan instrumentos de medida de poca fiabilidad. 27 28 La evaluación de aprendizajes 2. ÉPOCA DE lOS TESTS PSICOlÓGICOS Se puede afirmar que el período de inicio y posterior desarrollo de los tests constituye el primer paso hacia una presentación científica de la evaluación; primero fuera del ámbito docente, para más tarde ir introduciéndose de forma paulatina en las escuelas. Es a partir de 1869 con Galton (fecha de publicación de su Hereditarius Genius), y sobre todo con la fundación por Thurstone en Chicago en 1935 de la Psychometric Society, cuando empieza el desarrollo de muchas de las técnicas de evaluación psicológica, a la vez que se estudian las condiciones psicométricas de fiabilidad y validez de los tests. Galton, influenciado por el paradigma «rasgos o factores» propio de la Psicología diferencial imperan te, se interesa por la medida de las diferencias individuales de carácter psicológico y crea el «test»como método prácticO y rápido para medir las peculiaridades de cada individuo, frente a la lentitud de otros procedimientos de análisis basados en patrones yen tipologías físicasy psíquicas. El uso en la Psicología del modelo de «rasgos o factores» y; en consecuencia, su aplicación a la evaluación está ligado al triunfo del evolucionismo de Darwin, así como a la buena imagen del darwinismo social propuesto por H. Spencer. Precisamente, el abandono de aquellos patrones psicofísicos en el campo de la Psicología favorece la elaboración y desarrollo de tests más ligados a la práctica docente. Así, las ideas reformistas de Rice (Ayers, 1918) le llevan a comprobar, hacia 1887, los conocimientos de ortografía de unos 30.000 estudiantes, usando pruebas objetivas; investigación que es considerada como la primera evaluación formal sobre un programa educativo. Siguieron experiencias semejantes con tests aplicados a otras materias, como la Aritmética. En esta misma época, Cattell (1861-1934), autor del término «test mental» y que pasa por ser uno de los primeros defensores de la medida objetiva de los tests, introduce un procedimiento de evaluación basado en la experimentación y; por tanto, repetible y comparable. Sin embargo, el test mental, tal como era entendido por Cattell, estaba aún ligado al asociacionismo inglés; de ahí, la falsa creencia de pensar que los factores intelectuales se podían medir a través de aspectos psicofísicos. Esta tendencia de aplicación de las prácticas psicológicas a la instrucción se ve reforzada gracias a las publicaciones de Thorndike (1904) sobre las facultades mentales y su medida, y a la aparición de tests estandarizados. Entre estos tests estandarizados se pueden citar: Escala para la escritura a mano de los niños de Thorndike, Test de razonamiento aritmético de Stone, Test de Escritura de Thorndike y de Ayers, Test de Ortografía de Ayers, Escala para el Dibujo de Thorndike, y otros tests y escalas como las de Courtis, Hillegas, Buckingham, etc. A partir de 1900, empezaron a adquirir importancia en Europa los estudios de Binet (1857-1911) sobre tests normativos y estandarizados para evaluar las Evolución del concepto de evaluación 29 educativa capacidades cognitivas. El desarrollo de este tipo de pruebas se vio en Francia por la promulgación de la ley sobre enseñanza obligatoria, buía a los niños por niveles a lo largo del sistema educativo, utilizando mativos. Con Binet empiezan los análisis de los procesos mentales mediante procedimientos sencillos, a través de tareas que pueden fuera de los laboratorios. favorecido que distritests norsuperiores realizarse Años más tarde, a causa de las necesidades de reclutamiento y de la asignación de puestos de responsabilidad, mando y manejo de instrumentos técnicos que exigía la situación de urgencia presentada por la Primera Guerra Mundial, surge la elaboración de tests colectivos de inteligencia general: el Alfa (para los lectoescritores), el Beta (para los analfabetos), y de cuestionarios e inventarias de personalidad, siendo el primero el de Woodworth (Phillips, 1974). Al término de la guerra, los tests psicológicos se ponen al servicio de fines sociales. Durante la década que va de 1920 a 1930, denominada período de los tests, se idean tests estandarizados, entre los que se pueden citar las baterías de test de aprovechamiento, el Stanford Achivement Test-1922 y las pruebas objetivas de McCall-1922, Ruch-1929, Rusell-1930 y otros, para medir toda clase de destrezas escolares con claros referentes objetivos externos y explícitos, basados en procedimientos de medida de la inteligencia, con los que se realizan evaluaciones a grandes colectivos de escolares. Estas aplicaciones estandarizadas son sorprendentemente bien acogidas en e! ámbito educativo. Aún más, McCall (1920) propone que los maestros construyan sus propias pruebas objetivas, en vez de confiar exclusivamente en las propuestas por especialistas externos. El final de este período se puede fijar hacia los años cuarenta del siglo pasado, cuando los tests psicológicos se perfeccionan con el desarrollo del cálculo estadístico y con e! análisis factorial, lo que permite identificar los rasgos mentales subyacentes. En Estados Unidos hacia los años cincuenta, surge un movimiento «antitest» que critica, entre otros aspectos, el que se centre exclusivamente en los alumnos y apenas en los currículos, lo que provoca la aparición de nuevas alternativas. LOS INICIOS DE LA EVALUACiÓN CIENTíFICA EDUCATIVA La Docimología (neologismo, de! griego DOKLI.JlX¿;m = probar, propuesto por Pieron, 1968, para designar e! estudio científico de los métodos de evaluación; Pieron, 1969, y Bonboir, 1974, recogen en sus publicaciones las ideas principales de esta corriente evaluativa), que se inicia en Francia hacia 1920 y que pervive como corriente independiente hasta bien entrada la década de los cuarenta en que toma carta de ciudadanía con Tyler, supone un primer intento de concep- 3. 30 La evaluación de aprendizajes tualización de la evaluación educativa. Critica la baja calidad de los exámenes y la imprecisión de las calificaciones, debido a la variabilidad de las informaciones, a la heterogeneidad de los criterios empleados y, en fin, al divorcio entre lo que se enseña y las metas de la instrucción. La evaluación dependía, en último término, de la preparación académica y del talante más o menos exigente del profesor. Como solución, propone unas prescripciones -docimología prescriptivaque ayuden a superar la subjetividad de la valoración: a) elaboración de taxonomías para formular objetivos; b) diversificación de fuentes de información: exámenes, expedientes académicos, técnicas de repesca y tests; c) unificación de criterios de corrección a partir del acuerdo entre los correctores de las pruebas; d) revisión de los juicios de valoración mediante procedimientos tales como la doble corrección o la media de distintos correctores. 4. LA REFORMA TYLERIANA Algunos consideran a Tyler como el padre de la evaluación educativa, ya que fue el primero en dar una visión metódica de la misma, superando, desde el paradigma conductista como corriente entonces en boga, la mera evaluación psicológica. Entre 1930 y 1945, en el famoso Eight-féar Study de la Universidad del Estado de Ohio (Smith y Tyler, 1942), plantea la necesidad de una evaluación científica que sirva para perfeccionar la calidad de la educación. Como resultado de estos estudios, publica en 1950 su obra más famosa, a saber, Tyler, R. W (1950) Basic principies of curriculum and instruction. Chicago: University of Chicago Press (en lo que se refiere a la evaluación, es obligado citar también: Tyler.1967), en la que hace una clara exposición de lo que entiende por currículo, integrando su método sistemático de evaluación educativa. El intento de Tyler es presentar un currículo racional delimitado por cuatro cuestiones: 1. 2. 3. 4. ¿Qué objetivos desea conseguir la escuela? ¿Qué actividades educativas se pueden aplicar para lograr esos objetivos? ¿Cómo pueden organizarse de manera eficaz esas experiencias? ¿Cómo podemos comprobar si se alcanzan los objetivos? OBJETIVOS (1) ACTIVIDADES ORGANIZACiÓN EVALUACiÓN (2) (3) (4) Evolución del concepto de evaluación educativa La evaluación educativa, dice Tyler (1973: 109), es «aquel proceso que tiene por objeto determinar en qué medida han sido alcanzados los objetivos previamente establecidos». Como consecuencia, precisa las siguientes condiciones de una buena evaluación: a) propuesta clara de objetivos; b) determinación de las situaciones en que se estima que el alumno manifiesta la conducta esperada; c) elección de instrumentos apropiados de evaluación, normalmente tests; d) interpretación de los resultados de las pruebas; e) determinación de la fiabilidad y objetividad de las medidas. Podría representarse este proceso con el siguiente esquema: Especificación de objetivos COMPARACiÓN Elaboración de pruebas Resultados de las pruebas Es de advertir que Tyler, aunque no lo desarrolla, alude también a que la valoración de objetivos de aprendizaje debe traer como consecuencia una toma de decisiones sobre los aciertos o fracasos de la programación y sobre la posibilidad de su perfeccionamiento; aspecto que retornarán, entre otros, Cronbach y Stufflebeam. Para Tyler,el eje de referencia de la evaluación son los objetivos, por lo que proporciona criterios suficientemente claros para su explicitación, aspecto eéste que en 1924 desarrolló Franklin Bobbitt, mejoró Henry Harap en la misma década, y racionalizó luego Tyler. En los años cincuenta, Benjamin Bloom y David Krathwohllo ejemplificaron en los ámbitos cognoscitivo y afectivo, respectivamente; y fue perfeccionado por Robert Mager (1977), que introduce en la formulación de los objetivos, además del verbo de acción que expresaba la conducta, el nivel de perfección deseable de las metas previstas. Se han de tener en cuenta: las necesidades e intereses del alumno, las necesidades de la sociedad, las peculiaridades de las ciencias que se estudian y las propuestas de la Psicología del Aprendizaje. A pesar de que se han de considerar todos estos elementos, a la hora de proponer los objetivos educativos, se suele elegir como punto de partida preferente alguno de ellos. Así, Tylerse plantea la siguiente disyuntiva: ¿Laescuela ha de servir para que los jóvenes se adapten a la sociedad o, por el contrario, para que el educando desarrolle su propia individualidad interaccionando con el 31 32 La evaluación de aprendizajes entorno? La respuesta condiciona la selección de objetivos y, por tanto, del referente. Hay que señalar que Tyler,lo mismo que sus coetáneos, está influido por Dewey, quien considera que la escuela debe perseguir el desarrollo individual, teniendo en cuenta, no obstante, que el proceso educativo es un proceso socializador y, por ello, sigue determinadas reglas sociales. El niño aprende por su relación con el entorno, y es allí donde recoge las herencias culturales, pero éstas no son tan fuertes como para determinar la personalidad del alumno. Las reformas tylerianas no se aplicarán de un modo inmediato (a España llegan con la Ley General de 1970). En la década de los cincuenta, período que Stufflebeam (Stufflebeam y Shinkfield, 1987) llama «época de la inocencia» o de la < deseados :::l e(5deseados ecomo realmente han acontecido) observados Antecedentes (Las yoperaciones Resultados planeadas Antecedentes Relación empírica observadas oQ) verdaderamente (Las condiciones existen) que (Los se han resultados obtenido) que Operaciones actividades Relación empírica ógica Todo ello da lugar a la evaluación «respondente», cuya finalidad es ayudar al «cliente»,al alumno, a superar tanto sus problemas corno los defectos del currículo establecido para solucionárselos; lo que exige que el evaluador responda a las demandas que se le presentan negociando, mediante una comunicación continua con el «cliente», lo que debe hacerse; Amal, del Rincón y Latorre (1992) desarrollan ampliamente el modelo de Stake. Stenhouse recoge las recomendaciones de la conferencia de Cambridge sobre la evaluación en el Humaníty Currículum Project (Stenhouse, 1981); sin Evolución del concepto de evaluación educativa embargo, está en contra de la distinción entre evaluador externo y el que desarrolla el currículo, porque los únicos que pueden evaluado son los mismos protagonistas, profesores y alumnos. y también, aunque reconoce sentirse deudor de las aportaciones de los evaluadores de la «nueva ola», critica la falta de claridad de sus criterios para la valoración del currículo, por lo que propone la consideración de los siguientes aspectos: a) La evaluación de un currículo consiste más en aclarar su significado que en calcular su valor. y esto sólo puede determinarse mediante la observación empírica de lo que ocurre en el aula (criterio de significado). b) Es necesario estudiar su potencial, el «para qué ...», en relación con el perfeccionamiento de capacidades, motivación, etc. (criterio de potencial). c) Hay que considerar los problemas que el currículo plantea en la práctica; interesantes por su rentabilidad, en la medida en que sean susceptibles de repetirse en diferentes situaciones o porque adquieran especial relevancia (criterio de interés). d) El evaluador debe poner en relación el potencial y el interés del currículo con las condiciones contextuales y ambientales de la realidad práctica de la escuela o del aula. Ello permite anticipar las consecuencias de las decisiones que se tomen en un ámbito determinado (criterio de condicionalidad). e) Es necesario estimar el valor de un currículo respecto de las innovaciones y cambios deseados en la educación en general o en una escuela en particular (criterio de elucidación). Eisner (1988) que, antes de ser profesor de educación, fue pintor, propone sustituir, o al menos complementar, la evaluación basada en planteamientos «científicos» por informes educativos periciales inspirados en las prácticas de los críticos de arte. Afirma que la pericia, también en educación, es el arte de la percepción que supone la comprensión de las características de una realidad compleja; ser perito en vinos, por ejemplo, es ser capaz de distinguir las sutilezas de las diversas denominaciones y «añadas» a partir de datos gustativos, visuales y cenestésicos. La crítica, por otro lado, es el arte de la comunicación; el crítico es un perito que no se contenta con comprender las cualidades de un objeto o suceso, también pretende revelar a otros menos iniciados lo que él ha descubierto; en nuestro caso, la compleja realidad educativa y sus consecuencias. La crítica pericial que propone Eisner implica hacer una descripción vívida y detallada de la realidad educativa que se quiere evaluar por medio de representaciones no sólo numéricas, también literarias, visuales estáticas o dinámicas, etc., cada una adecuada para una determinada situación. El mismo Eisner, sin embargo, confiesa que estos métodos cualitativos son sutiles y requieren «arte»; además, resulta compleja la verificación de sus conclusiones. 37 38 La evaluación 7. de aprendizajes LA EVALUACiÓN EDUCATIVA DESDE LA PSICOLOGíA DEL APRENDIZAJE Desde Tylerhasta nuestros días ha habido múltiples aportaciones de la Psicología del aprendizaje al campo de la evaluación educativa; aportaciones que se pueden relacionar también, reduciendo los matices, con los paradigmas conductista y cognitivo, que, como hemos visto, han inspirado la mayoría de los modelos evaluativos. 7.1. Enfoquecondudual Prescindiendo de posturas extremas, como la de Watson, que casi nunca entraron en el ámbito educativo, es uno de los enfoques que sigue influyendo en las evaluaciones docentes. Considera que los comportamientos de un sujeto son fundamentalmente una consecuencia de lo que aprende. Lo mental es cualitativamente similar a la conducta manifestada; por consiguiente, la evaluación se basa en el estudio de la conducta observable que puede ser comprobada por observadores independientes. Como la conducta queda definida por el binomio estímulo-respuesta, es decir, por la relación entre los factores ambientales -estimulosy los factores conductuales -respuestas-, la obtención de la información sobre esa conducta consiste en un análisis (coincide con el modelo A-B-C,es decir análisis del comportamiento [B=behavior], sus antecedentes [A]y sus consecuentes [C]), cuyas fases, según Peterson (1968), son: a) observación sistemática de la conducta, en nuestro caso de los aprendizajes del alumno; b) observación sistemática de la condiciónestímulo que precede al comportamiento; c) manipulación experimental de una condición que está relacionada funcionalmente con la conducta; d) observación y registro posterior de los cambios en el comportamiento. La evaluación conductual se realiza básicamente a partir de una valoración criterial (cap. 13), y los criterios se toman de la fuente sociológica del currículo. Se trata, por tanto, de comprobar la presencia o ausencia de aquellas conductas o de aquel conjunto de repertorios conductuales precisados en objetivos operativos que vienen exigidos por la sociedad. El enfoque conductual desemboca fundamentalmente en la evaluación cuantitativa, que históricamente se redujo de hecho a la medida del éxito o fracaso de los resultados del aprendizaje con valoraciones criteriales sumativas (cap. 15), por mucho que sus defensores manifiesten en teoría que este tipo de evaluación no tenga que reducirse a una clasificación de alumnos por su capacitación" sino que, sólo a partir de la valoración de rendimientos, se puede y debe llegar al análisis y a la valoración de la metodología empleada, de la com- Evolución del concepto de evaluación 39 educativa petencia del profesor, de la organización del centro, del sistema tutorial general, de todos los elementos del proceso de instrucción. y, en Un avance de este planteamiento se produce con el enfoque neoconductual, representado sobre todo por Gagné (1970), también por Gagné y Briggs (1976), para quien la evaluación no sólo ha de tener en cuenta las conductas observables, sino también las capacidades implícitas en los objetivos propuestos de acuerdo con las características individuales de cada aprendiz. Enfoquecognitivo 7.2. Este enfoque está representado por Ausubel (1976) y también por Ausubel y Sullivan (1980), que consideran que la evaluación ha de tener en cuenta el modo en que los sujetos representan e! conocimiento en sus estructuras previas. Esta forma de evaluar (Greeno, 1980) viene determinada por la necesidad de utilizar en la evaluación las mismas técnicas de representación que los profesores usan para enseñar y los alumnos para aprender conceptos, métodos y destrezas propios de su proceso de aprendizaje. Estas técnicas son las redes semánticas que sirven de guía para formular las pruebas de evaluación. Posner (1979) también se valió de las redes semánticas para explorar lo que sabían sus alumnos antes y después de un proceso de enseñanza-aprendizaje. Antes, para comprobar los conocimientos previos con respecto a los objetivos nuevos que se iban a transmitir; y después, para valorar la modificación de las estructuras previas y la forma en que se ha integrado la nueva información. En una línea muy parecida, Novaky Gowin (1988) utilizan para evaluar aprendizajes los mapas conceptuales mediante la comparación entre el mapa conceptual elaborado por e! alumno y un «modelo» establecido previamente por e! profesor. También sugieren, en la línea de Posner, la posibilidad de comparar los mapas conceptuales de! alumno antes y después del proceso de instrucción. La conclusión más importante que se puede obtener a partir de este enfoque es la necesidad de evaluar teniendo como referente los conocimientos previos del alumno, que constituirán la base para la valoración de los nuevos aprendizajes, para establecer a partir de los mismos los avances conseguidos y la posterior toma de decisiones. LA PRÁCTICA EVALUATIVA EN LA ACTUALIDAD Sin contar la práctica evaluativa acrítica, heredera del racionalismo academicista europeo, que se reduce a proponer exámenes y a dar notas repitiendo como 8. 40 La evaluación de aprendizajes profesores el modelo que han soportado como alumnos, nos encontramos con que actualmente aún subsisten en una extraña convivencia muchos de los enfoques o modos de evaluar conductuales,neoconductuales y cognitivos que han ido apareciendo a lo largo de la historia de la educación, algunos de los cuales han sido objeto de estudio en el presente capítulo. Podríamos decir que cada una de esas aproximaciones evaluativas mantiene hoy lo que de más relevante y práctico había en ellas. Como novedad relativa en la actualidad, se pueden citar los matices que introducen tres nuevos enfoques. 8.1. La evaluacióncualitativa Unas fuertes influencias sociológicas con matices ideológicos y orientaciones cognitivistas dan lugar a la evaluación cualitativa, entre cuyas características se pueden señalar las siguientes: a) Se subraya la importancia de los procesos sobre los productos del aprendizaje. Lo decisivo no es lo que el alumno aprende, sino más bien cómo lo está aprendiendo. Esta concepción del proceso instruccional en que el alumno es el protagonista, justifica la predilección por el uso de la evaluación formativa (cap. 15). b) Se recoge también como función principal de la evaluación el proporcionar una información holística o global, y de ahí la necesidad de evaluar todos aquellos factores que afectan al proceso instructivo: presupuestos, condiciones, estilos, estrategias y ritmos de aprendizaje, rendimientos, relación entre esfuerzo y resultados, etc., y, en general, los distintos intereses de los sectores implicados mediante un tratamiento democrático de la información, es decir, teniendo en cuenta las aportaciones de profesores, alumnos y demás agentes educativos. c) La evaluación es básicamente personalizada y se hace de acuerdo con los intereses y aptitudes de cada alumno. Se usan los presupuestos metodológicos de la investigación etnográfica (descripción de un modo de vida, de una cultura, teniendo en cuenta el punto de vista de los nativos), que recoge múltiples informaciones a través de escalas de observación y control, informes de observadores externos, encuestas en forma de entrevistas y cuestionarios, análisis de tareas, estudio de casos, etc. No cabe el uso de las típicas pruebas objetivas o de ensayo. La evaluación cualitativa no queda codificada en una calificación al estilo tradicional, sino más bien en un informe (Stenhouse, 1987: 140): «Siyo como estudiante me fío del juicio de mi profesor, deseo más bien una crítica que una calificación. En el caso contrario, desearía más una calificación que una crítica". Lo que late debajo de este texto es la vieja polémica entre el uso de métodos cuantitativos y cualitativos. Los defensores de la evaluación cualitativa ven también en la atribución de números a las realidades edu- Evolución del concepto de evaluación 41 educativa cativas una fuente de engaño (Santos Guerra, 1988); es de advertir que el término «números» lo refieren también a los eufemismos de «apto», «insuficiente», etc. La evaluación cualitativa aparece aplicada de un modo claro en el modelo de «investigación-acción» (Kemmis, 1988, cita a Collier, 1945, ya Lewin, 1946, 1947 Y 1952, como los iniciadores de la «investigación en la acción»), que puede definirse como el proceso por el que los prácticos -profesorespretenden resolver sus problemas de un modo científico, con el fin de dirigir, corregir y evaluar las consecuencias de sus decisiones. Esta metodología resucita en los años ochenta con la corriente denominada de «animación pedagógica» (Barbier, 1977) y en los proyectos de «investigación cooperativa» (Cabrera, Espín y Rodríguez, 1988; Ward y Tikunoff, 1982), iniciativas ambas para poner en marcha y evaluar los proyectos de innovación educativa. Estas corrientes, como es sabido, han sido objeto de diversas matizaciones. R. Neira (2002) señala como de especial interés las observaciones de Carr (1989, 1990) Ylas de Elliott (1990,1993). La evaluación basada en el currículo Actualmente se oye también la expresión «evaluación curriculaf», aunque, como confiesan algunos de sus defensores (Tucker, 1985), poco hay de nuevo en ella, a no ser su preocupación por evaluar los rendimientos insuficientes y proponer, siguiendo las exigencias de la evaluación formativa (cap. 15), una intervención para superar esas deficiencias. Empezó a emplearse en Estados Unidos por los mismos años en que en Europa aparecieron los evaluadores de la «nueva ola», aunque es difícil determinar el grado de influencia mutua y en qué sentido fue. Ambos toman el currículo como referente de la evaluación educativa. Ocurre que consideran que los currículos deben ser abiertos, es decir, deben variar de un centro a otro y, en consecuencia, también los referentes de la evaluación. Se podría resumir, por tanto, este enfoque en el aforismo: «Evalúa lo que enseñas, y enseña lo que evalúas». Son tantos los modelos que han aparecido bajo la etiqueta de «evaluación curricular» y, por otro lado, tan repetitivos en sus planteamientos, que nos vemos obligados a remitimos a las referencias bibliográficas: Modelo Gickling-Thompson (1985), Modelo Blankenship (1985), Modelo Howell-Morehead (1987), Modelo Salvia-Hughes (1990). Citamos aparte el Modelo de Carrascosa el al. (1991) porque integra las aportaciones de muchos de ellos. En este modelo se destaca que los rendimientos del alumno deben analizarse teniendo en cuenta al propio alumno y su estilo de aprendizaje y, sobre todo, los elementos físicos, sociales y personales del contexto curricular. Como todos estos modelos, defiende una evaluación formativa (cap. 15) e intenta integrar conceptualizaciones y prácticas tan diversas como el análisis conductual, los tests de rendimiento, la teoría de la construcción de tests, las aportaciones de la psicología cognitiva y de la psicología social, etc. 8.2. 42 Laevaluaciónde aprendizajes 8.3. La evaluaciónadaptativa En este apartado pretendemos apuntar las tendencias que se detectan actualmente en la investigación y el desarrollo de la evaluación educativa. Lo primero que cabría señalar, porque va a teñir todo lo demás, es que tanto la investigación básica como la aplicada en el campo de la medición educativa gozan en la actualidad de una excelente salud. Basta echar una ojeada a lo que se publica en las revistas internacionales especializadas o a los congresos anuales más representativos, tales como los de la American Educational Research Association (AERA)o la National Council on Measurement in Education (NeME), para constatado. No está de más subrayar este interés actual por el rigor y la objetividad en la medición educativa, puesto que no siempre ha sido así, especialmente en nuestro país. En líneas generales, se asume que sin una medición educativa rigurosa no puede haber una educación eficiente. Medir con precisión para enseñar con rigor podría ser el lema de los tiempos que corren. Ese sería el escenario; pero, ¿cuáles son los problemas candentes y los focos de debate actuales que ocupan a investigadores y profesionales? Veámoslo, yendo de lo más general a lo más específico. En los últimos 20 años ha tenido lugar un enorme desarrollo de la tecnología psicométrica, que ha impulsado y potenciado la construcción y análisis de los instrumentos de medida en las ciencias sociales, la educación incluida (Linn, 1989), con la aparición de la familiade modelos englobados bajo la denominación genérica de Teoría de Respuesta a los Ítems (Hambleton, Swaminathan y Rogers, 1991; Lord, 1980;Muñiz, 1997a;Van der Linden, 1997). Este nuevo enfoque ha permitido dar solución a un viejo problema central que no encontraba una salida adecuada dentro del marco de la aproximación clásica; a saber: la Teoría de Respuesta a los Ítems (TRl) va a permitir evaluar a las personas en una determinada variable sin necesidad de utilizar la misma prueba para todas ellas. Esto será posible debido a que los modelos de la TRl expresan en la misma métrica puntuaciones obtenidas por medio de pruebas distintas, lo cual era imposible bajo la óptica clásica. Nótese que, dentro del acercamiento clásico, si se desea comparar a dos personas en una variable, ha de aplicárseles el mismo test; si bien es verdad que, para sortear este escollo, se venían utilizando algunos remedios estadísticos que funcionaban razonablemente bien en la práctica. Expresado en pocas palabras, los modelos de la TRl generan mediciones invariantes respecto de las pruebas utilizadas para obtenedas. Esta importante característica liberaliza el uso de los instrumentos de evaluación, permitiendo una medición ajustada al sujeto, mediante la adaptación de la prueba a las características de la persona evaluada. Esta propiedad, en conjunción con los potentes ordenadores personales, va a dar lugar a la revolución tecnológica más importante de los últimos años en el campo de la medición educativa: los TestsAdaptativos Informatizados (TAl). Valiéndose de amplios bancos, que recogen la elaboración continua de ítems para reponedos y actualizados, y mediante los TAl, se aplica a cada persona el Evolución del concepto de evaluación educativa test que mejor se adapta a sus características. Las ventajas que esto conlleva son enormes, tanto en la precisión de las mediciones como en el tiempo invertido, incluso en la satisfacción de los examinados, que de este modo se enfrentan a pruebas acordes con su nivel, por lo que se minimizan los aspectos frustrantes que lleva anejos toda evaluación. En algunos países, este tipo de evaluación se está imponiendo rápidamente por las ventajas que ofrece tanto para el examinador como para los examinados (Olea, Ponsoda y Prieto, 1998, 1999; Muñiz, 1996; Renom, 1993, 1997; Van der Linden y Glass, 2000; Wainer, 1990). El uso de los TAl plantea todo un conjunto de problemas técnicos nuevos sobre los que trabajan intensamente los especialistas en la actualidad. Cabría citar, por ejemplo, la nueva forma de estimar la fiabilidad mediante la Función de Información, que permite calcular la precisión de las pruebas para los distintos niveles de la variable medida, en vez de ofrecer un valor global como hacía el coeficiente de fiabilidad clásico; o los nuevos métodos para evaluar el sesgo de los instrumentos de medida, en la actualidad rebautizados como Funcionamiento Diferencial de los Ítems (Camilli y Shepard, 1994; Fidalgo, 1996; Holland y Wainer, 1993). Un campo clásico de la medición educativa como son los TestsReferidos al Criterio (Berk, 1984; Glaser, 1963; Muñiz, 2003; Popham, 1978), ha cobrado un nuevo impulso gracias a la TRl, sobre todo en lo relativo a la estimación de la fiabilidad, mediante la función de información, la cual posibilita un establecimiento más riguroso de los puntos de corte, de modo que minimicen los errores al clasificar a las personas según dominen o no el criterio/dominio evaluado. Los métodos para establecer los puntos de corte de forma rigurosa siguen generando en la actualidad abundantes investigaciones, dada la relevancia que ello puede tener para la vida académica y profesional de muchas personas (Berk, 1986, 1996; Cizek, 1996; Muñiz, 2003). Otro campo clásico que ha sido muy potenciado por la irrupción de la TRl ha sido la construcción de los ítems (Haladyna, 1994; Osterlind, 1998), al convertirse éstos en la unidad de medición y análisis en detrimento del test, como queda bien patente en la propia denominación de la TRl. Asimismo, la construcción automática de ítems y tests por ordenador (Hambleton, Slater, Narayana y Setiadi, 1996) es otra línea en la que se trabaja activamente. Si bien las líneas y temas señalados ocupan las energías de la mayoría de investigadores y profesionales en la actualidad, a la vez que constituyen el paradigma dominante en la medición educativa, existen otros análisis y posicionamientas que pugnan por abrirse paso. Es el caso, por ejemplo, de todo lo relacionado con la ética y deontología de la evaluación educativa, y es que de poco vale una tecnología de evaluación poderosa sin las riendas ético-deontológicas. No hay que olvidar que se evalúa a personas y sobre ellas se toman decisiones, de modo que toda precaución en este sentido es poca. Los profesores, amén de otros colectivos relacionados con la educación, y la propia administración deberían ser conscientes de la necesidad de una buena preparación en la tecnología de la evaluación, lo que redundaría en beneficios para el proceso educativo y 43 44 La evaluación de aprendizajes para los alumnos evaluados. En este sentido, son muy interesantes las directrices elaboradas por la federación de profesores americanos y otras asociaciones sobre las competencias requeridas por los profesores para evaluar a los alumnos (American Federation of Teachers, 1990), así como las directrices para el uso adecuado de los tests en ámbitos educativos elaboradas por varias organizaciones educativas Goint Committee on Testing Practices, 1988). Finalmente, no se puede pasar por alto el «chisposo» debate surgido en torno a lo que ha dado en llamarse un tanto pretenciosamente evaluación auténtica (Bravo y Fernández del Valle, 2000; Hakel, 1998; Powell, 1990), como si otras formas de evaluar no lo fuesen. Los partidarios de este enfoque argumentan a favor de una evaluación alejada de situaciones estandarizadas en cuanto a formato de respuesta de las pruebas y otros aspectos, abogando por dar un mayor realismo al proceso evaluativo, para acercar la evaluación lo más posible a la situación real que se pretende medir. En realidad, esto no es nada nuevo, pues técnicas como el muesfreo de conductas reales en el puesto de trabajo o la utilización de centros de evaluación en los que se simulan las condiciones reales son bien conocidos y utilizados en psicología industrial y del trabajo desde hace mucho tiempo. En el ámbito educativo, dos formas de evaluación en esta línea auténtica serían la evaluación de rendimientos (Performance Assessment) y el portafolio. En la evaluación de rendimientos, se trata de evaluar a través de ejecuciones concretas del examinado, en vez de utilizar pruebas estandarizadas. En el caso del portafolio, la idea es que el alumno presente un portafolio o carpeta en la que incluya todos los trabajos que considere oportunos para demostrar su preparación en un determinado campo. De entrada, la idea de introducir realismo en el proceso evaluativo parece razonable, pero su implementación en la práctica conlleva numerosos problemas aún no bien resueltos, como es la estimación de la fiabilidad de las evaluaciones o su elevado coste en tiempo y dinero. El debate sigue abierto y, hoy por hoy, no hay evidencia empírica de que estas alternativas ofrezcan mediciones más fiables y válidas que las aportadas por las evaluaciones convencionales estandarizadas; y éstas y otras propiedades psicométricas son irrenunciables, hágase la evaluación en nombre del principio que se haga. Al hilo de este planteamiento de la evaluación auténtica, se reabren viejas polémicas, como el uso de los ítems de elección de respuesta frente a los de respuesta construida (Hakel, 1998; Osterlind, 1998), o se retornan otras latentes como la surgida en torno a la validez consecuencial (Messick, 1989), relativa a si el estudio de la validez debe o no de incluir las consecuencias del uso de los tests. Nadie duda de que vigilar el uso adecuado de los tests es de suma importancia, pues la mayoría de los 21:>U50S se producen más por la mala práctica que por fallos en las propiedades psicométricas de las pruebas (Frederiksen, Mislevyy Bejar, 1993; González-Romá y Espejo, 2003; Prieto y Delgado, 1996, 1999, 2003); pero el que esto sea así no parece avalar que haya que incluir las consecuencias del uso de los tests en los análisis de validez, pues ello sacaría la validez del ámbito técnico y científico donde se encuentra para alojada en el más resbaladiZO de los valores. Mezclar Evolución del concepto de evaluación educativa ambos tipos de problemas no parece que vaya a ser beneficioso ni para la validez ni para la mejora del uso de los tests. Además de estas razones, la utilización de aplicaciones informáticas enriquecidas con medios audiovisuales e internet está potenciando de manera insospechada la utilización de bancos de pruebas objetivas de estructuras varias (Parshall y Balizet, 2001; parshall, Davey y pashley, 2000; Zenisky y Sireci, 2000). Queden ahí estos apuntes generales sobre algunos de los temas que más atención están recibiendo actualmente en el campo de la medición educativa. Otros muchos podrían citarse, lo que pone de manifiesto la gran actividad investigadora que está teniendo lugar en este ámbito con tan fuertes implicaciones sociales. LA EVALUACiÓN EN EL SISTEMA EDUCATIVO ESPAÑOL 9. Los interesados podrán encontrar en Álvarez Méndez (1994) una interesante exploración diacrónica documentada de la evaluación escolar a lo largo de los sistemas educativos españoles, Aquí es obligado citar la Ley General de Educación de 4 de agosto de 1970 ya que, introduciendo cambios radicales y novedosos en diferentes aspectos, hace que en el sis~ema educativo español pueda hablarse con propiedad de evaluación. Es más, en fechas posteriores, apenas ha habido modificaciones relevantes en lo que se refiere a la evaluación del rendimiento educativo. A partir de dicha Ley,la educación general se considera no ya como un proceso selectivo, sino de formación integral del alumno: De acuerdo con esto, según la Orden de 16 de noviembre de 1970, la eval\lación se concibe como una actividad sistemática, integrada en el procesp educativo, cuya finalidf1d es el mejoramiento del mismo mediante un conocimiento, lo más exacto posible, del alumno en todos los aspectos de su perso.nalidad y una información ajustada sobre el proceso educativo, sobre losfactores personales y ambientales que en éste inciden, Es, pues, ahora cuando la normativa empieza a considerar una serie de aspectos referentes a la evaluación: Consiste en una apreciación cualitativa que, como parte de la propia actividad educativa y mediante un seguimiento continuo del alumno, ha de servir para valorar tanto su formación como su capacidad de aprendizaje posterior, Desde este momento, la evaluación deja de considerarse, pues, como un apéndice del proceso y ajeno a él mismo, como una continua realización de exámenes y como un mero procedimiento selectivo, Sus funciones han de ser de diagnóstico, pronóstico, orientación y promoción; y ha de servir para establecer tanto dicha promoción como la recuperación o la repetición, 45 46 La evaluación de aprendizajes Ha de ser hecha primordialmente por el profesor, pero se habla también de la autoevaluación del alumno como medio para que éste llegue a conocer su propio proceso de aprendizaje. Debe llevarse a cabo de modo permanente, evaluación continua, que ha de tener su peso en la valoración del curso; aunque, para esta última, se considera también el resultado del examen final previsto en la Ley. Según la etapa educativa, la evaluación quedará formalmente expresa en los boletines de notas en tres, cuatro o cinco ocasiones a lo largo del curso. Sin embargo, debido entre otras cosas al peso de la tradición, en la realidad del aula este concepto de evaluación se fue desvirtuando, alejándose así de los aspectos formativos que contenía la Ley.De hecho, por ejemplo, la evaluación se siguió asentando en los exámenes tradicionales, y la evaluación continua se convirtió realmente en una continua evaluación, es decir, en una continua realización de pruebas. A modo de conclusión El desarrollo y la constitución de las prácticas evaluativas a lo largo de la historia de la educación han supuesto la pervivencia selectiva de una serie de enfoques y modelos, muchos con mayor incidencia en la investigación educativa que en la práctica de la evaluación docente, que se han ido sucediendo, reiterando y superponiendo hasta llegar a la realidad actual, como hemos ido viendo en las páginas precedentes. En un primer período precientífico, la evaluación, sin fundamento teórico alguno, se reducía fundamentalmente a la comprobación del rendimiento escolar con objeto de determinar la posible promoción de los alumnos hacia cometidos diversos. La evaluación era espontánea e interna al aula, ya que al profesor, por el hecho de serio, se le suponía una competencia incuestionable para evaluar a sus alumnos. La preocupación se centraba en desarrollar instrumentos adecuados; primero fueron los exámenes orales y luego se evolucionará hacia los escritos tipo ensayo. El período de los tests supuso un avance significativo, no sólo por la introducción de las pruebas objetivas en la escuela, sino sobre todo porque, aunque evaluar seguía siendo comprobar rendimientos, se amplía el campo a la personalidad, inteligencia, actitudes, etc., y a la vez se introduce la evaluación externa al aula. Fue a partir de Tylercuando la evaluación educativa se estructura y teoriza, a partir del paradigma conductista, para convertirse en un proceso que tiene por fin determinar en qué medida han sido alcanzados los objetivos; es decir, a la Evolución del concepto de evaluación educativa comprobación seguía una valoración que ponía de manifiesto el grado de coherencia que existía entre los resultados esperados y los obtenidos. Evaluar empezaba a ser comprobar resultados para emitir, según unos criterios de referencia, un juicio de valor que se plasmaba en una calificación. En un período posterior de reflexión, en el que se intenta introducir en la escuela la eficacia empresarial, se añade formalmente un nuevo elemento a la evaluación, la toma de decisiones. A partir de ahora, en que la evaluación se consideraba casi definitivamente estructurada, la preocupación se centró en debatir sobre la calidad y cantidad de información necesaria para realizar una adecuada valoración y posterior toma de decisiones. El contenido de las informaciones, sobre todo en el racionalismo académico europeo, había re caído restrictivamente sobre los rendimientos. Precisamente, el movimiento docimológico se explica como un intento de perfeccionar ese academicismo. Durante la euforia conductista, la valoración y toma de decisiones se aplicó a los resultados reflejados en una conducta final observable formulada en forma de objetivo operativo, lo que se superó con las aportaciones neoconductistas aplicándolas también a las capacidades implícitas en los objetivos. Desde la perspectiva del paradigma cognitivo, estos modelos de la pedagogía por objetivos empiezan pronto a ser considerados insuficientes para suministrar referencias apropiadas que nos permitan tomar buenas decisiones. Surge así la dialéctica entre la exactitud y la riqueza; es decir, ¿nos interesa más que la evaluación sea exacta o que abunde en matices y consideraciones? La tensión hacia el rigor había llevado a insistir en la objetividad, en el control de las situaciones, en la automatización de la corrección, en la reducción de la evaluación a las conductas observables y cuantificables, en la importancia de la fiabilidad de los datos obtenidos, etc.; así surgieron las pruebas objetivas, los tests estandarizados, la observación mediante sistemas de categorías operativizadas, etc. Otra valoración desde el cognitivismo sobre estos planteamientos la recoge Zabalza (1989) que, en primer lugar, subraya cómo la evaluación no debe ser un hecho puntual; sino un conjunto de pasos que se condicionan mutuamente, se ordenan secuencialmente, son un proceso, actúan de modo integrado y constituyen un sistema. En segundo lugar, la evaluación no se ha de separar del proceso de enseñanza-aprendizaje, dado que no es un apéndice independiente en dicho proceso, sino que forma parte del mismo y tiene un papel específico con respecto al conjunto de componentes que integran la enseñanza como un todo, está en un sistema. En el sistema educativo, la evaluación ha de servir también para recabar y analizar datos respecto de sus elementos relevantes: objetivos, medios que se utilizan, tareas que se llevan a cabo en el aula, relaciones de comunicación que se establecen, organización, e incluso la propia evaluación que se realiza. Y como todo el proceso de enseñanza está orientado a la consecución de deter- 47 48 La evaluación de aprendizajes minados aprendizajes por parte del alumno, al evaluar éstos, no sólo algún tipo de aprendizaje sino su desarrollo global, debemos valorar por añadidura su eficacia como sistema total. De evaluar restrictivamente conductas finales observables de los alumnos se pasa así, desde posiciones cognitivistas, a planteamientos evaluativos globales de cariz cualitativo; en donde la evaluación se entiende más como comprensión profunda e iluminación de las características de los alumnos, teniendo en cuenta todas sus formas de representación tanto en los procesos como en los productos del aprendizaje. Estas exigencias siguen aumentando hasta llegar a solicitar cada vez más información sobre aspectos de la personalidad del alumno, desde la perspectiva de la Psicología cognitiva y, desde la perspectiva sociológica, sobre las circunstancias que le rodean; y hasta reclamar una apertura conceptual que dé cabida en la evaluación a resultados no previstos y acontecimientos imprevisibles. Esto es, evaluación más allá de los objetivos y de la realización correcta de una actividad (exigencia que tiene sus raíces en la noción vygotskyana del ZDp,citada en el cap. 15), enfocada al tipo de ayuda que el aprendiz necesita. La dificultad de explicitar todo ello para que no quede en una arbitrariedad subjetiva y en estructurado para poder ser interpretado lleva en algunos casos al desaliento y, en definitiva, al abandono de la toma de decisiones externa al alumno. El evaluador se tendrá que limitar a recoger información de manera neutral para que sean los interesados los que las tomen. Después de tan largo camino, evaluar se reduce a informar. Desde la perspectiva cuantitativa, sin abandonar nunca la posterior toma de decisiones externa, también se sintió la necesidad de ampliar el campo de las informaciones, que se mantuvieron, no obstante, parceladas y operativizadas. A esto responde la aparición de taxonomías que distinguen múltiples capacidades para fijar como eje de referencia aspectos de carácter cognoscitivo, psicomotriz o afectivo. * * * Aun corriendo el riesgo de simplificar excesivamente la realidad y de dibujar una caricatura, a veces más expresiva que los detalles de una fotografía, ensayamos una clasificación de los anteriores enfoques y modelos de evaluación en dos grandes tendencias (un amplio y matizado estudio de los diversos enfoques y modelos educativos se puede encontrar en R. Neira, 1999); bien entendido que los rasgos que se atribuyen particularmente a ambas no significan en la realidad exclusión en la otra tendencia, sino énfasis propio. Tendencia cuantitativa: Entre los autores que podemos encuadrar en esta tendencia se encuentran Tyler,Thorndike, Skinner, Gagné, etc. Su enfoque educativo en general, y respecto a la evaluación en particular, se enmarca dentro de los siguientes rasgos característicos: Evolución del concepto de evaluación educativa a) El fin de la educación es alcanzar un repertorio de objetivos explicitados, preferentemente en los ámbitos cognoscitivo y psicomotriz; teniendo también en cuenta indirecta e implícitamente otros ámbitos de la personalidad individual y social que sirven de referente criterial externo a la evaluación. b) La organización escolar está orientada hacia una mayor eficacia, con objeto de lograr mejoras progresivas en las metas y métodos previamente establecidos. c) El currículo está centrado en la estructura de las disczplinas. d) El profesor es un instructor especialista de su materia. e) La función principal de la evaluación es medir, jerarquizar y seleccionar, dando prioridad al rigor sobre la riqueza evaluativa. Cada etapa educativa se concibe como una preparación para la siguiente; por lo que, a medida que se va ascendiendo en el sistema educativo, la evaluación va eliminando alumnos hasta quedar pocos en el vértice, en una concepción piramidal de la educación. La evaluación es esencial para la educación, porque: Todo proceso es analizable y se puede descomponer en procesos más elementales, con su entrada y su salida. La educación es un proceso, a veces muy complejo, y nuestro conocimiento actual del mismo es muy imperfecto; por lo que no sabemos analizado y, por tanto, somos incapaces de medir todos sus productos. En principio, se puede afirmar que al menos los productos importantes de la educación -los rasgos esenciales de los objetivos de aprendizaje- son medibles. Si es un producto importante, debe producir un cambio de comportamiento observable: es decir, una persona que ha cambiado considerablemente, debe comportarse de una manera claramente diferente. Si es observable, es medible, es decir, existe una base para medido; porque lo fundamental de toda medida es una observación verificable en relación con un referente. Hoy tenemos instrumentos para medir algunos aprendizajes, aunque nos falten aún instrumentos, unidad, escala, cero, etc., para otros. A las objeciones y ataques que se suelen formular contra la evaluación cuantitativa, responden con diversos argumentos. Por ejemplo: decir que lo que un «alumno sabe y puede hacer es más importante que una calificación», implica la afirmación falsa de que la calificación no tiene relación con lo que sabe y puede hacer el alumno; y decir que «los exá-~s no tienen valor educativo» implica que las calificaciones derivadas de los exámenes no tienen relación con las metas y objetivos propuestos como síntesis de la educación deseada. La realioad, concluyen, es que los exámenes, y en general los instrumentos de la evaluación, ayudan a calificar,y la calificación pretende ser un resumen de los resultados de un proceso de aprendizaje, es decir, la valoración del estado 49 50 La evaluación de aprendizajes interno del alumno, la «medida» de lo que es, sabe y puede hacer, indispensable para una toma de decisiones adecuada. Tendencia cualitativa: Entre los autores de esta tendencia se encuentran Dewey, parlett, Stake, Stenhouse, etc. Su enfoque educativo en general, y respecto a la evaluación en particular, se enmarca dentro de los siguientes rasgos característicos. Los cuatro primeros apartados recogen algunas de las ideas que ya en abril de 1952 intentó exponer Rogers en la Universidad de Harvard. La conferencia, que se hizo famosa aunque duró apenas 10 minutos, tuvo la virtud de exasperar a los presentes ya muchos de los que luego tuvieron la oportunidad de enterarse de su contenido, y por ello se conoce como la «bomba pedagógica» de Rogers. a) El fin de la educación es el desarrollo personal y social, hasta alcanzar autoestima y seguridad, para llegar a un bienestar. El referente evaluador no está siempre explicitado de forma plena y total, acentuando la libertad de! sujeto y dejando un amplio margen a la subjetividad. b) La organización escolar está orientada a favorecer laflexibilidad en programas, objetivos, métodos, etc. c) El currículo está centrado en el cliente; el alumno, en sus necesidades individuales, sentimientos, intereses, estilos de aprendizaje, etc. d) El profesor es e! motivador yfacilitador de todo e! proceso de aprendizaje. e) La función principal de la evaluación es la de diagnosticar y servir de feedback para mejorar el rendimiento, dando prioridad a la riqueza sobre el rigor evaluativo. Se concibe la educación como permanente en un sistema cerrado del que nadie sale. En vez de seleccionar, la evaluación busca las condiciones que capaciten a cada individuo a alcanzar su techo de desarrollo. Por e! contrario, la evaluación educativa clásica ejerce una influencia distractora y hasta nociva sobre alumnos, profesores y el proceso de aprendizaje, porque: En todo sistema físico (partículas) o social (personas), cuando se introduce un elemento extraño para medido, se perturba, y puede llegar a destruir e! sistema. Ejemplos son e! termómetro que modifica la temperatura de un vaso de agua, e! encuestador que distorsiona con su mera presencia los comportamientos de los encuestados o e! examen para e! alumno. Además, los comportamientos mejores no se pueden describir porque apenas si son observables; sólo se miden los resultados menos nobles de la educación porque suelen ser más fácilmente observables. El individuo es capaz de dirigirse a sí mismo, y de encontrar en su propia naturaleza su equilibrio (homeostasis) y sus valores, sin que nadie decida por otros. Ponen el ejemplo de la nutrición infantil. Evolución del concepto de evaluación educativa La «alienación» fundamental del hombre consiste en no ser fiel a sí mismo. Para agradar, para conservar la atención de los demás, el hombre llega a falsificar su experiencia; queda alienado por intentar adaptarse a valores que no son los suyos. El alumno actúa en los exámenes para «agradar» a otros, sus padres y profesores. En resumen, concluyen que para educar no se deben emitir juicios de valor: no a los exámenes y a las calificaciones. Por la misma razón se deberían derogar los diplomas en tanto que títulos de competencia, indicadores del fin o conclusión de algo que por definición es un proceso continuo y sin fin, el aprendizaje. Profesores, alumnos y evaluadores deben sentirse libres en el grupo para exponer su punto de vista y sus ideas, pero sin imponerlas a los demás y sin temor a ser rechazados. Por el contrario, la enseñanza debe centrarse en los intereses de los demás, y la evaluación debe reducirse a la información y diagnóstico de la realidad escolar. * * * En un intento de buscar las claves que permitan explicar las diferencias y entender mejor estas dos tendencias que hemos polarizado para un mayor contraste, aunque ya hemos dicho que es difícil establecer una línea divisoria tan neta, podemos hacer una reflexión sobre los aspectos más subrayados en cada una de ellas. A veces se pueden confundir medida y predicción (toda decisión lleva implícta una predicción). No es lo mismo medir la creatividad, la motivación, el interés, y por supuesto unos resultados en ámbitos más familiares como el cognitivo y psicomotriz, que predecir, a partir de esta medida, los efectos que se producirán en el futuro. Y la misma predicción tiene diversos alcances: en tiempo, a corto (para la próxima evaluación) ya largo plazo (para el resto de la vida del alumno); y en profundidad, reduciéndose a comportamientos escolares más concretos o llegando a los más humanos, personales y sociales. La divergencia entre las dos tendencias extremas e incluso las matizaciones intermedias que puedan hacerse, pueden atribuirse a que la «cuantitativa» se fija preferentemente en la medida y en una predicción a corto plazo (por ejemplo, para la próxima evaluación, para el próximo parcial, para el próximo curso), que ven como posible: Sí a la evaluación, porque es posible medir aprendizajes; y la «cualitativa» en la predicción a largo plazo (por ejemplo, para su vida profesional), que ven como imposible: No a la evaluación, o más exactamente, no a la evaluación cuantitativa porque no podemos predecir nada y menos imponer nuestras decisiones a otros; hay que «inventar» una nueva evaluación. DejandQ aparte los planteamientos maximalistas de los que eliminan la valoración, los juicios de valor externos, la toma de decisiones sobre otros y reducen la evaluación al acopio de información neutral, creemos que la evaluación 51 52 La evaluación de aprendizajes educativa comprende ambos aspectos: evaluar es medir, y evaluar es predecir, aunque más bien a corto y medio plazo. Por lo que optamos por centrar la evaluación no exclusivamente en la medición de los resultados finales, sino en la recogida de información sobre todas las variables cognitivas y afectivas que intervienen en el proceso de aprendizaje -y en concreto sobre la capacidad de atención (selectiva y sostenida), los niveles de comprensión (conocimientos previos y estrategias de representación y de estructuración de la información) y aplicación, así como sobre la expresión (oral y escrita) yel recuerdo a largo pla20-, como subrayan las tendencias cualitativas, pero cuantificadas en una medida, como reclaman las tendencias cuantitativas: todo ello encaminado a una toma de decisiones posterior a la medición, con objeto de lograr una «optimización», tanto del proceso como de los resultados finales del aprendizaje. De aquí que proponemos y adoptamos como definición de evaluación educativa la siguiente: Proceso sistemático, e integrado en la actividad educativa que mide lo más exactamente posible el estado actual del alumno, incluyendo logros, estrategias de aprendizaje, factores personales y ambientales, etc., que influyen en dicho aprendizaje, con objeto de llegar a una toma de decisiones. La evaluación educativa es la medida o comprobación del grado de consecución de objetivos, lo que comporta una recogida de información para emitir un juicio de valor codificado en una calificación, con vistas a una toma de decisiones. En los capítulos siguientes profundizaremos en estos tres elementos que constituyen la evaluación educativa: recogida de información, con un estudio detallado de los distintos tipos de pruebas o instrumentos para recoger dicha información, calificación y toma de decisiones. NOI)VINHO:lNI I VOI~O)E1H -1 NOI)V)nOEl I 510 NEIVOIOElIN V1 Existe un relativo escepticismo sobre la medida en la educación. Esta actitud viene en parte justificada por cierto rechazo ante el uso de conceptos estadísticos que alejan a algunos profesores de su estudio y también porque, en muchos casos, se mantiene la creencia de que en educación la medida sólo puede aplicarse a aspectos poco importantes y no a atributos sutiles y cualidades esenciales. Las dificultades, sin embargo, que entraña la medida educativa pueden y deben solucionarse satisfactoriamente, pues todo profesor necesita hacer medidas para apreciar la calidad de los aprendizajes de sus alumnos (Pidgeon y Yates, 1976). Para abordar el estudio de los dos primeros elementos de la evaluación, recogida de información y calificación, que en conjunto constituyen la «medida», es conveniente hacer una transferencia clara del concepto de medida de las ciencias empíricas y de las matemáticas a las ciencias sociales en general, y a la educación en particular. Por tanto, empezaremos recordando algunos de sus aspectos fundamentales. Variable: En primer lugar, debe tenerse en cuenta que todo aquello que varía cualitativa o cuantitativamente es susceptible de ser medido. Es decir, se podrán medir propiedades tales como la raza, la belleza, la temperatura o la longitud, siempre que en un momento dado se concreten en un elemento del conjunto en que puede existir dicha propiedad, que llamaremos variable. Por ejemplo, la variable belleza se concreta en personas que son muy bellas, poco bellas; la longitud se concreta en segmentos de 1,2 o 3 metros. Defmición de medida: De una manera descriptiva podemos decir que medir es asignar a cada elemento de un conjunto un valor, numérico o no numérico, y sólo uno. Así, si por un lado tenemos segmentos de distinta longitud y, por otro, una serie de números (1, 2, 3, 4), medir es asignar al primer segmento el 1, al segundo el 2, y así sucesivamente. Esta asignación suele hacerse fijando, previa y convencionalmente, un origen o cero y una unidad o patrón, para poder emitir un juicio comparativo entre cada segmento y dicha unidad. En el diagrama siguiente, se fija de modo convencional el origen en el punto O, y se llama 1 a la distancia OX; a partir de este momento, y por comparación, ya podemos asignar números y, por tanto, medir los segmentos OY=2, OZ=3, XY=l, XZ=2, YZ=1. 56 La evaluación o y x de aprendizajes z Estas medidas son, en definitiva, juicios en los que se afirma que dichos segmentos son iguales o dos/tres veces mayores que el patrón unidad. Propiedades de la medida: variables unas ciertas operaciones, servarse también en los números sin embargo, sólo las dos que nos a la medida en educación. En toda medida, si podemos realizar con las las propiedades de estas últimas deben conque representan las medidas. Estudiaremos, interesarán cuando hagamos las aplicaciones 1. Propiedad de orden: Si una cualidad es más intensa que otra, los números que representan estas cualidades deben ser también uno mayor que otro. Por ejemplo, la medida de un segmento S) es 4, y la de otro S2es 2; si el primer segmento es mayor que el segundo, sus medidas también deben serio: meS)) = 4 m(S2) = 2 meS)) > m(S2) 4 >2 [meS) es la medida del segmento S] 2. Propiedad de unión: Es la segunda propiedad de la medida que interesa tener presente. El resultado de la unión o suma de las cualidades que no tengan elementos comunes debe ser igual al resultado de la unión o suma de sus medidas. En el ejemplo de los segmentos, si se unen dos de ellos no superpuestos, se obtendrá otro cuya medida es igual al resultado de sumar las medidas de los segmentos originales: meS)) + m(S2) =4 + 2 = m(S3) [mS3 es la medida del segmento unión de SI y S2] Escalas: Son escalas los distintos modos de asignar números. Para medir las variables, según su naturaleza, hay que utilizar diferentes tipos de escalas, que no siempre cumplen las dos propiedades mencionadas. Por tanto, nos interesa destacar la clasificación de las escalas de medida, indispensables para clarificar posteriormente el concepto de medida en educación. La medida en educación. 1. Recogida de información 57 1. Escala nominal: En la escala nominal, a cada elemento de un conjunto, es decir, a cada concreción de la cualidad variable, se le asigna un valor (numérico o no numérico). Esta asignación significa que a elementos distintos corresponden medidas (números o símbolos) distintas. En las medidas que utilizan esta escala, no se cumple la propiedad de orden y mucho menos la de unión. Esta escala puede servir para clasificar. Blanca -----0._ O Negra --~.- IoN oB Por ejemplo, para medir la variable raza, se utiliza la escala nominal, en la que se puede asignar a la raza blanca el valor O (o B), Y a la raza negra el valor 1 (o N); el OY el 1 no pretenden significar que una sea mayor o superior a la otra. 2. Escala ordinal: Cuando se mide con la escala ordinal, también se asigna a cada elemento un número (u otro símbolo no numérico); pero aquí un número mayor que otro indica que la cualidad que representa sea también mayor o superior. Se cumple en esta escala la propiedad de orden, pero sigue sin cumplirse la de unión. Por ejemplo, para medir la variable belleza se utiliza la escala ordinal. Se asigna a la persona más bella el número 3 (o el símbolo M = Muy bella), ya la menos bella el número O(o el símbolo N = Nada bella). Los elementos del conjunto, las personas, aparecen ordenadas -propiedad de orden- de más a menos bellas. m (Persona A) = 3 o M m (Persona B) = 2 o R m (Persona C) = 1 o P m (Persona D) = O o N Sin embargo, la diferencia de belleza entre las personas a las que se les asigna el1 yel 2 no tiene por qué ser igual a la diferencia entre las que miden 2 y 3. Tampoco el asignar un Osupone carencia total de belleza. y desde luego, no tiene sentido el sumar la belleza de dos personas, como no lo tiene el sumar sus medidas. En resumen, se cumple la propiedad de orden, sin que los intervalos sean iguales, pero no se cumple la propiedad de unión. Esta escala puede servir para ordenar. 3. Escala de intervalo: Coincide con la escala ordinal, pero aquí la igual diferencia entre números indica igualdad de diferencia de cualidad. m (TI) = 40 m (T2) = 30 m (T3) = 20 m (T4) = 10 Podemos citar como ejemplo la escala de grados Celsius para medir temperaturas. Si las temperaturas de cuatro líquidos son de 40, 30, 20 Y10, aparecen ordenadas cumpliéndose la propiedad de orden; pero, además, la igual diferencia entre 40 y 30, entre 30 y 20 Y entre 20 y 10 indica también igualdad de diferencia entre sus temperaturas. Como en la escala ordinal, el hecho de asignar a un líquido el valor O no quiere decir que carezca de nivel térmico. Y tampoco se cumple la propiedad 58 La evaluación de aprendizajes de unión, pues no tiene sentido sumar temperaturas de los líquidos; si mezclamos los dos primeros líquidos, evidentemente no se obtiene un líquido de temperatura 40+30. Esta escala, que también sirve para ordenar, tiene en cuenta la proporcionalidad. 4. Escala de cociente o razón: Las medidas en esta escala cumplen ambas propiedades, de orden y de unión: la igualdad de diferencia entre dos medidas indica igualdad de diferencia de cualidades, y el Osignifica carencia de atributo. m (L1) =4 m(Lz)=3 m (L3)=2 m (L4) = 1 1. Sea la longitud. Al medir segmentos, se obtienen medidas de 4, 3, 2 Y 1, que los ordenan, según la propiedad de orden, de mayor a menor. La diferencia entre e! primero y el segundo, 4 y 3, es la misma que entre el segundo y el tercero, 3 y 2. Si se unen el primero y el segundo, se obtiene un nuevo segmento cuya medida es 4+3, cumpliendo la propiedad de unión. Además, el valor O significa carencia de longitud. APLICACIONES A LA EDUCACiÓN A continuación estudiaremos cuáles de estos aspectos, propiedades y escalas, podemos aplicar a la medida educativa para sacar las conclusiones oportunas. Variables en educación: Aprender es un cambio, continuo y con cierta estabilidad, de unas estructuras y esquemas cognitivos previos, lo que permite modificar y ampliar los conocimientos existentes para abordar otros aprendizajes. Se enmarca dentro de una secuencia que pasa por tres momentos: recepción, manejo e integración de la información. El momento de la recepción exige que e! aprendiz preste atención, el manejo de la información supone unos adecuados conocimientos previos, así como estrategias adecuadas para estructurar la información y, por último, tarea esencialmente personal de! alumno, la integración de la información en los esquemas preexistentes, lo que implica su modificación y ampliación para poder ser aplicados de nuevo (Álvarez y Soler, 1999). Aque!, o aquello, que no puede cambiar no es sujeto de aprendizaje. Por tanto, es claro que e! aprendizaje tiene algo que ver con alguna variable. Es difícil establecer si esa variable es e! estado interno de! aprendiz o alguna otra cualidad. Sin embargo, como en cualquier caso, e! comportamiento o respuesta del alumno en los ámbitos cognoscitivo, psicomotriz y afectivo es el indicador o expresión externa observable de aquella variable, cualquiera que sea, se puede tomar e! comportamiento observable como la variable de la medida en educación. En resumen, postulamos que, en e! contexto escolar, sólo podemos llegar a la variable educativa, el estado interno, a través de! comportamiento externo del aprendiz; aunque somos conscientes de que a cada estado interno del La medida en educación. 1. Recogida de infonnación aprendiz le puede corresponder un conjunto de comportamientos observables (no diferenciables significativamente). De forma gráfica puede expresarse de la siguiente manera: ••. k3, k2, k'2' k"2 kp k'p k"l k'3' k"3 el .• e2 .• e3 e n .••. k,n k' n, k" n Por ejemplo, la amplia gama de comportamientos (kl' k\, k\) que supone hacer sumas disponiendo los sumandos de diversas maneras, realizando los cálculos por diversos procedimientos, etc., la relacionaríamos con un estado interno (el) del alumno; el hecho de que realice multiplicaciones también de diversas maneras (k2, k'2, k"Z) lo asociaríamos con otro estado interno del aprendiz (ez); y así sucesivamente. Variable y objetivo: Cada familia de comportamientos también se relaciona con un objetivo. Gráficamente: el .• • • kp k\, k"2." k'\• .• k2, k'2' k3, k'3' k"3 O2 01 03 e2 e3 .•.• Por ejemplo, la familia de comportamientos ~ (kl' k\, k"l) supone la consecución del objetivo (al) «Sumar números reales»; la familia~, el objetivo (02) «Multiplicar números reales»; la familia IS, el objetivo (03) «Dividirnúmeros reales». Variable y aprendizaje: Si, como origen de la medición, se fija un estado inicial a través de su correspondiente familia de comportamientos asociados: eo" y si los comportamientos • ko, k'o, k"o Kl son la consecución del primer objetivo al' los comportamientos ~ la consecución del segundo objetivo Oz, y así sucesivamente de todos los objetivos formulados en una programación, entonces el cambio de comportamiento desde ~ a Kl' a~, etc., es la expresión observable de la consecución de los objetivos al' 0Z' etc., o también el indicativo de la dis- 59 60 La evaluación de aprendizajes tancia que queda por recorrer para alcanzados; como aparece en el siguiente esquema: (eO,el) (eo,e) ••. '111( (~,kl) (~,kz) •. (eO,e3) ••. 01 ••. '111( (~,k3) 0z •. ••. 03 Cambio y medida: Si a cada par de estados, representados por sus indicadores observables, se le asigna un valor, estamos formulando un juicio, es decir, estamos realizando una medida. Por ejemplo, al alumno que alcanza el objetivo 1 se le asigna un 5 o un SF; si alcanza el objetivo 2, un 7 o N; y si el objetivo 3, un 10 o SE: 5 10 7 Propiedades de la medida en educación: De las dos propiedades de la medida que citamos anteriormente, en educación nunca se cumple la de unión, y solamente a veces la de orden. Sumar no se puede unir a multiplicar, ni tiene sentido el asignar un 5+ 7 al que es capaz de realizar ambas operaciones. En consecuencia, no se cumple la propiedad de unión, ya que no tiene sentido sumar estados internos, ni sus comportamientos asociados, ni sus medidas. Por otro lado, la propiedad de orden sólo se cumple cuando un objetivo supone los anteriores. En el caso ya tantas veces citado, saber dividir (03) supone ser capaz de multiplicar (Oz) , ya la vez saber sumar (°1), Gráficamente, se puede expresar con los esquemas siguientes: < I el < ez e3 K < Kz < ~ 1 01 < 0z < 03 En este y pocos casos más, se da una ordenación inclusiva y se cumple la propiedad de orden. En la mayoría de los casos, los objetivos no tienen relación entre sí o están sólo parcialmente solapados; por tanto, no se da dicha relación. Algunos ejemplos pueden ser: La medida en educación. 61 Recogida de información 1. MATEMÁTICAS: «Calcular áreas de figuras planas»: 01: Círculo 05: Trapecio Oz: Cuadrado 06: Sector circular 03: Rectángulo 07: Corona circular 04: Rombo LENGUA: «Realizar composiciones aa O escritas»: , 01: Descripción Oz: Narración VO a-zlO 03: Diálogo 04: Cartas comerciales 05: Impresos Las escalas en educación: Puesto que en la medida educativa no se cumple la propiedad de unión, no podremos utilizar la escala de cociente o razón; no se pueden medir aprendizajes como se miden longitudes o masas. Por ahora sólo disponemos de dos escalas: 1. Escala ordinal o de intervalo: Sólo en aquellos casos en que los objetivos están ordenados inclusivamente, es decir, cuando la consecución de cada objetivo lleva implícita la de los anteriores, y por tanto se cumple la relación de orden, está justificada la escala ordinal. Se puede asignar un número a cada par de estados internos, o a cada par de sus indicadores. Siguiendo con el ejemplo de las operaciones matemáticas, los alumnos parten de la situación en que no saben operar (eN. Si el objetivo final es que sean capaces de dividir números reales, cuando con el cambio (e3/K) llegan a va de divididos (03)' se les asigna 10 o SB; si su cambio de comportamiento (eolKa) a (el/Kl) y son capaces solamente de sumados (01)' se les asigna 5 o SF; en cuanto aprenden más, cambien a (ez!Kz) y sean capaces de multiplicados (Oz)' se les asigna un 7 o N. (ko,kl) (eO,el).ooI{ •. (eo,ez)" •. (ko,kz)" (eO,e3) •••• (ko'~)" m(Ol) = 5 o SF .••. • m(Oz) = 7 o N •. m(O) = 10 o SB 62 La evaluación de aprendizajes Se está utilizando una escala ordinal, como la que se usa para medir la belleza. Sería más discutible el uso de una escala de intervalo, como la utilizada para medir temperaturas, ya que sería difícil sostener la igualdad de distancias entre (er!Ko) H (e¡!K¡) H (e/Kz) H (e31Ks).En estos casos de inclusividad de los objetivos, está justificado utilizar los códigos tradicionales de O a 10 o de suspenso a sobresaliente de una escala ordina!. O/l/suspenso 5/S/aprobado 7/N 10/S8 ¡ r O 2. Escala nominal: En educación, en la mayoría de los casos no se cumple la relación de orden; por consiguiente, no queda otra alternativa que utilizar la escala nominal; es decir, medir cada objetivo (O, O') por separado independientemente de los demás, codificándolo con 1/0, Apto/No Apto, Adquirido/NO Adquirido. Si los alumnos saben calcular el área del triángulo (Objetivo O) se les asigna Apto; si no saben calcular el área del círculo (Objetivo O') se les asigna No Apto, que no tiene relación con el anterior. (eo,ej) =} (ko,k¡) =} O = 1/0 o Apto;No Apto (Eo,Ej) =} (Ku,Kj) =} O' = 1/0 o Apto;No Apto o Media ponderada Recordemos que evaluar es medir para tomar decisiones y, a su vez, medir es recoger información para emitir un juicio de valor, codificado generalmente en una calificación. Uno de los secretos de las buenas calificaciones es que estos juicios de valor se basen en una abundante observación controlada; dado que la carencia de una buena información, o la que se reduce a la constatación de comportamientos aleatorios de los alumnos, convierte las calificaciones en meras opiniones de los profesores. Una observación controlada de los resultados válidos y fiables necesita, pues, de un planteamiento sistemático de los diversos instrumentos de evaluación. Un resultado deducido de una buena observación controlada y sistemática, cuando se aplica una escala ordinal o nominal, no ofrece dificultades especiales de interpretación para emitir un juicio de valor; sin embargo, en ocasiones hay que globalizar varios resultados, obtenidos a partir de escalas nominales, en un resultado único. En estos casos, una solución para poder hacer posteriormente un juicio de valor es recurrir a la media ponderada, consistente en asignar un La medida en educación. 1. 63 Recogida de información coeficiente, igualo distinto, a cada objetivo que marque su peso específico relativo; determinación que, como cualquier otra, puede estar teñida de subjetividad y restarle rigor. Por ejemplo, si un alumno en una prueba no responde a las preguntas correspondientes a los dos primeros objetivos, cuyos coeficientes son 10% para el objetivo 01 y 30% para 02' pero lo hace a las de los dos últimos, cuyos coeficientes son 20% para 03 y 40% para °4, el resultado global [R] será: OBJETIVO (O) COEFICIENTE (P) °1 0,1 (10%) o °2 0,3 (30%) 0,2 (20%) 0,4 (40%) 10 10 °3 °4 R= I p¡ N¡ = (0,1 x O) + (0,3 O x O) + (0,2 x 10) + (0,4 x 10) = 6 Este «6" está ya afectado por los coeficientes. El rigor va quedando más deteriorado en el caso de tener que hallar la media ponderada de resultados de partes muy distintas de una materia, y más aun si es de distintas asignaturas. Es importante tener presente este modo de proceder cuasiautomático, pero subjetivo, para obtener los datos de la evaluación educativa, con objeto de desmitificarlos de su aureola de precisión que con todo fundamento subrayan las críticas conocidas. Porque la realidad es que muchos profesores, una vez que llegan a un 4,5, se olvidan de sus ingredientes subjetivos y lo consideran como los 4,5 m de longitud de una viga. Las medidas en educación no son homogéneas como las del orden físico; difieren en las escalas y, por tanto, en la exactitud de las unidades, en la situación del cero, etc. Por todo ello, algunas de las cosas que hacemos con los resultados de las correcciones de los exámenes, tales como calcular medias, desviaciones, coeficientes de correlación, sólo tienen sentido y valor si se las somete a una interpretación adecuada. Es necesario ser conscientes de las limitaciones de nuestras medidas, pero no por eso debemos dejar de hacer lo que nos parece útil; y una de esas cosas útiles es medir los aprendizajes sin olvidar, no obstante, las licencias que nos tomamos. Debemos también recordar que una misma medida puede representar diversas cualidades (las familias de comportamientos antes mencionadas); un 4,5 no significa exactamente lo mismo en todos los alumnos. Por último, conviene reiterar una vez más que la medida es un elemento de la evaluación, y la recogida de información es un aspecto de la medida, porque a partir de ella debe emitirse un juicio de valor para poder tomar decisiones: volver a estudiar la lección, estudiar otros temas, pasar curso, repetir, etc. Y deben tomarse no sólo a partir del juicio o calificación hecha con el resultado 64 La evaluación de aprendizajes numérico, sino de acuerdo, además, con otros datos contextuales: aptitud, situación afectiva personal, etc. Por eso no se justifica la argumentación de muchos profesores cuando afirman: «Siapruebo a este alumno con un 4,5, tengo que aprobar a todos los que lleguen a esta calificación»; porque, insistimos, ni el 4,5 representa el mismo estado en todos los alumnos, ni los datos contextuales que deben acompañar a la medida para tomar decisiones son los mismos en todos los casos. El problema está en objetivarlos diferenciadamente. La calificación se tratará en el capítulo 13 y la problemática de la toma de decisiones educativa en el 14. Ahora nos preocupa exclusivamente la recogida de información y, en este sentido, son varios los métodos para calcular una media ponderada a partir de los resultados de varias respuestas; métodos que, por supuesto, y al igual que los objetivos, deben ser conocidos previamente por los alumnos. Se dan varias opciones. a) En primer lugar, se puede considerar que los resultados de cada prueba [N] no son compensables y, en consecuencia, se requiera un mínimo, por ejemplo de 5, en cada pregunta para calcular resultados. Si Ni < 5, no se tienen en cuenta los resultados parciales superiores a 5 para calcular el resultado global, quedándose en O, en 1 o en 4 como máximo. Si Ni ~ 5, se calcula el resultado global [R] por medio de alguno de los procedimientos detallados en los casos siguientes de preguntas compensables. Si se considera, por el contrario, que los resultados parciales [N] son compensables, el resultado global [R] se calcula por medio de la fórmula general: R = L (Pi X N), en donde R es el resultado global, P el coeficiente o peso atribuido a cada prueba, N es el resultado de cada prueba y L la suma de los productos (P x N). Se contemplan varias posibilidades. b) Las preguntas son equivalentes. Es el sistema más simple y el más frecuentemente usado. Por ejemplo, en un examen de 4 preguntas: P1 = P2 = = P3 = P4 = 25%, Yse da 10 a cada respuesta buena, 5 a las regulares y O a las malas. Si contesta todo bien: (0,25 x 10) + (0,25 x 10) + (0,25 x 10) + (0,25 x x 10) = 10. + (0,25 x 10) + O + O = 5. Si contesta dos regular y dos mal: (0,25 x 5) + (0,25x 5) + O + O = 2,5. Si contesta dos bien y dos mal: (0,25 x 10) c) Las preguntas no son equivalentes, ya que algunos profesores creen que ciertos ítems deben valer más que otros porque controlan objetivos más importantes, tienen una mayor dificultad, son de mejor calidad o requieren más tiempo. En este caso, a cada pregunta se le asigna un coeficiente según un criterio que puede ser: - Empírico: Basado en resultados tabulados de otros ítems equivalentes. La medida en educación. 1. Recogida de 65 información - Estimado: Basado en la experiencia profesores. del profesor - Establecido: No tiene en cuenta los resultados previos reales, sino que se determina a priori según el perfil establecido de competencia que se supone debe poseer un especialista. Por ejemplo, en un examen de 4 preguntas: P1 P4 = o, mejor, de varios = 50%, P2 = 25%, P3 = 20%, 5%: Si contesta las dos primeras mal y las dos últimas + (0,2 x 10) + (0,05 x 10) = 2,5. Si, por el contrario, contesta las dos primeras mal: (0,5x10) + (0,25 x 10) + ° + ° = 7,5. bien: °+ ° + bien y las dos últimas O también, en un examen de ítems VerdaderolFalso y Elección Múltiple, el profesor puede decidir que cada ítem EM debe valer el doble que cada ítem VIF. Por razonable que en apariencia parezca dar este peso diferente a cada pregunta, algunos autores sostienen que tiende a tener efectos relativamente pequeños y rara vez proporciona resultados más válidos o fiables. Los datos de la tabla siguiente, tomada de «Evaluation and Examination Service» (1982). (Evidence far nat weighting abjective test items, EES Memo n. 5I. Iowa City, IA: University of Iowa), sobre los efectos de distintos pesos específicos de ítems aplicados en cuatro exámenes, avalan esta afirmación de que no hay ventaja obvia cuando se usan pesos específicos distintos: Examen 21 83 41alumnos 160 50 90 34 8ien: específico +4 105 N° N° ítems Correlación 0,976 ,923 00,983 8(1-140) 8(1-45) ===0,945 +1 +1 8(1-70) +1 Peso En la tabla se recogen los pesos específicos diferentes que presentaron cuatro profesores para la corrección de sus exámenes. En la última columna, aparece la correlación entre los resultados obtenidos considerando las preguntas equivalentes (pesos de + 1 y O) Y las corregidas usando los diversos pesos específicos propuestos en la cuarta columna. El ordenamiento de los 66 La evaluación de aprendizajes alumnos fue prácticamente el mismo en todos los casos y las fIabilidades Kuder-Richardson (Muñiz, 2003) eran casi idénticas. d) Otra propuesta para mejorar la fIabilidady validez de los resultados es fijar un peso específico diferente para cada distractor de las PO. Por ejemplo: Un niño se qUf!jade dolor agudo y sensibilidad en el bajo abdomen, con náusea. ¿Quédebe hacer la madre? a) Darle un laxante. b) Meterlo en la cama. c) Llamar al médico. Nota: Elegir la alternativa a) supone -1, la b) un Oy la c) un + 1. También en este caso los resultados experimentales han sido decepcionantes, y pocas veces se han encontrado ganancias en fiabilidad y validez apreciables y consistentes (Downey; 1979). Con el agravante de que, si la mayoría de los profesores, aun especialistas, tienen sufIcientes dificultades para construir buenos ítems cuyas respuestas sean simplemente buenas o malas, hacerlos con distractores de distinto valor parece una tarea imposible. e) La mejora de exámenes a través de la adición de buenos ítems equivalentes les parece a algunos una propuesta más prometedora. Así, Sabers y White (1969) afIrman que el cálculo de la media ponderada supone un esfuerzo que no merece la pena, ya que corregir sin estas diferentes ponderaciones ahorra tiempo y; además, los resultados equivalentes son más fáciles de interpretar. Proponen, en cambio, que se pueden obtener las mismas ventajas añadiendo más ítems; es decir, si un examen cubre dos objetivos, uno de los cuales se considera que es dos veces más importante -no precisamente más difícil- que el otro, es preferible escribir más preguntas, por ejemplo el doble de ítems, del más importante. Esto dará resultados más fiables y válidos que si se escribe el mismo número de ítems para cada objetivo, pero los del más importante se valoran el doble. Sin embargo, no está claro que el mismo argumento se pueda aplicar a los objetivos más complejos, para concluir que dar a los ítems más difíciles un valor extra rebaja la eficacia tanto del ítem en particular como la del examen en su totalidad. Recogiendo las opciones anteriores, se puede concluir que una buena regla para mejorar las pruebas es aumentar el número de las preguntas más importantes -lo que equivale implícitamente a una media ponderada- y;además, no ponderarlas todas necesariamente de la misma forma; todo ello condicionado al tiempo disponible para realizar el examen. o Corrección del azar En relación con el peso de los ítems, es necesario considerar la distorsión que las respuestas acertadas por azar introducen en los resultados, aspecto éste especialmente importante en las pruebas objetivas (cap. 4). Tal distorsión debe La medida en educación. 1. 67 Recogida de informac~ón ser corregida con objeto de eliminar o reducir en lo posible la ganancia que resulta de la adivinación ciega. En otras palabras, se intenta no dar esperanza de ventaja al alumno que adivina a ciegas sobre e! que no lo hace. Supongamos que un alumno contesta a ciegas 100 ítems V;F (Cap. 5). Puesto que hay sólo dos posibles respuestas, una correcta y otra falsa, se puede esperar que e! alumno podría acertar 50 por azar. Otro alumno, que no sabe menos que el anterior pero que no se expone a adivinar a ciegas, no contesta ninguna pregunta y, por tanto, recibe un O. Sin la corrección del azar, el resultado del primer alumno sería mayor que e! de! segundo, cuando los dos debieran ser iguales. Para corregir el resultado conseguido por azar por e! primer alumno, es necesario restar de su calificación una cantidad igual a la que se espera que gane por azar. Puesto que en un examen con ítems V;F se puede esperar que el alumno responda una cuestión mal por cada una que conteste bien, e! número de respuestas incorrectas se resta de! número de las correctas. Si las preguntas, en vez de dos respuestas, tienen tres, se espera que el alumno dé dos respuestas incorrectas por cada una correcta; en este caso, para hacer la corrección del azar, habría que restar, del número de respuestas correctas, la mitad del número de respuestas incorrectas. Si los ítems de EM (cap. 6) tienen cuatro posibles alternativas a cada pregunta con una correcta, la relación de respuestas incorrectas a correctas es de 3 a 1, y la corrección del azar exigiría restar, de! número de respuestas correctas, 113 del número de respuestas incorrectas. Esto nos lleva a la siguiente fórmula general de corrección R=B-~ d -1 de! azar: (En donde R es el resultado global, B es el número de ítems correctamente contestados, M los ítems incorrectamente contestados, d el número de distractores u opciones de los ítems, Si se desea referir la nota a una escala de 10, basta con dividir el resultado por el número total de ítems de que se compone el examen y multiplicado por 10.) Es fácil ver que esta fórmula se convierte en R=B-M en el caso de dos alternativas (V;F), o R=B-M/3 en el caso de ítems EM de cuatro alternativas. En vez de «penalizaD) al alumno que adivina, se podría «premiar» al alumno que no lo hace; es decir, siguiendo con e! mismo supuesto, en vez de restar 50 unidades de! resultado de! que adivina a ciegas, se podrían sumar 50 unidades al resultado de quien no lo hace. Esto también eliminaría la ventaja esperada de adivinar a ciegas. La hipótesis en este caso es que, si el que no adivina hubiera adivinado, daría la respuesta correcta a 1/2 de los ítems V;F. En ítems EM de tres alternativas, el que no adivina daría respuestas correctas a 1/3 de los ítems. La lógica de esto lleva a otra fórmula general para corregir el azar: R1 = B- O d (En donde R' es el resultado global corregido de acuerdo con los ítems omitidos, B es el número de respuestas correctas, O el número de ítems omitidos, d es el número de distractores.) 68 La evaluación de aprendizajes De nuevo, la fórmula se convierte en R'=B+O/2 en el caso de ítems VIF,y R'=B+O/4 en el caso de ítems EM de cuatro alternativas. Si se aplican las dos formas de corrección del azar a unos mismos resultados, se obtendrán resultados corregidos distintos, pero perfectamente correlacionados: a un resultado más alto que otro obtenido por el primer método, corresponde también uno más alto obtenido por el segundo. Sin embargo, el valor medio (los de omisión serán mayores) y su variabilidad (los de omisión serán más variables casi siempre) serán diferentes. Por otra parte, conviene señalar que, si no se omiten ítems, los resultados corregidos del azar mediante la resta de una fracción de las respuestas incorrectas correlacionan perfectamente con los resultados no corregidos; es decir, con el número de respuestas correctas. Lo cual supone que la magnitud de los efectos de una corrección del azar depende de la proporción de ítems omitidos. La aplicación de cualquiera de las dos fórmulas sólo tendría un efecto relevante si, por parte de algún alumno, se omitiera un considerable número de ítems. Como los resultados en los que no se corrige el azar dan una especial ventaja al alumno arriesgado y «listo»,su validez como medida de logros de aprendizaje disminuye. Sin embargo, en contra de lo que a veces se cree, la corrección del azar no pretende penalizar al que deduce las respuestas, sino simplemente anular la posible ventaja que pueda tener el alumno que adivina a ciegas sobre el que no contesta ítems por desconocer la respuesta. Si no se corrige el azar, los alumnos «expertos en hacer exámenes» saben que no tienen nada que perder, y quizá algo que ganar, si intentan responder todos los ítems. Por el contrario, si se corrige, no responderán los ítems en los que vean pocas posibilidades de acertar. Por último, se señalan algunas consideraciones que deben tenerse en cuenta al corregir el azar en pruebas objetivas: a) La probabilidad de obtener un resultado «alto» adivinando a ciegas es muy pequeña. Nadie saca matrícula por casualidad. b) Los alumnos mejor preparados tienden siempre a evitar la adivinación a ciegas. La corrección del azar evita o reduce la tentación de adivinar también en los alumnos mal preparados. c) No hay que confundir la adivinación a ciegas con la deducción racional de la respuesta correcta, adivinación no a ciegas, que, como tal, se puede recomendar a los alumnos. d) Esta deducción racional puede proporcionar una información útil sobre el nivel general de conocimientos de los alumnos. La medida en educación. 1. 69 Recogida de información INSTRUMENTOS DE EVALUACiÓN Se trata de estudiar los formatos o tipos de pruebas con los que se puede recoger la información sobre el rendimiento de los alumnos. Ostedind (1998) define «instrumento de evaluación» como un instrumento de medida que propone al alumno un estímulo y una forma prescriptiva de emitir una respuesta, a partir de la cual se puede deducir la consecución de un objetivo de aprendizaje; dicho de otro modo, se entiende por «instrumentos de evaluación» aquellos recursos que, en diferentes situaciones, facilitan identificar modos de actuación como indicadores para medir el grado de consecución de objetivos de aprendizaje. Estas situaciones no deben limitarse a las pruebas orales y escritas. El recurso más tradicional o novedoso y e! indicio más pequeño que ayuden a un docente a comprender mejor a un alumno, o que ayuden a un alumno a comprenderse mejor a sí mismo, deben considerarse como válidos, siempre que en alguna medida puedan estimarse. Conviene, por tanto, esforzarse en obtener todos los indicios a través de todos los medios apropiados. Dado que a los objetivos de aprendizaje no se accede de modo inmediato, se usan instrumentos que proporcionen datos a partir de los cuales se pueda inferir si el alumno los ha alcanzado. Los diversos modos de actuación de los alumnos servirán como indicadores del grado de consecución de los objetivos, aunque indicadores aislados no sirven para evaluar la complejidad del comportamiento de un alumno. De ahí la necesidad de ir integrando todas las informaciones que se puedan obtener a través de los diversos instrumentos de evaluación; diferentes de las actividades de enseñanza-aprendizaje en la medida en que pretenden valorar el grado de consecución de unos objetivos. Tanto unos como.otras incluyen procesos mentales sobre contenidos científicos, pero difieren en e! fin para el que se usan: en un caso son estrategias de aprendizaje y en otro, instrumentos de evaluación que pretenden provocar una respuesta definida de! alumno. Una situación que supusiera cualquier respuesta, como en algunos casos la observación y las encuestas, permitiría considerada como instrumento de evaluación sólo desde un punto de vista analógico. Por tanto, la evaluación de aprendizajes necesita una amplia gama de instrumentos -tests o exámenes compuestos por ítems, preguntas o pruebas (términos con significados diferenciados, pero que usamos indistintamente)-que respondan a ciertas cualidades, con el fin de que los datos obtenidos puedan valorarse y significar algo para e! propio alumno, para el profesor, para la institución educativa y para la sociedad que, en última instancia, ha establecido la estructura educativa. Y no vale apelar a refugiarse en la connotación peyorativa que la palabra examen encierra para, por ello, estar en contra de los mismos; porque todo profesor examina y califica. Diseñar situaciones para comprobar la consecución de objetivos de aprendizaje es una tarea de gran importancia en educación. Aunque siempre hubo y sigue habiendo otros protocolos, esta tarea frecuentemente se reduce a cons- 2. 70 La evaluación de aprendizajes truir preguntas de manera precisa y breve para poder deducir, de las respuestas de los alumnos, conclusiones válidas y fiables sobre la adquisición de objetivos referidos a capacidades de diversos ámbitos, en especial los cognoscitivos. Es una tarea difícil, entre otras razones porque, con frecuencia, los ítems se reducen a una simple frase que ofrece pocas oportunidades para describir un contexto que aclare su significado; por otra parte, tampoco es fácil establecer la indispensable relación entre pregunta y objetivo que reduzca las fuentes de error y aumente la validez y fiabilidad de los resultados. Todo ello es un reto a la creatividad y experiencia del profesor. El análisis de los exámenes corrientemente utilizados muestra que, a veces, las preguntas adolecen de muchos defectos, entre los que podemos citar (Guilbert, 1989): 1. Futilidad: Se entiende por futilidad la poca importancia de las preguntas. La prueba pierde utilidad cuando el número de preguntas que emplea constituya una pequeña muestra de todas las posibles. Más grave es el conservadurismo que obliga al alumno a responder de acuerdo con los prejuicios o incluso las posibles ideas desfasadas del examinador. 2. Ambigiiedad: La ambiguedad del lenguaje empleado puede hacer que el alumno tenga que dedicar más tiempo a la comprensión de la pregunta que a respondeda, con el riesgo añadido de no contestar a lo que se le pide. Esta ambiguedad resulta mayor cuando existen errores en la redacción de las preguntas, o cuando constituyen una trampa que enmascara datos necesarios para dar la adecuada respuesta. Por otra parte, la formulación defectuosa delos ítems puede dar «pistas»y sugerir las respuestas a los alumnos. 3. Complejidad: Por un lado, la complejidad de la materia puede hacer que la búsqueda de la respuesta correcta suponga más dificultad de la prevista. Más grave, sin embargo, es la complejidad de las instrucciones: ciertas pruebas incluyen algunas tan complejas o variadas (cada pregunta lleva unas distintas), que lo que se evalúa es mucho más la aptitud del alumno para descifrar las instrucciones que el nivel real de sus conocimientos y su capacidad para utilizados. Esto es especialmente importante en las llamadas pruebas objetivas (PO). 4. Éxito en los exámenes: Sobre todo en las pruebas objetivas (PO), los alumnos desarrollan un «sexto sentido» que les lleva a predecir las preguntas que van a salir, su estilo, su forma, etc. Otros alumnos, con la ayuda de una buena expresión escrita pero carente de contenido, pueden disimular la ausencia de conocimientos y acabar por influir en el corrector, hasta el punto de que éste juzgue las palabras y no los conocimientos. Para evitar estos y otros posibles defectos, es esencial que quien construye una prueba, tanto si se trata de una prueba libre (PL) como de una prueba objetiva (PO), la someta a un análisis crítico y siga una serie de instrucciones. La medida en educación. 1. Recogida de información Clasificación: Los instrumentos de evaluación de aprendizajes pueden clasificarse según diversos criterios. Si se tiene en cuenta la situación en que se encuentra el alumno en el momento de someterse al control, se pueden clasificar en instrumentos directos, en los que se interrumpe el proceso de aprendizaje (exámenes escritos, orales, etc.); yen instrumentos indirectos o circunstanciales, con los que se evalúa la adquisición de conocimientos sin interrumpir el proceso de enseñanza-aprendizaje (observación espontánea o estructurada, etc.). El criterio más frecuente de clasificación, sin embargo, es la forma de las preguntas del profesor, que condiciona la libertad que tiene el alumno para responder; según esto, se distinguen las siguientes clases de instrumentos de evaluación, que estudiaremos con detalle: 1. PRUEBAS OB]ETNAS (PO) 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. VERDADERO/FALSO (VIF) ELECCIÓN MÚLTIPLE (EM) V/F MÚLTIPLE (V/F múltiple) RESPUESTAS COMBINADAS (Re) EMPAREJAMIENTO (EP) CLASIFICACIÓN (CL) RESPUESTA DOBLE (RD) RESPUESTA LIMITADA (RL) PROBLEMAS CIENTÍFICO-MATEMÁTICOS (CM) 2. PRUEBAS LIBRES (PL) 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. RESPUESTAABIERTA (RA) PRUEBAS MIXTAS (PM) EXAMEN ORAL (EO) PRUEBA PRÁCTICA REAL (PR) PROYECTO (PY) SIMULACIÓN (SM) 3. PRUEBAS DIAGNÓSTICO (PD) 3.1. OBSERVACIÓN (OB) 3.2. ENCUESTA (EN) Según esta última clasificación, podría hablarse de un continuo desde las pruebas objetivas (PO) hasta las pruebas diagnóstico (PD). El constructor de un test puede aumentar o disminuir la libertad del alumno para contestar. Cuanto más se limita la libertad, más fiabilidad podrá tener el test, y a la inversa. Los ítems podrían entonces ordenarse a lo largo de este continuo: en un extremo estarían las PO que imponen más limitaciones; a continuación los ítems de respuesta limitada (RL) (clasificadas como PO, pero en las que el alumno tiene ya que construir su respuesta) y las pruebas libres (PL); yen el otro extremo no habría prácticamente limitación, como es el caso de la observación (OB) y las 71 72 La evaluación de aprendizajes encuestas (EN) que hemos llamado, a falta de un título mejor, PD, pruebas en sentido analógico, ya que en algunos casos se admite cualquier respuesta. LIMITACIONES P. Objetivas •••. LIBERTAD R. Limitada P. Libres P. Diagnóstico En los capítulos siguientes se hace un estudio pormenorizado de cada uno de estos instrumentos de evaluación. SltAI~5Ir80 Slt851nHd Las pruebas objetivas (PO) tienen como denominador común que el alumno, previa elaboración mental acompañada a veces de una construcción material, elige la respuesta entre una serie de alternativas que se le proporcionan. Son muchas las críticas a las PO, aunque la mayoría se reducen a malentendidos en casos aislados que se transmiten de unos a otros y se perpetúan. Dichas críticas raramente vienen avaladas por datos experimentales sin prejuicios, a pesar de que estos datos serían relativamente fáciles de obtener. Profesores con experiencia han demostrado repetida y continuamente que un experto puede transformar en PO casi todos los exámenes que se ponen en nuestras aulas; y que las PO, lejos de disminuir la capacidad discriminativa de los ítems y la fiabilidad de las calificaciones, las aumentan. Por ello, en gran parte, carecen de sentido muchas de las críticas atribuidas vulgarmente a las PO. Una buena revisión puede consultarse en el libro de Phelps (2005). 1. Artificialidad: Todo examen al uso supone siempre cierta artificialidad. Por esta razón algunos proponen, como alternativa a las pruebas escritas, la realización de pruebas reales (PR). Sin embargo, dichas propuestas pocas veces consideran el costo en tiempo y personal que implica llevar a cabo el proceso, la fiabilidad de las calificaciones y otras limitaciones inherentes a la tareas de las PR, lo que las hace inviables en la mayoría de los casos. Dentro ya de las pruebas escritas, no es cierto que las PO favorezcan sólo, ni específicamente, la memorización de detalles triviales: las PO pueden presentar problemas nuevos que deben resolverse mediante la comprensión y aplicación. Además, no es defendible la posición maniquea de que el aprendizaje o es memorístico o es significativo; por otra parte, el aprendizaje memorístico no es divertido, promete premios poco duraderos, por lo que, a poco que se haga, la mayoría de alumnos y profesores tienden espontáneamente a evitado. Por todo ello, al menos hay que poner en entredicho la crítica de que las PO facilitan al alumno acotaciones, simplificaciones y otras ayudas que las reducen a medir exclusivamente conocimientos artificiales, alcanzados sólo mediante alguna forma de aprendizaje memorístico. 2. Selección versus construcción: La mayor parte de las buenas PO requiere que el alumno, mediante un pensamiento creativo y original, desarro- 76 La evaluación de aprendizajes lle los fundamentos para elegir entre las varias alternativas que se le presentan. Por ello, si las PO están bien construidas, no permiten responder correctamente a partir sólo del mero reconocimiento, de la memoria rutinaria o de la asociación verbal no significativa. No está claro que el proceso mental resultara diferente si no se sugirieran respuestas y si la tarea pedida fuera la producción material de una respuesta, no la elección de la que es correcta. Producir una respuesta no es necesariamente una tarea más compleja y más difícil, o más indicadora de los logros, que escoger la mejor de las alternativas disponibles (Quellmalz et al., 1980). Hogan (1981), a través de una revisión de la investigación relacionada con la comparación entre las respuestas abiertas (RA) y las PO, desde Patterson (1926) hasta nuestros días, llegó a la siguiente conclusión: "En la mayoría de los casos, se encontró que las medidas obtenidas a través de RAy PO eran equivalentes, o casi equivalentes, definidas por su intercorrelación, dentro de los límites de sus respectivas fiabilidades. Más aún, las medidas de PO no sólo son considerablemente más fáciles de calificar, sino que casi siempre son más fiables que las de las RA». Sin embargo, a pesar de las abrumadoras pruebas empíricas de las conclusiones recogidas por Hogan, muchos profesores continúan ignorándolas y persisten en la creencia de que en sus particulares situaciones las RAy las PO producen medidas de cualidades completamente distintas. Por todo lo anterior, se pueden cuestionar en gran medida las críticas de que en las PO, al sugerir posibles respuestas, es el profesor quien hace la parte más importante de la tarea; de que el alumno realiza una actividad menos válida, al limitarse a seleccionar una información sin construida; de que, finalmente, las PO sean más superficiales y menos realistas para evaluar el conocimiento que los exámenes clásicos, llamados técnicamente respuestas abiertas (RA). 3. Adivinanza: Es preciso subrayar que el azar de que «caiga» lo que el alumno sabe -azar siempre implícito en la elección de toda muestra de preguntas que el profesor selecciona para todo tipo de exámenes- afecta más a las pruebas libres (PL), pues los exámenes clásicos tienen menos preguntas; mientras que las PO se prestan mejor a hacer un «barrido» más amplio de la materia de examen. Respecto del azar más típico de las PO, el derivado de adivinar la respuesta, hay que distinguir entre adivinanza informada y adivinanza ciega. La primera proporciona indicaciones válidas de logros: cuanto más sepa el alumno, es más probable que sus conjeturas informadas sean correctas. En cuanto a la segunda, los alumnos muy motivados, en una prueba de dificultad adecuada y con tiempo suficiente, harán pocas adivinanzas ciegas en un examen de PO; pues saben que, por poco que piensen, esto es más seguro y rentable que adivinar ciegamente la respuesta correcta. Además, Ebel (1968) y Hills y Gladney (1968) demostraron que, para comprobar la consecución de logros, las calificaciones en el intervalo del azar no son significativamente diferentes de aquellas otras libres del azar. 77 Pruebas objetivas Así pues, la opinión de que las PO están sometidas a grandes errores por la conjetura y la adivinanza hay, al menos, que considerada con muchas reservas. 4. Coste: Las PO son un instrumento «costoso» para grupos pequeños de alumnos. Se aconsejan sobre todo cuando hay que evaluar una población numerosa de alumnos, y se consideran casi imprescindibles en situaciones en que no coinciden el que enseña, el que construye la prueba y el que la corrige. * * * Aun los mayores entusiastas de las PO no defienden que sean perfectas. Admiten, como lo hacemos nosotros, que pueden tener ciertas deficiencias y que, en general, no son tan fiables ni tan significativamente discriminantes como debieran ser. Pero estamos persuadidos de que no se debe abandonar su uso hasta que se encuentre un recambio con menos defectos. La relación entre el proceso de construcción de un test y su validez es compleja. Aunque las normas para construir ítems no sean por sí mismas aval suficiente, sí son un marco que facilita la construcción de ítems de calidad que proporcionen interpretaciones válidas. El proceso de construcción de cualquier formato de ítem, que debe proponerse de tal manera que un profesor preparado pueda seguido y repetido, debe empezar por la explicitación de lo que se va a comprobar, es decir, la variable que se quiere medir. Como en un contexto académico se hará una valoración criterial, esta variable es un objetivo de aprendizaje explicitado a través de unos indicadores observables (la problemática de la programación, en general, y de la formulación de objetivos, en particular, se puede encontrar en Álvarez, Soler, GonzálezPienda, Núñez y González-Castro, 2004). Aunque es ésta una condición obvia, es una de las más difíciles de cumplir, por lo que es frecuente que los profesores la ignoren o afirmen que los objetivos los tienen implícitamente en su mente; pero es imprescindible también explicitados antes de establecer las preguntas. Posteriormente, supuesto el objetivo, a la hora de formular las preguntas, en la práctica suele ser más fácil usar los materiales de enseñanza (libros, apuntes, etc.) como fuente de ideas que deducidas directamente de los objetivos de aprendizaje. Conseguir el máximo de relación entre el ítem y el objetivo evaluado, relación que influye directamente en la validez y fiabilidad de los resultados obtenidos, no es fácil. Determinada requiere, además de dominar la materia y la expresión, un gran conocimiento de los aspectos psicológicos de la capacidad medida. He aquí algunos ejemplos que ponen de manifiesto esta falta de relación entre ítem y objetivo: al. Un metro de un cierto tejido cuesta * a) 8 b) 10 c) 15 d) 35 3 €. ¿'Cuántos euros cuestan 5 m? 78 La evaluación de aprendizajes a2. Un metro de un cierto tejido cuesta 3 euros. ¿Cuántos euros cuestan 500 cm? * a) 0,8 b) 1 e) 1,5 d) 3,5 Nota: Si se trata de evaluar el objetivo «comprender el concepto de proporcionalidad directa», valdría el al, pero no el a2, que requiere además el conocimiento de unidades. b1. Considerar el siguiente diagrama para responder la pregunta: ¿Qué clase de imagen aparece en el dibujo? * a) Real b) Virtual e) Negativa d) Fragmentada b2. Considerar el siguiente diagrama para responder la pregunta: ¿Qué clase de lente producirá los rayos representados? * a) Convexa b) Cóncava e) Pigmentada d) Polarizada Nota: En los ítems b1 y b2, adaptados de Osterlind (1998, pág 108 de la 3a reimpresión de 1994), si el objetivo evaluado es clasificar lentes, sólo el b2, que pregunta sobre las clases de lente, es válido; el b1 interroga sobre la imagen, por lo que está relacionado con otro objetivo. Otras veces la falta de relación entre ítem en la expresión. Por ejemplo: y objetivo se debe a imprecisiones el. Lee el párrafo y contesta la pregunta siguiente: Pruebas objetivas «Todos alabaron su estudio sobre el hombre porque era realmente comprensivo, porque trataba ampliamente e integraba muy diversos aspectos de la personalidad humana, de las grandezas y debilidades del hombre». ¿Quésignifica el término «comprensivo»? a) b) c) d) Que es tolerante Que incluye Que es sensible Que conoce Nota: No está claro si lo que se pretende es comprobar si se conoce el significado de una palabra o la capacidad de determinar su significado en un contexto. La palabra «comprensivo» en su acepción más común hace referencia a la «tolerancia», pero en este contexto se refiere a la idea de «inclusión». Las PO presentan diversos formatos, de los que analizaremos con más detalle el verdadero/falso (y1F) y elección múltiple (EM); posteriormente, citaremos otros tipos de PO. 79 OS'V:l/OH5IOVOH5IA SV851nHd Los ítems verdadero/falso (V/F) se conocen también como «respuestas de dos alternativas»; en ellas el alumno califica la formulación de una proposición como verdadera [V]o falsa [F]. Un ejemplo: al. Con respecto a nuestro planeta, la atmóifera es su: 1. 2. 3. 4. 5. Envoltura aérea Envoltura gaseosa Soporte químico Eifera de vapor Esfera tropocoidea [F] '" [V] [F] [V] [F] A primera vista, las preguntas o ítems V/F pueden parecer más fáciles de lo que realmente son. La razón por la que algunos tienen a los ítems V/F en baja estima es porque creen que existen métodos mejores para medir aprendizajes. Juicio no compartido por muchos especialistas, que consideran los ítems V/F un instrumento simple y directo para medir objetivos esenciales de la educación formal; lo argumentan diciendo que la mayoría del conocimiento humano está expresado a través de proposiciones, de las que se puede decir que son verdaderas o falsas. Muchas veces el dominio que un alumno tiene de un área particular de conocimiento queda patente por su capacidad para juzgar la verdad o falsedad de las proposiciones relacionadas con el área en cuestión. A veces se altera el protocolo y se proponen, como sugiere Goring (1971), alternativas a V/F tales como: a2. Contestar con SÍ/NOa la pregunta siguiente: ¿Esmenor (1- ~r ~r que (1- ? [SÍ/NO] . a3. Ante cada una de las afirmaciones siguientes, contestar con H si se trata de un hecho, y O si se trata de una opinión: Republicano es el sistema de gobierno imperante en Francia [H/O] 84 La evaluación de aprendizajes 1. CONSTRUCCiÓN A. Proceso: El proceso de construcción de ítems VIF,de manera análoga a la de otros formatos, se puede resumir en los cuatro pasos siguientes: 1. Objetivo: Es imprescindible tener a la vista la variable u objetivo de aprendizaje que se quiere evaluar. 2. Fuentes de las preguntas o ítems: Como se dijo al hablar en general de las PO, suele ser más fácil usar los materiales de enseñanza (libros, apuntes, etc.) como fuente de ideas para las preguntas, que deducidas directamente de los objetivos de aprendizaje. Por ejemplo, una fuente podría ser el siguiente párrafo de un libro (Fernández, 1982: 195):' «Desde el siglo XVI el Japón está gobernado por un schogún, cargo asignado a la familia de los Tokugawa, (..) mientras los emperadores viven arrinconados, en una especie de exilio dorado, en su palacio de Kyoto. El Japón vive una larga época feudal, con unos señores poderosos, los tokugawa y grandes vasallos, los daimios. El país se cierra a toda influencia occidental, a cualquier innovación económica o cambio social. Algunos elementos de transformación, como la conversión de los samurais o guerreros en una elite intelectual, el surgimiento de una economía monetaria ( ..) y la penetración de algunos elementos occidentales, (..) no son suficientes para alterar una sociedad inmóvil, ajena y hostil a la evolución del mundo». 3. Proposiciones: A partir de la información que ofrecen estos materiales instruccionales, debemos seleccionar una muestra de las ideas más representivas, es decir, hacer un resumen en unas pocas proposiciones. Por ejemplo, en el párrafo anterior, se pueden identificar las dos proposiciones siguientes: El schogunato supone en elJapón: - Una etapa de régimen feudal, donde elpoder imperial no tiene eficacia. Una sociedad inmóvil, ajena y hostil al mundo exterior. 4. Formulación de los ítems: Hay que empezar formulando dos expresiones paralelas y opuestas de cada aspecto, es decir, transformar las proposiciones seleccionadas en pares de posibles ítems VIF, uno verdadero y otro falso, para luego seleccionar uno. Así, a partir de cada proposición seleccionada puede formularse una gran variedad de ítems VIF.Si no son la mera reproducción de las frases originales, los ítems pueden evaluar algo más que la memorización vacía de lo estudiado. He aquí algunos ítems formulados a partir de las proposiciones del párrafo anterior: al. El schogunato, por sí mismo, no limitó la eficacia del poder imperial japonés [F} a2. El schogunato limitó la eficacia del poder imperialjaponés [V} Pruebas verdadero/falso 85 bl. Generalmente el schogunato supuso en elJapón una sociedad unida por intereses nacionales [F] b2. El schogunato supuso para elJapón una sociedad dispersa en intereses particulares [V] B. Instrucciones: Estas instrucciones pueden referirse a la presentación de las preguntas y de las respuestas de los alumnos, a la duración del examen, al rigor en las expresiones científicas, etc. Las instrucciones claras son tanto más necesarias cuanto menor sea el nivel de desarrollo del alumno. En todo caso, no es necesario repetidas en cada examen; cada profesor, al principio del proceso de instrucción, marca las reglas del «juego». C. Normas: Discriminar entre los que saben y los que no saben es la norma básica para lograr que los ítems cumplan lo mejor posible su cometido. Los que saben deben ser capaces de responder a las preguntas correctamente. Los que no saben deben encontrar las respuestas erróneas atractivas. Construir ítems que discriminen de esta manera exige una cierta especialización. A ello pueden ayudar las siguientes sugerencias, agrupadas en tres apartados: cualidades que deben tener las ideas recogidas en los ítems V/F, homogeneidad de las expresiones y otros recursos útiles. 1. Cualidades de las ideas: Son sugerencias sobre los contenidos que se recogen en los ítems. 1.1. Ideas importantes: Las proposiciones deben ser el reflejo de aspectos importantes de algo que merezca la pena saber. He aquí ítems V/F que ilustran esta cualidad; los primeros son aceptables, los segundos pobres: al. El toro es un símbolo fundamental de la poesía amorosa de Miguel Hernández, hasta el punto de identificarse plenamente con él en algunos poemas """""""""."""."""".""."""""""""" [V] a2. Miguel Hernández trabajó en Madrid como ayudante de José María de Cossioen la enciclopedia taurina que preparaba para la editorial Espasa-Calpe """"""'''''''''''''''''''''''''' [V] Nota: La referencia biográfica de trabajar con Cossío en la enciclopedia taurina es poco relevante para la poética de Miguel Hernández; sin embargo, el toro como símbolo poético es básico para comprender parte de la mejor obra hernandiana. bl. Se puede disolver más azúcar en un litro de agua caliente que en un litro de agua fría """'" "'''''''''''''''''''''' [V] b2. Algunas sustancias se pueden disolver en otras [V] Nota: Afirmaciones como la b2 son demasiado generales como para decir algo útil; el ítem bl, por el contrario, se ofrece como una buena pregunta para controlar la comprensión de una importante relación. 1.2. Comprobación de capacidades cognoscitivas: Examinar el aprendizaje significativo es comprobar el dominio que una persona tiene de una materia. Por otro lado, dominar una materia no es almacenar una colección mis- 86 La evaluación de aprendizajes celánea de elementos separados, sino integrados en una estructura que se pueda usar para tomar decisiones, sacar conclusiones lógicas o resolver problemas. Que el alumno recuerde simplemente palabras sin significado, frases vacías o aprendidas rutinariamente, no debe ser suficiente para permitir que pueda dar una respuesta correcta. Es un error bastante extendido el creer que los ítems V;F sólo pueden comprobar la memorización de datos como los siguientes: al. Un cuerpo sumergido en un fluido experimenta una fuerza hacia arriba igual al peso delfluido desplazado [V] a2. Un cuerpo sumergido en un fluido experimenta unafuerza hacia arriba igual a la mitad del peso delfluido desplazado [F] Nota: Estos ítems, que presentan al alumno expresiones usuales como afirmación verdadera o alguna alteración como afirmación falsa, se pueden aprender de memoria, por lo que son indicadores de una simple memorización vacía. Por el contrario, los ítems siguientes usan como indicadores de la comprensión de un principio que se reconozca en algunas paráfrasis no usuales: b1. Si un objeto con un determinado volumen se rodea de un líquido o gas, lafuerza que experimenta hacia arriba es igual al peso del volumen del líquido o gas [V] b2. Lafuerza hacia arriba sobre un objeto rodeado por un líquido o gas es igual al área de la superficie del objeto multIPlicada por la presión del fluido que lo rodea [F] Como alternativa para comprobar la comprensión, se puede pedir al alumno que lo identifique en una situación concreta: c1. Lafuerza de empuje sobre un cm3 de plástico es exactamente igual a la que hay sobre un cm3 de hierro, cuando ambos está sumergidos en~ M c2. Si un objeto insoluble se sumerge en variosfluidos de diferente densidad, la fuerza de empuje sobre dicho objeto variará de manera inversamente proporcional a la densidad de losfluidos [F] Con este formato también se pueden presentar problemas difíciles que exijan una capacidad de aplicación compleja; por ejemplo: d1. El término siguiente en la serie 3, 4, 7, 11, 18 es 29 d2. Si los lados de un trapecio son números enteros consecutivos, y si el lado menor es uno de los dos ladosparalelos, entonces el área del trapecio es 18 unidades cuadradas [V] [V] 1.3. Respuesta defendible: Las afirmaciones verdaderas, así como las falsas, deben ser hechas de tal modo que los expertos no tengan problema alguno en distinguidas. Por ejemplo: Se conoce como «germanias» al: al. movimiento de tipo social de la región valenciana durante los primeros años del siglo XVI [V] Pruebas verdaderoljalso a2. «hermanamiento» que se establecía generalmente entre los nobles valencianos durante la baja Edad Media 87 [F] Nota: Evidentemente, no hay posible discusión sobre la veracidad o falsedad de estos ítems, ya que las «germanías», tanto en Valencia como en Mallorca, tuvieron un carácter eminentemente social, -no así las «comunidades» de Castilla, cuyo carácter era más bien político-, además de suponer un enfrentamiento entre éstas, formadas por artesanos, y los ricos burgueses y la pequeña nobleza. Sí es cierto, empero, que el término «germanía» significaba «hermandad», pero esto no es suficiente, por sí mismo, para hacer verdadera la opción a2. Hay que evitar, en todo caso, ítems que puedan plantear una discusión. Por ejemplo: a3. Las estrellas emiten luz que parpadea [?] Nota: Una persona bien informada puede juzgarlo como falso porque no es la luz enviada por las estrellas la que parpadea; sino que, a causa de las perturbaciones en la atmósfera, la luz de las estrellas parece que parpadea. 1.4. Respuesta no obvia: Para responder correctamente debe necesitarse un conocimiento especializado, no debe ser algo de sentido común. A un alumno sin conocimiento adecuado, una respuesta falsa de un ítem bien construido debe parecerle tan plausible como una verdadera. La respuesta correcta debe parecer obvia sólo a aquellos que dominan la materia del examen. He aquí un ítem de sentido común: al. Los alimentos congelados de alta calidad pueden estropearse al cocinarlos [V] Nota: ¿Quién puede dudar de la posibilidad de cocinar mal cualquier tipo de alimento? El ítem es tan obviamente verdadero, que no permite discriminar logros de aprendizaje altos o bajos; suena a frase introductoria de capítulo de libro que se va a desarrollar posteriormente. Esta norma aparece más claramente ilustrada en los ítems siguientes: a2. Añadiendo soluto, una disolución saturada sepuede convertir en sobresaturada [F] a3. Una disolución sobresaturada contiene más soluto por unidad de volumen que una disolución saturada [V] Nota: Parece razonable creer que, añadiendo más soluto a una disolución saturada, se puede conseguir una sobresaturada (a2). El que ha estudiado el tema sabe que el solmo que se añade a una disolución saturada no se disuelve; sólo evaporando el disolvente o enfriando, se puede conseguir que una disolución saturada pase a sobresaturada. El alumno que contesta únicamente por sentido común lo hará de manera errónea. Sin embargo, el mismo sentido común induce al alumno mal preparado a contestar correctamente el ítem a3, por lo que no cumple de forma adecuada la función de comprobar el aprendizaje. 88 La evaluación de aprendizajes Desde el punto de vista opuesto, se puede usar una lógica superficial para enmascarar la respuesta correcta, o incluso sugerir la incorrecta. Por ejemplo: a4. Unapelota de goma de lOOg flota sobre la superficie de una piscina de agua de manera que exactamente la mitad está sumergida. Para sumergirla completamente se necesita unafuerza adicional hacia abajo de 50 g [F] Nota: La pelota, de 100 g de masa, está sumergida hasta la mitad, lo que da a la mitad de 100 una verosimilitud superficial considerable. La verdad es que si su peso, provocado por los 100 g, la sumerge hasta la mitad, se necesitarán otros 100 g para sumergida toda. 2. Homogeneidad: Se recogen las sugerencias sobre la necesaria homogeneidad, tanto externa como interna, de las expresiones. 2.1. Concisión: La idea debe expresarse sin ambigiledades ni imprecisiones de lenguaje; debe reducirse a una sola proposición con oraciones cortas y tan simples, concisas y claras como lo permitan las recomendaciones anteriores. Debe, además, tener un significado completo, dependiendo totalmente del contenido interno, no del contexto externo, que en este formato no suele existir. Por todo lo cual, cada palabra del ítem es importante. Un ítem que se centra en un solo objetivo es generalmente más conciso, y por tanto más fácil de entender y más eficaz para evaluado, que el que se basa en varios. A esto se debe que el primero de los siguientes sea más fácilmente inteligible que los otros dos: al. La sal disuelta en agua sepuede recuperar evaporando el disolvente . [V] a2. La sal se disuelve en agua caliente y sepuede recuperar evaporando el disolvente [V] a3. La sal se disuelve en agua caliente; el azúcar en aguafría [V] 2.2. Determinantes específicos: Los profesores sin experiencia suelen usar palabras extremas como «siempre» o «nunca» en las afirmaciones falsas, mientras que usan atenuantes tales como <a = =y[(al 1. e) Una lirn.función [(x)= lim [(a) =[(xl f(x) [(xl es continua lim [(al liIll [(xl x->a b) x~a x->a en el punto a si: x~a al A··· .. ···m1 2. ¿'Cuál seria la gráfica de una función y 2 m continua en x = 2? y ,í-i ¡ ••••••• 2 f(2l = 3 a) O ~ f(2l = 2 *b) f(2) = 2 C) ~ í t ••f" no está definida en x=2 d) a2. Objetivo: Aplicar conceptos de mecánica. Prueba libre (RA): Resolver, en hoja aparte, los problemas que se proponen. Prueba objetiva (RL): Después de resolver cada problema, transcribir lo que se pide: 1. La evaluación de aprendizajes 150 1. Se lanza verticalmente hacia arriba un proyectil con una velocidad de 150 mis; calcular el tiempo que tarda en subir al punto más alto. Datos: v = cuaclOn utz'1'zzad a: t = E--·f Resultado: t = s 2. Un volante que está en reposo empieza a girar con una aceleración de 5 radls2 durante 20 min; en este instante se le aplica un freno que le comunica una aceleración negativa de 12 radls2. Calcular: a) la velocidad máxima alcanzada; b) el número de revoluciones totales dadas; y c) el tiempo que tarda en pararse desde que se le aplica elfreno. a) Ecuación utilizada: w = Resultado: w max = radls b) Resultados Darciales: Radianes antes defrenar= Radianes después defrenar= Vueltastotales= c) Ecuación utilizada: t = Resultado: t = s Aplicación: Se pueden entregar ambas pruebas, RAy PO, simultáneamente; o proponer en primer lugar que el alumno desarrolle la RAcon un amplio margen de tiempo y, transcurrido el mismo, entregarle la PO para que la responda en un tiempo limitado (alrededor del 25% del tiempo de la RA). Se corrige la PO, y se acude a la RAcuando se tengan dudas, no se entienda algo de la PO o se quieran evaluar razonamientos. 2. EXAMEN ORAL Los exámenes orales (EO) han sido los primeros instrumentos de evaluación utilizados para comprobar rendimientos de aprendizajes; fue el formato predominante aun antes de la aparición de las instituciones educativas. La práctica docente es pródiga en el uso de preguntas orales que sirven para ayudar al aprendizaje, así como de instrumento de evaluación. Por supuesto, estos propósitos están con frecuencia relacionados, y a veces son inseparables, particularmente cuando la naturaleza de la evaluación es formativa más que sumativa. Las preguntas orales como estrategias de enseñanza sin la formalidad del examen oral pueden cumplir, entre otras, las siguientes funciones: a) De repaso para, antes de una prueba, revisar y reformular lo mal aprendido. b) De introducción en sesiones de discusión y debate. Las preguntas ayudan a provocar la participación de los alumnos, activan sus conocimientos previos y modelan estrategias metacognitivas. Otros tipos de pruebas libres c) De animación del pensamiento creativo; es decir, para facilitar oportunidades de que los alumnos piensen crítica y creativamente. Por ejemplo, preguntar ,,¿yentonces qué?» o "si estuvieras afónico y no pudieras hablar en tres meses por prescripción facultativa, ¿cómo se debería modificar el programa de Arte Dramático en el que participas?», para ir más allá de la mera formulación de un dato, método o principio y estimular el uso de nuevos conocimientos mediante un nivel más alto de pensamiento. Aquí, sin embargo, nos interesan más las preguntas como instrumento de evaluación. En su forma clásica, son un formato de prueba libre que consiste en un diálogo con un examinador que plantea preguntas generalmente no relacionadas entre sí (en el cap. 10, se menciona la relación que existe entre el examen oral y la entrevista); por ello se adaptan mejor a objetivos de reconocimiento y comprensión de un conjunto misceláneo de conocimientos aislados, no estructurados, que el alumno debe repentizar. La función evaluativa que el interrogatorio oral parece lograr mejor que otros formatos es valorar la situación inicial de los alumnos para poner en práctica unos determinados procedimientos instruccionales. A partir de pistas no verbales que leen en las caras de los alumnos, los profesores formulan frecuentemente preguntas orales sucesivas, completadas con contrapreguntas adaptadas a las respuestas de los alumnos, para hacer diagnósticos sobre la raíz de los problemas de aprendizaje; es decir, saber si a los alumnos les falta información, tienen un error conceptual o han entendido mal un proceso, y así poder reajustar las estrategias de enseñanza. La improvisación inherente al diálogo ofrece, por añadidura, una gran flexibilidad para tener en cuenta circunstancias atenuantes de los fallos o pasar de los puntos fuertes a los puntos débiles del alumno. En suma, las preguntas orales pueden muy bien ser la primera técnica que activa inclusores con objeto de empezar una unidad de instrucción y la última de síntesis para cerrarla. Una dificultad obvia es su estandarización, por lo que resulta difícil dejar constancia de las preguntas de los profesores y de las respuestas de los alumnos; ello puede dar pie a grandes desconfianzas (Contreras, 1990), sobre todo si el examen no es público. Por otra parte, la fuerte incidencia del azar, al no preguntar lo mismo a todos los alumnos, y la valoración subjetiva del profesor suelen ofrecer pocas garantías de fiabilidad y objetividad en las calificaciones. Para mejorarlas, son especialmente importantes los métodos para formular las preguntas y registrar las respuestas, que estudiaremos a continuación. 2.1. Clasificación de las preguntas: El aspecto que ha recibido más atención de los investigadores hace referencia a la clasificación de las preguntas. Entre las muchas que se han utilizado, podemos citar las siguientes: 1. Libertad: Clasificación de las preguntas según el grado de libertad que dan al alumno para responder. 151 152 La evaluación de aprendizajes a) Cerradas o convergentes: Se dirigen hacia respuestas preestablecidas, o se dan en la misma pregunta pautas de la respuesta. Ejemplo: ,,¿Cuál es la fórmula de la longitud de la circunferencia?». b) Abiertas o divergentes: Dejan al alumno la exploración libre de la respuesta. Ejemplo: "Éste es el problema ...; proponga cuantas soluciones posibles se le ocurran para resolverlo». Esto no quiere decir que el profesor no se imagine la respuesta; pero es importante que no la condicione, ya que hay alumnos que, acostumbrados a complacer al profesor, buscan, aun en las respuestas que se dicen libres, lo que más pueda agradarle. 2. Función: Clasificación según la función de la pregunta. a) Evaluación: Para obtener feedback de si los objetivos han sido alcanzados. b) Metodológicas: Como estrategia para alcanzar nuevos objetivos. c) Procedimiento: No se espera una respuesta referente al aprendizaje. Ejemplo: ,,¿Todoel mundo oye bien?»,,,¿Osfalta algún libro de consulta?». 3. Capacidades: Clasificación de las preguntas según la capacidad con la que se relacionan (Sanders, 1966, es una referencia obligada y clásica de esta taxonomía, inspirada en la de Bloom; también se puede mencionar Walter Monroe citado en Nérici, 1970). Memoria: Preguntas cerradas y convergentes en las que se busca que el alumno reproduzca una información exactamente como la recibió. No se piden reflexiones propias, sino sólo reconocer una comparación leída, repetir datos, procedimientos, definiciones, etc., introduciéndolas con términos tales como ¿qué, cómo, cuándo? Ejemplo: ,,¿Quién inventó la bombilla?». Comprensión: Preguntas convergentes con cierta dosis de divergencia en las que se pide realizar operaciones mentales como: Traducción: Cambiar el lenguaje o forma de la información. Ejemplo: "Exprésalo con tus propias palabras». Interpretación: Descubrir relaciones entre datos explícitos. Ejemplo: ,,¿Cuáles la diferencia entre verbos regulares e irregulares?». Extrapolación: Se pide usar una información para sacar conclusiones. Ejemplo: "Cuáles son los dos términos siguientes de la sucesión 1, 4,9, 16 ..?». Aplicación: Estas preguntas requieren resolver problemas mediante la identificación de datos y selección de generalizaciones previamente aprendidas. Análisis: Se preguntan relaciones implícitas a través de razonamientos inductivos o deductivos; por ejemplo, relaciones causa-efecto, punto de vista del autor, etc. Ejemplo: ,,¿Cuáles la idea principal de lo que se ha leído?». Síntesis: Requieren creatividad y originalidad para llegar a conclusiones «nuevas»; para lo que se necesita tener una base sólida de conocimientos, una mente inquisitiva, sensibilidad ante los problemas, etc. Existe, sin embargo, la dificultad de evaluar la respuesta. Otros tipos de pruebas libres Valoración: Esperan un juicio (bueno/malo, correcto/incorrecto, etc.) sobre hechos de acuerdo con unos criterios. Por tanto, suponen tener criterios, conocer datos y comparados. Se puede pedir valorar conocimientos: ,,¿Porqué crees que ésta es una buena solución para poner en marcha este motor?»; o actitudes: ,,¿Cómote sientes con la negativa de tus compañeros a tu invitación?». 2.2. Construcción: A pesar de las afirmaciones altamente retóricas sobre su utilización para provocar y valorar capacidades mentales de orden elevado, las conclusiones de las investigaciones ponen de manifiesto que la naturaleza de la comunicación en las clases permanece en un nivel de preguntas que requieren mera memorización y, en algunos casos, comprensión literal CEbel y Frisbie, 1977). Razones de estas deficiencias pueden ser la carencia de buenos modelos, la creencia de que son fáciles de realizar, la falsa consideración de su intrascendencia para planteadas como tema de estudio, la escasa preparación del profesorado respecto de su formulación, etc. He aquí algunas sugerencias para hacer preguntas que propongan retos de cierta profundidad a los alumnos, y así ofrezcan una información significativamente válida para tomar decisiones instruccionales: a) Formulación de la pregunta: Elegir los términos adecuados para que la pregunta represente el nivel taxonómico deseado. Las preguntas básicas empiezan por «quién, qué y cuándo»: ¿Quién escribió El Quijote?, ¿Cuándo se escribió La Celestina? En cambio, las preguntas que exigen alguna relación suelen emplear los términos «cuál, por qué y cómo»: ¿Cuál es el argumento más convincente?, ¿Por qué es este editorial más persuasivo que aquel?, ¿Cómo se expresaron los Derechos Humanos en la Carta de la Naciones Unidas? b) TIempo de espera: Los profesores tienden a esperar muy poco antes de volver a formular o hacer nuevas preguntas; el tiempo medio transcurrido entre el fm de la pregunta y la nueva intervención del profesor es de un segundo. Generalmente, además, la nueva pregunta es más simple y de nivel inferior a la original. Rowe (1969, 1974) ha mostrado que se pueden obtener grandes beneficios con sólo aumentar el tiempo de espera a cuatro o cinco segundos. Así, los alumnos aumentarán la confianza en sí mismos, realizarán más digresiones e interrogantes en voz alta, que exteriorizarán al hacer más preguntas, darán respuestas más largas, espontáneas y apropiadas, añadiendo más razones para avalar sus deducciones. Por su parte, las habilidades de los profesores para hacer preguntas mejorarán; entre otras cosas, centrarán las estrategias de enseñanza en el alumno y aprenderán a mantener el nivel taxonómico a lo largo de una secuencia de preguntas. c) Constancia: Se debe seguir preguntando al mismo alumno aunque responda mal. Si es necesario facilitar la tarea en un primer momento, conviene formularle una nueva pregunta más básica, para continuar con 153 154 La evaluación de aprendizajes otras, hasta volver a la pregunta original, de acuerdo con la tradición «mayéutica». Los alumnos a quienes se olvida después de responder mal, aprenden dos cosas: las preguntas que se les hacen a ellos no deben ser demasiado importantes y que, la próxima vez, cuanto antes respondan mal, más pronto les dejarán en paz. d) No-voluntarios: El preguntar sólo a los voluntarios hace que los tímidos sigan siéndolo, que los que no atienden sigan sin atender y que la audiencia de aprendices se reduzca a los listos, constantes o muy motivados. Pedir, en cambio, que unos alumnos parafraseen o reformulen las respuestas dadas por otros fuerza una atención constante por parte de todos, fortalece y promueve una comprensión más profunda, y proporciona oportunidades adicionales para una evaluación formativa. e) Planificación: La mayoría de las buenas preguntas orales son tan difíciles de formular como el hecho de escribir buenos ítems. La mayoría de los profesores no somos capaces de improvisar buenas preguntas, por lo que las espontáneas tienden a promover un nivel de conocimiento memorístico más que de comprensión y aplicación. Por ello, algunos profesores preparan preguntas y las escriben en sus guías de clase. 2.3. Registro de datos: Si las respuestas a las preguntas orales se van a usar en una evaluación sumativa, se necesita llevar un registro permanente, que es preferible hacer de inmediato, no confiado a la memoria. Por supuesto, si las respuestas se van a usar enseguida para una evaluación formativa, el registro será menos necesario. Los fines de las preguntas y la naturaleza de las respuestas dictan las características de las formas de registro que se deben usar (las formas de registro son similares a las que se proponen en el cap. 10, al hablar de la observación). A manera de ejemplo, se ofrecen dos tablas que se diseñaron para fines distintos. En la primera se registra el tipo de pregunta que se hace a cada alumno y las respuestas correctas (las preguntas se señalan con una marca /; y las respuestas correctas con 0). Esto permite al profesor determinar el tipo de preguntas más usado, la participación de cada alumno, el éxito en general y en cada tipo de respuesta; el profesor puede también detectar si se olvida o atiende excesivamente a algún alumno: NATURALEZA DE LAS PREGUNTAS Predicciones / /0Valoración /00 0/0/ Explicaciones Aplicación/ Comprensión/ Memorización de datos, 155 Otros tipos de pruebas libres La tabla siguiente trata de mostrar, más que la naturaleza de las preguntas, la cantidad y calidad de la participación y de las respuestas de los alumnos: NATURALEZA DE LAS relación con reformulada /// // Relacionada Sin / PREGUNTAS parcialmente Pregunta Centrada en// el tema 2.4. Aplicación: Se aconseja este tipo al menos conveniente, la presencia directa apreciación simultánea independiente de requiera juzgar la capacidad de intervención rior ejercicio profesional. de examen cuando sea necesaria, o del alumno; cuando haga falta una varios examinadores; y cuando se en público, necesaria para el poste- Se desaconseja el examen oral, sin embargo, para realizar una evaluación sistemática de un repertorio de objetivos o si el número de estudiantes es grande, por el excesivo coste de tiempo en relación con el valor limitado de las informaciones aportadas. PRUEBA PRÁCTICA REAL 3. (Un proceso para evaluar trabajos de alumnos universitarios se puede encontrar en Contreras, 1990.) Aunque siempre debemos pretender que los alumnos no se queden en un «saber qué», sino que lleguen a un «saber cómo», esto es importante sobre todo en algunas materias, como las tecnológicas, para las que no es suficiente un dominio de objetivos del ámbito cognoscitivo, fundamentalmente teórico, sino que incluyen objetivos del ámbito psicomotriz con aspectos eminentemente prácticos. Pará evaluar estos objetivos en prueba práctica real (PR), el estudiante tiene que realizar presencialmente tareas que requieren la aplicación de destrezas en circunstancias semejantes a las requeridas en la vida profesional. El profesor realiza una observación directa de la actividad del alumno, que con frecuencia supone un coste elevado de tiempo de observación (es de aplicación aquí lo que se dice en el cap. 10, al hablar de la observación). Algunos ejemplos de PR son realizar operaciones: 156 La evaluación - de aprendizajes Clínicas, como controlar la presión arterial. Informáticas, como manejar un pe. De laboratorio, como hacer pesadas, valoraciones y disecciones. De campo, biblioteca, etc. Aplicación: Se aconseja evaluar a través de PRcuando sea necesario: a) Verificar la actitud, capacidad y reacciones de los alumnos ante situaciones complejas que necesitan de varios sentidos. b) Apreciar cómo el alumno se enfrenta con problemas reales en el laboratorio, taller o a la cabecera del enfermo, en contraste con la aplicación rutinaria de procesos o recetas prefabricadas. Se desaconseja, sin embargo, en el caso de experiencias que: c) Requieran individuos singulares no uniformes, tales como personas (por ejemplo, en el caso de enfermos que pueden demostrar más o menos buena voluntad), animales, plantas, piezas únicas. d) Supongan un riesgo para alguno de los que intervienen, es decir, para los mismos alumnos, pacientes o profesores. e) Sean grupos numerosos de alumnos y sea difícil para los examinadores observar a los candidatos durante las pruebas, justo en el momento en que hacen la demostración de las aptitudes requeridas. 4. PROYECTO En un período de tiempo variable, el estudiante debe realizar una actividad o tarea profesional que tendrá como resultado un producto para evaluar. Vale como estrategia de enseñanza-aprendizaje o evaluación. Aunque aparentemente se den las circunstancias adecuadas para utilizar este formato de evaluación, dado su elevado coste, sólo se podrá llevar a la práctica cuando haya un equilibrio del coste con la información recibida tanto por profesores como por alumnos. En todo caso, es imprescindible establecer una relación de confianza con los alumnos para evitar posibles fraudes. Mediante el proyecto (PY) se pueden evaluar objetivos de habilidades complejas, tales como análisis, síntesis y valoración, concretados, entre otros, en los siguientes aspectos: - La responsabilidad del compromiso personal. - Hábitos de trabajo individual y en grupo. - Dominio de los matices interdisciplinares de una tema donde se pongan de manifiesto conexiones entre varios aspectos de una asignatura, entre varias asignaturas o entre lo académico y la vida real. 157 Otros tipos de pruebas libres - Capacidades de comunicación (síntesis, estructuración, presentación de la información). Interesa más el producto que el modo de actuar del estudiante; sin embargo, el profesor, al examinar el producto, puede hacer también una evaluación indirecta, deduciendo el proceso seguido. Ejemplos: - Investigaciones de campo o bibliográficas, informes, etc. - Diseños de la organización de un taller, empresa, etc. - Realizaciones de disecciones, cortes, preparaciones mecanismos, piezas, etc. de laboratorio, No existe un solo tipo de Proyectos, ni una sola manera de realizados (Carrasco, 1991). En todo caso, el profesor debe proponer objetivos claros y asequibles de su asignatura, así como un esquema de trabajo; o también pueden seleccionarse entre los que propongan los alumnos. Si no se formulan previamente unos objetivos y un esquema de trabajo, el formato se convierte en prueba diagnóstico (PD) (cap. 10) de las tareas, apuntes personales, trabajos cotidianos, que cada alumno realiza dentro de su proceso normal y habitual de aprendizaje. SIMULACiÓN 5. El 2 de noviembre de 1963, el profesor J. P.Hubbard, Director Ejecutivo del National Board of Medical Examiners (NBME),propuso las características de este instrumento de evaluación en la conferencia: «prograrnmed Testing in the Exarninations of the NBMEE»,pronunciada en un Congreso organizado por Educational Testing Service de la Universidad de Princeton, NewJersey (McGuire, 1976). El fm de la simulación es medir, por simulación tan fiel como sea posible, la solución de una situación-problema cambiante, que evoluciona cronológicamente durante horas o días, y que representa vicariamente un caso real propio de la competencia profesional. Se trata sobre todo de objetivos que incluyen capacidades de tipo cognoscitivo superior y psicomotriz. Sustituye a la observación directa del comportamiento del alumno ante una situación real, especialmente en aquellos casos en que su duración es larga o encierra peligros para el alumno (es el caso de prácticas de laboratorio) o para la situación simulada (como en algunos casos clínicos). El método tiene características comunes con las PO, tales como su alto nivel de objetividad y la posibilidad de corrección mecanizada o informatizada. Recuerda también ciertos aspectos de la enseñanza programada, en la que el candidato avanza a través de una serie de problemas consecutivos. 158 La evaluación de aprendizajes La situación real se presenta por escrito en casos sencillos; se incluyen ejemplos en el Anexo 1. En casos más complejos, la presentación hay que hacerla a través de robot, ordenador, vídeo, diapositivas o películas. Como ejemplos, sirven el manejo de artilugios relacionados con la marina y la aeronáutica, o casos clínicos con objeto de evaluar la capacidad del estudiante de medicina para detectar o interpretar convenientemente síntomas anormales, de llegar a un diagnóstico razonable y demostrar un juicio válido en la elección de una terapéutica, como el que se incluye en el Anexo 2. El alumno debe seguir el proceso a lo largo del tiempo, dando respuestas y tomando decisiones ante cada paso, en forma de PLo PO. En las formas de simulación menos elaboradas, elfeedback a las respuestas de los alumnos se da al final. El peligro en las formas más elaboradas es que la desviación puede ser grande si cada respuesta depende de la anterior. En estos casos, el alumno debe conocer inmediatamente las consecuencias de sus respuestas, para pasar a la elección siguiente; por lo que hay que ir proporcionando las soluciones por escrito, y mejor a través de programas informático s interactivos. A la hora de corregir, se pueden penalizar las respuestas incorrectas; por ejemplo: las respuestas correctas se valoran con + 1, las incorrectas con-1 y las indiferentes con O. 159 Otros tipos de pruebas libres ANEXO I SIMULACiÓN DE QUíMICA ANALíTICA Objetivo de aprendizaje: Identificar cationes en una disolución problema siguiendo la marcha del HJ. Enunciado: Un problema líquido tiene reacción alcalina, fuerte olor a amoníaco e intenso color azul. Se verifican los ensayos siguientes: a) Una parte se acidula con HCI, obteniéndose un abundante precIpitado que se disuelve en ligero exceso de HCI, permaneciendo insoluble una parte pequeña del mismo, de color blanco. b) En la disolución clorhídrica, ajustada la acidez, se pasa HJ y se obtiene precipitado amarillo. No hay ni siquiera indicios de precipitado negro. c) El precipitado (b) se trata por Sx(NH)i aunque se añada exceso de polisulfuro. Se disuelve sólo parte de él, d) La solución (c) se acidula con HCI: PreCiPitado amarillo insoluble en HCI concentrado. e) En la solución procedente de separar el precipitado (b), se añade amo- níaco y se pasa HJ. PreCIpitado negro . .f) En el filtrado procedente de (e) se añade fosfato sódico. PreCiPitado blanco. ¿Qué iones puede contener el problema y cuáles existen con seguridad? SOLUCIÓN:A partir de losfenómenos que nos ofrecen los datos experimentales del enunciado, vamos sacando conclusiones sobre los cationes que no existen o es posible que existan, hasta llegar a la solución final. Líquido pH>7 Olor NH3 Color azul J- blanco con HCI Se disuelve parte POSIBLE NO EXISTE ENSAYO CrOt amarillo Sn2+,Sb,Pb J- blanco wot, VOi, Hg2+ J- negro A¡3+, Bi3+, Cr3+, Fe3+ Ag+ Ca2+, Sr2+, Ba2+ C02+, Ni Zn2+, Cd2+, Mn2+ J- coloreados Mg2+ VP4 J- azul K+, AsOl, K+, AsOl, MoOt MoOt wot Ag+ Ca2+, Sr2+, Ba2+ Zn2+, Cd2+, Mn2+ Mg2+ Cu2+ g+ 160 La evaluación ° wot,j, ENSAYO Zn2+ ,j, blanco NO EXISTE EXISTE POSIBLE Mn2+,j, verde Mg2+ Ca2+ Ag+ MoOt,j, pardo negro K+,AsO/ AsO/oCd2+ K+,AsO/,j, amarillo de aprendizajes K+ Ca2+, Sr2+, Ba2+ Ag+ Zn2+, Cd2+, Mn2+ Ca2+,Sr2+,Ba2+ K+,AsO/,j, amarillo Sr2+, Ba2+ Ca2+, Sr2+, Ba2+ Zn2+, Cd2+, Mn2+ Mg2+ ,j, Mg2+, Cd2+ amarillo ° Cd2+, Ca2+ ° Mg2+ SEGUROS: Cu2+, AsO/ POSIBLES: K+, Ag+, Sr2+, Ba2+ ESQUEMA PH > 7, NH3, color azul + HCI ____ a ppdo. ~A~ t ~ t se disuelve dlón. a + blanco HzS parte ~ b ppdo. ~A~ _ t t dlón. amarillo b + Sx(NH,J2 c ppdo. ~ permanece amarillo d ppdo. ~ amarillo dlón. ppdo. + ~ negro dlón. + Hel Na3P04 dlón. ppdo. ~ blanco dlón. 161 Otros tipos de pruebas libres ANEXO 11 CASO CLíNICO (preparado por el profesor J. P. Grangaud, Taller de Docimología de Timimoun, Argelia, 6-16 de febrero de 1977, Guilbert, 1989) Objetivo de aprendizaje: Atender por orden de prioridad a varios enfermos que se presentan simultáneamente. Enunciado del caso: Cuando llega a la sala de espera de la consulta externa de pediatría, encuentra Vd. a 15 niños acompañados por sus madres. Estos niños presentan las características siguientes: 1. Un niño de 3 años que presenta una afección del cuero cabelludo. 2. Un lactante de 6 meses que presenta una diarrea sin signos evidentes de deshidratación. 3. Un recién nacido de 10 días, ictérico. 4. Un niño de 8 años, febril. 5. Una niña de 3 años hipertérmica y con disfagia. 6 Una madre con un recién nacido bajo su manto. 7. Una niña de 15 meses, que presenta tos y fiebre. 8. Un lactante de 2 meses, con diarrea desde hace una semana, y que presenta signos evidentes de deshidratación. 9. Un lactante de 6 meses, cianótico, disneico y febril. 10. Un niño de 5 años que presenta una bradipnea respiratoria con quejido. 11. Un muchacho de 14 años con un flemón en la mano. 12. Una niña de 6 años con dolores abdominales desde hace 15 días. 13. Un lactante de 7 meses para una revisión sistemática. 14. Un niño de 8 años, no disneico, que consulta por palidez. 15. Un niño de 7 años que presenta una artritis de rodilla derecha. ¿QUEHARÍA VD. EN ESTE MOMENTO? (No tiene derecho más que a una elección) ETAPA A: DECISiÓN 1. Comenzar su consulta examinando a los enfermos por orden de llegada. 2. Hacer tomar la temperatura, pesar y tallar a todos los niños. CONSECUENCIAS 5 minutos después del comienzo de la consulta, la enfermera le llama a la sala de espera. El estado de uno de los niños se ha agravado. (ESCOJA OTRA ACCiÓN) -1 Durante este tiempo uno de los niños hace una parada respiratoria. (ESCOJA OTRA ACCiÓN) -1 162 La evaluación de aprendizajes NOTA 3. Examinar con prioridad a algunos de estos niños. Señale los tres niños que debe examinar en I +1 primer lugar. (PASE A LA ETAPA B, DONDE ELEGIRÁ ESTOS NIÑOS ENTRE LOS 15 QUE FIGURAN EN LA LISTA) 4. Enviar a radiología a los niños 7,9 Y 10. Mientras hace el traslado, uno de ellos presenta un síncope. (ELEGIR OTRA ACCiÓN) I -1 . SELECCIONE LOS NIÑOS NECESITAN ATENCiÓN INMEDIATA ENTRE LOS LA pulmonares ETAPA D) (PASE E) congestionado. Temperatura: 35°C; subictericia conjuntival .......................... Pliegue cutáneo e) EL abdominal. Globos Extremidades frías .. (+1) campos 90 Amin; Temperatura: ......................................................................................... 40,8QUE °C. Focos de estertores crepitantes en ambos (+1) DESCRITOS EN ENUNCIADO DELoculares CASO Yhundidos. NUMERADOS DEL1 AL 15. 9. Peso: 7,60; Altura: 64 cm; Perímetro craneal: 44 cm; Frecuencia respiratoria: 10. Mientras lemanto le llaman con urgencia ...................................................... CONSECUENCIAS ............................................................................................. NOTA 7. 2. 6. Se 1.Se Bajo le Mientras llama el aausculta está la sala de Vd. la de examinando madre espera a este un niño, recién otro nacido de en10 la días sala cianótico de35,8 espera y(O) ..(-1) (-1) 3. La enfermera le llama aurgentemente la le sala llama de urgentemente espera donde un niño presenta convulsiones ............ 8. 4. 5. Peso: Un niño 4,100; hace Altura: una parada 56 cm; respiratoria aencuentra Perímetro la......................................................................... sala de.................................................................. en craneal: espera la sala .................................................. 39 demuere cm; espera Temperatura: ............................. °C.(-1) (O) ión; Fór- 163 Otros tipos de pruebas libres 11. Durante el examen, otra madre irrumpe en la consulta con su hijo. El niño (-1) presenta convulsiones ...................................................................................... Un niño hace una parada respiratoria en de la................................................... sala de espera ............................. 12. 15. Es llamado con urgencia a la asala de (-1) (-1) 14. Se Hayle un llama niño con con urgencia convulsiones la sala en espera la desala espera espera ................................................... ......................................... 13. -1 1. Proceder al interrogatorio de la madre. Mientras Vd. interroga a la madre, la disnea se agrava y el niño se congestiona más. I 2. Explorar al niño por completo. Durante el examen del niño la cianosis aumenta. I O 3. Pedir unos análisis sistemáticos. En el momento de la punción venosa el niño hace una parálisis respiratoria. I 4. Hacer inmediatamente tratamiento sintomático. (PASE A LA ETAPA F) I +1 -1 NOTA ETAPAD: tico. O -1 +1 : niño El unniño, colapso. Durante el examen, el niño se una vuelve cianóCONSECUENCIAS respiratoria. (PASE Apresenta LA ETAPA G) Mientras pincha al hace parálisis 180.ESTE NIÑO(8) EN ESTE MOMENTO? Frecuencia cardíaca: urgencia. urea y glucemia. ¿QUE HARíA VD. CON 4. Hacer Hacer una inmediatamente 2. exploración , 164 er un er inmediatamente una exploración su flujo. La evaluación de aprendizajes ETAPA E: +1aH) ción. en Mientras convulsiones. -1 NOTA O El niño pone cianótico durante (PASE AseLA ETAPA La Temperatura interroga asciende la madre a 41,5 el niño °ela punentra , CONSECUENCIAS ¿QUE HARíA VO. CON ESTE NIÑO (9) EN ESTE MOMENTO? 3. Practicar una punción la naturaleza O-1 naturaleza -1 +1 cantidad calentarle? ETAPAF yde Hecho. TRATAMIENTO ETAPAH Not Not. Not congestioPOR PRESCRIPCiÓN líquido, Inscriba en ETAPAG +1 Hecho. O -1 carie? +1 la sión Etapa laRESIDENTE. yperfusu K lade Niño no Hecho +1 ¡Tiene ya Inscriba enANULADA sube aIde 36,5°e Temperatura EL Etapa la can¿Para Niño no con¿Para naturaleza Inútil. Hecho. cantidad Inscriba en laLa ANULADO Temperatura POR líquido, Jlalala lade Etapa inoportuna. Prescripción larefresperfusión y gestionado. CiÓN ANUPRESCRIPLADA. 41,5°e. flujo. 4. Dar oxígeno. del enema. nado. La cianosis desaparece. líquido 36,2°e del Otros tipos de pruebas TRATAMIENTO Noto ETAPAF Sin Antibiótico indicación. no -utilizable 1 en el ETAPAG rios suficientes No PRESCRIPCiÓN tiene criteANULADO. ANULADA. Inscriba la -1 + 1-1 -1 -1 O O Not. tiene criteANULADO. -1 +1 O-1 -1 ANULADO. ANULADO. indicación. en cación. PRESCRIPCiÓN la EtapaJ. Etapa Ken la Ningún criterio. ¡Sobre qué criposología Ninguna indiLADA. nistración. MOMENTÁNEAMENTEANUrapia. ina. uccinamicina. ETAPA 1: ETAPAJ: I ETAPA K: 165 libres ANULADO. nistración. cación. vía de admiposología la etapa K yla posología y O)I.LSON~Vla SV851nHd '" j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j Los profesores dedican casi una tercera parte de su tiempo a tareas relacionadas con la valoración (Stiggins, 1988); así, administran exámenes formales, aplican otros métodos orientados a recoger datos, hacen juicios y toman decisiones durante la instrucción. Profesores de todos los niveles consideran importante y crucial para aumentar el conocimiento de sus alumnos (Dorr-Bremme y Herman, 1986) la información obtenida por métodos diferentes a los exámenes tradicionales. La aplicación de estos otros instrumentos de evaluación, que agrupamos como pruebas diagnóstico (PD), supone el dominio de una serie de técnicas particularmente útiles en aquellas áreas donde no es fácil hacer valoraciones por métodos convencionales. Recogemos aquí de manera resumida los aspectos de aplicación más frecuente en contextos académicos de dos de estas técnicas: la observación (OB) y la encuesta (EN), ya que los interesados pueden ampliar fácilmente su estudio en las referencias bibliográficas citadas y, en general, en la extensa bibliografía disponible. OBSERVACiÓN 1. La observación se muestra como uno de los métodos más eficaces de recogida de información sobre la conducta; puede ser espontánea o estructurada (la problemática de las técnicas de observación está ampliamente tratada por Anguera, 1981, 1983, 1985, 1987, 1991a y 1991b). Observación espontánea La mayoría de las observaciones que hacen los profesores en el aula son incidentales. Tales observaciones son muy útiles para una evaluación formativa y suelen constituir el primer paso para, más tarde, hacer una observación planificada. 1.1. 170 La evaluación de aprendizajes Sin embargo, uno de los principales defectos de esta observación espontánea·es el proporcionar una «visión túnel»: vemos a los alumnos que llaman más nuestra atención, y pasan desapercibidas reacciones y actuaciones menos llamativas, que quizá sean importantes, de otros. He aquí algunos factores que pueden ayudar a evitado y a realizar una observación espontánea más eficaz: a) Prever una ajustada descripción de la situación observada y tener en cuenta sus circunstancias. b) Verificar de modo reiterado y conveniente las informaciones obtenidas; de lo contrario, no pueden considerarse representativas. Es claro que estos factores ya plantean la necesidad de una estructuración más decantada, transformando así la observación de espontánea en planificada. 1.2. Observaciónestrudurada Las observaciones estructuradas o planificadas pretenden obtener informaciones más precisas, por lo que dan resultados más objetivos y son de mayor valor educativo que los obtenidos en una observación espontánea. Para ello es preciso seguir unas pautas y utilizar unos instrumentos apropiados. o Pautas de observación 1. Subjetividad: «Mirar con orejeras» y «mirar sin ver» son expresiones comunes que traducen la manera selectiva de mirar que, sin darse cuenta, practican algunos observadores. Para superar esta posible subjetividad, una de las pautas más utilizadas es conseguir un «acuerdo entre jueces», valorando las diferencias halladas en el total de conductas registradas por ellos en el período total de observación. A partir de las frecuencias extremas detectadas, se proponen fórmulas para su corrección (Anguera, 1983; Fernández Ballesteros, 1983; Cabrera y Espín, 1986). 2. Imparcialidad: Las expectativas formadas a partir de nuestra experiencia previa son mejor observadas que aquellos sucesos que se ven como si fuesen ajenos. Por consiguiente, otra pauta de observación será no dejarse llevar por la tendencia natural a fijarse en detalles familiares al observador, o a concentrarse en aquellos aspectos de un suceso que mejor encajan en nuestros preconceptos. 3. Reactividad: Se refiere a la modificación de la conducta que pueden sufrir los sujetos observados por el solo hecho de saberse observados. Por consiguiente, entre las interferencias causales de la reactividad, que conviene aminorar, se pueden mencionar: la modificación del marco natural producida por el sistema de observación, la introducción de otros estímulos nuevos en el Pruebas 171 diagnóstico ambiente, algunas características de la personalidad de sujetos especialmente impresionables y de las conductas o aprendizajes que se van a observar. 4. Concreción: Se obtendrá una información más válida en la medida en que los comportamientos que se quieran observar se definan por rasgos más concretos, claros y medibles. También es conveniente que los observadores compartan el mismo sistema teórico de referencia. 5. Error de indulgencia: Se define como la tendencia general a hacer los primeros juicios con más generosidad. Por consiguiente, una sola y primera observación no es indicador cierto de la cualidad típica de una tarea; son necesarias observaciones repetidas sobre tareas similares para obtener pruebas de su consistencia. 6. Codificación: Los sistemas de codificación de la observación más eficaces son los más fáciles de aplicar porque contienen pocas variables de observación y emplean códigos simplificados. o Instrumentos de observación 1. Plantilla de observación: Los instrumentos más frecuentemente usados en la observación estructurada son las plantillas, casi siempre personales, de diverso tipo, en las que se van haciendo las anotaciones de manera sistemática y organizada. Un ejemplo de plantilla para observar «El libre uso de los últimos 10 minutos de clase» es la siguiente, que recoge un número de categorías suficientemente pequeña, una formulación clara de los comportamientos y una forma sencilla de registro: FECHA: 11 octubre materias ............................... 11 CLASE: 11 11111 11 PERIODO: Historia 3° 10 Y 5 del final 11 1111111111 1111111 1I 111111 11111 Últimos 5 minutos Entre el minuto 2. Registro anecdótico: Consiste en la descripción de comportamientos que se consideran importantes. Las características que debe poseer un buen registro anecdótico son: establecer un comportamiento típico basado en varias anécdotas, limitar cada anécdota o incidente a un hecho concreto, indicar las 172 La evaluación de aprendizajes circunstancias necesarias para una buena información y registradas. Estadillos para hacer registros anecdóticos podrían ser los siguientes: Nombre: Clase: Incidente: Fecha: Lugar: Nombre: Incidente Comentario Clase: Fecha Comentario: Nota: También se puede dejar el reverso de la ficha para los comentarios. El hacer un registro detallado de todos los incidentes puede ser muy laborioso; con frecuencia, es más realista disponer de estadillos sencillos similares a este: Alumno: Comentario Observador Incidente Lugar Clase: 3. Lista de corroboraciones: A veces se encuentra citada sin traducir como «check-list». Consiste en una relación nominal de conductas que enmarcan la observación. Este instrumento es útil para evaluar aquellas destrezas que pueden dividirse en una serie de actuaciones o comportamientos claramente definidos. A la hora de su elaboración debe identificarse la conducta que se desea evaluar, traducida a un conjunto de comportamientos que se puedan observar, ordenados y utilizar un procedimiento sencillo para indicar su presencia o ausencia. Ejemplos de lisca de corroboraciones para «Valorar el trabajo en 173 Pruebas diagnóstico clase» podrían ser los siguientes, el primero para cada alumno y el segundo para un grupo de alumnos de un aula: Alumno: _ ', .. '., ...... TIEMPOS 2" Semana Semana 13 Semana 4aSemana 33 ..•... < J > .., D. B. Colabora Presenta tareas .......... C. en trabajos Aula: . B 13 I 2" Juan . Laura . 33 13 I 23 33 13 4. Escalas estimativas o calificativas: Enriquecen la lista de corroboraciones, que se limita a señalar la presencia o ausencia de una característica observada, indicando el mayor o menor grado en que aparece. Estas escalas admiten varios modos de presentación: 4.1. Escala numérica: Asigna un número a cada grado de los comportamientos observados; por ejemplo, para el mismo objetivo de «Valorar el trabajo del alumno en clase»: 43 2 D. B. Colabora Presenta tareas C. en los trabajos en grupo 5 174 La evaluación de aprendizajes Debe haber un acuerdo previo sobre el significado de cada número, por ejemplo: 5 4 3 2 Excelente Bueno Normal Deficiente 5 4 3 2 1 1 Muy deficiente Siempre Casi siempre Con frecuencia Pocas veces Nunca Otras maneras de presentar escalas numéricas: +3 +1 +2 -1 o -2 MUY DEFICIENTE EXCELENTE 7 8 -3 6 4 5 3 2 MUY DEFICIENTE EXCELENTE 4.2. Escala gráfica: Difiere de la anterior en que sustituye los números por símbolos. En realidad, lo único que cambia es la presentación. Estas escalas tienen la ventaja de ser más expresivas que las numéricas. Por ejemplo: «Colabora en los trabajos comunes»: AA A Total acuerdo De acuerdo D Indiferente Desacuerdo DD I Total desacuerdo 4.3. Escala descriptiva: Describe con más detalle los grados de cada comportamiento. Estas escalas ayudan a evitar juicios demasiado genéricos y precipitados, lo que permite una evaluación más objetiva; por ejemplo, para evaluar «Laatención en clase»: -frecuencia. Reacciona 3. entiende. atención. IIamarle -Se Es inútil 2. 4. con 1. distrae. Se A Se frecuencia. veces distrae distrae se continuamente 5. Siempre se con -no -aPregunta siempre del No responde profesor. bien si la las preguntas Pruebas 175 diagnóstico 5. Escalas de actitud: Mención especial merecen las llamadas escalas de actitud, que recuerdan las listas de corroboraciones y las escalas de estimación, pero en las que es el mismo sujeto observado el que hace los registros. Evaluar actitudes no es fácil, pero eso no significa que debamos renunciar a su valoración (la problemática de la evaluación de actitudes está tratada, entre otros, por los siguientes autores: Manning y Rosenstock, 1971; Dawes, 1975; Hills, 1981: Hoover, 1977; Rosales, 1981; Morales, 1988; Bolívar, 1992). Estas escalas parten de la idea de que las actitudes se pueden inferir de las opiniones expresadas por los mismos sujetos y de que su «medida» se puede representar mediante una nota numérica. Se suelen emplear las siguientes escalas. 5.1. Escala Ordenada de Intervalos Iguales (Thurstone y Chave, 1929): Recuerda la lista de corroboraciones. La construcción de una escala de este tipo se inicia con la recopilación de un gran número de enunciados que expresen aspectos de la actitud que se esté considerando. Formulados esos enunciados -unos 100 al menos-, se pide a un número de «jueces» -25 como mínimo- que los clasifiquen en tres grupos según consideren que sean favorables, neutrales u hostiles a la actitud que se va a evaluar. Seguidamente se clasifican los de cada grupo en subgrupos, de forma que resulten nueve categorías en total: extremadamente favorable, favorable, moderadamente favorable; favorable-neutral, neutral, neutral-hostil; moderadamente hostil, hostil y extremadamente hostil. Se considera «buen» ítem o enunciado aquel en el que coinciden los «jueces» acerca de su posición en la escala. Finalmente, se seleccionan de 15 a 25 «buenos» ítems que cubran las nueve posiciones de la escala. A continuación transcribimos un ejemplo parcial, puesto que, como hemos dicho, los reales constan de 15 o 25 ítems, cuyo objetivo es «La actitud hacía los exámenes»: VALOR OPINIONES 1,S 9,0 Los exámenes se evitar porque son alienantes. deben incluir pruebas optativas. La preparación dedeben exámenes consume unaprendizaje. tiempo y unas No se debe obligar ayudan a nadie a estudiar aestrategia hacer con exámenes. más profundidad. son la mejor de energías que es mejor emplear en otras actividades. .. 3,0 7,S 6,0 4,S Se presentan los ítems ordenados al azar, no las valoraciones, para que los sujetos señalen las opiniones con las que están de acuerdo. La media de los valores de las opiniones elegidas es la «medida» de su actitud. Los resultados, más 176 La evaluación de aprendizajes que un valor absoluto, indican la posición relativa del individuo dentro del grupo. 5.2. Escala de Acuerdo o Concordancia (Likert, 1932): La escala Likert, que consiste también en una lista de enunciados, es el método más extendido para las mediciones de actitud. Las dos diferencias fundamentales entre esta escala de Likert y la de Thurstone son las siguientes: la valoración de los ítems se basa en datos empíricos, no en la opinión previa de los «jueces»; y el sujeto no señala simplemente si está de acuerdo o no con cada opinión, sino el grado de su acuerdo, generalmente de 1 a 5, de manera semejante a la Escala numérica. Debe procurarse que los enunciados, relacionados con la actitud que se quiere evaluar, estén formulados de forma afirmativa. Para evaluar la misma «Actitud hacia los exámenes», se presentarían una serie de ítems, por ejemplo: «Los exámenes se deben evitar porque son alienantes»: 5 4 3 2 Muy de acuerdo De acuerdo Indiferente En desacuerdo Muy en desacuerdo "Los exámenes son la mejor estrategia de aprendizaje»: 5 4 3 2 Muy de acuerdo De acuerdo Indiferente En desacuerdo Muyen desacuerdo 5.3. Diferencial semántico: Se considera, en general, como un buen instrumento para medir las actitudes positivas y negativas. Se utiliza para ello una lista de adjetivos y sus antónimos a través de siete intervalos. Para su construcción, deben tenerse en cuenta los siguientes pasos: Determinar la actitud-objetivo que se quiere medir. Seleccionar unos 10 pares de adjetivos que tengan que ver con la actitud que se pretende medir. No escribir siempre los positivos a la derecha y los negativos a la izquierda; más bien, intercambiarlos al azar. Esto evita la rutina del que va a contestar. - Dar instrucciones de cómo se contesta este tipo de escala, si se aplica a personas poco entrenadas. Algunos pares de adjetivos utilizados en escalas semánticas, que Osgood, Suci y Tannenbaum (1957) clasifican en evaluativos, de grado y de actividades, son los siguientes: Pruebas diagnóstico Activo Estático Grande Positivo Escaso Cierto Mínimo Frío Positivo Enfadado Pasivo Interesante Indeciso ACTMDADES: Tenso Cálido Sano Valioso Adecuado Bueno Enfermizo Amistoso Relevante Profundo Dinámico Perfecto .Informativo Máximo Fuerte Resuelto Útil Justo Significativo Relajado Débil Tranquilo Preparado Objetivo Negativo Improvisado GRADO: 177 El ejemplo siguiente, tomado de Filella e Immegart (1972), está pensado para evaluar la actuación de un grupo o equipo: 1. La participación en el trabajo por parte de todo los miembros del equipo fue: (7) MÁXIMA MíNIMA (1) 2. El interés en el trabajo puesto por todos los miembros del equipo fue: (7) GRANDE ESCASO (1) 3. Elliderazgo del grupo estuvo estructurado: (7) CONSCIENTEMENTE _ 4. Elliderazgo del grupo fue: (7) COMPARTIDO ESPONTÁNEAMENTE (1) CONCENTRADO EN UNOS POCOS (1) 5. El interés mostrado por los miembros del equipo por las ideas de los demás fue: (7) GRANDE ESCASO (1) 6. La libertad de los miembros del equipo para expresar abiertamente sus ideas fue: (7) GRANDE ESCASA (1) 7. La atención puesta por los miembros del equipo a su tarea fue: (7) MÁXIMA MíNIMA (1) 8. La eficacia de los miembros del equipo para llevar a cabo su tarea fue: (7) GRANDE ESCASA (1) 9. La or'Janización para el trabajo fue: (7) MUY ELABORADA _ SIN ELABORACiÓN (1) 178 La evaluación 10. El proceso del trabajo del equipo fue: (7) MUY PREPARADO _ IMPROVISADO (1) 11. El entendimiento entre los miembros del equipo fue: (7) PERFECTO _ 12. El grupo funcionó: (7) COMO UN EQUIPO de aprendizajes ESCASO (1) COMO UNA SUMA DE INDIVIDUALlDADES (1) 5.4. Otras escalas: Son muchas las variantes de escalas que se encuentran en la bibliografía especializada. La mayoría son de escasa aplicación en el contexto educativo que aquí nos interesa, por lo que nos limitamos a citadas: la escala de análisis jerárquico de Guttman (Edwards, 1957), la escala de Lunn (1969), las comparaciones emparejadas (Thurstone, 1947). Una buena revisión actual puede consultarse en Dunn-Rankin, Knezek, wallace y Zhang (2004). 2. ENCUESTA La encuesta (EN) pretende obtener datos a partir de procedimientos de interrogación (Davis, 1975; Hunkins, 1972; Cohen y Manion, 1990; Colas y Buendía, 1992). Se suelen clasificar en dos grupos: entrevista y cuestionario. 2.1. Entrevista La entrevista es una comunicación verbal y no verbal entre dos o más personas, que se lleva a cabo presencialmente en un marco espacio-temporal concreto y con unos objetivos previamente establecidos (Gaeta, 1975, estudia la entrevista en un contexto educativo y SilvaMoreno, 1987, en un contexto conductual más general). Por medio de la entrevista pueden evaluarse aptitudes, actitudes y objetivos de aprendizaje, en cuyo caso se convierte en un Examen Oral, que se estudió entre otras pruebas libres en el capítulo 9. Clasificación: Se proponen diversos criterios para clasificar las entrevistas. 1. Fines: Según los fines que se persiguen, las entrevistas pueden ser: a) De investigación: Buscan fundamentalmente la recogida de información significativa sobre una cuestión que intentamos investigar. b) De intervención: Buscan información sobre los problemas actuales del sujeto, y su relación con la historia personal del mismo. Pueden dividirse, a su vez, en: 179 Pruebas diagnóstico Diagnósticas, para alcanzar una información del entrevistado que permita determinar las causas de un problema. De tratamiento, cuando pretenden influir en un cambio de conducta o situación del sujeto entrevistado. La distinción entre diagnóstico y tratamiento es más bien formal, pues la intervención de todo diagnóstico inicia un tratamiento. 2. Estructura: Según e! protocolo, la entrevista puede ser: a) Estructurada: Cuando el protocolo se prepara cuidadosamente; es poco espontánea, pero permite cuantificar los resultados. b) Semiestructurada: El entrevistador sigue un protocolo previamente establecido, pero puede flexibilizar e! orden e incluso introducir preguntas nuevas. c) Libre: El contenido, el orden y la formulación de las preguntas no están determinados; se emplean preferentemente para obtener una información inicial exploratoria. Proceso: El proceso de una entrevista se puede descomponer en tres fases o momentos: 1. Preparación: Determinar los objetivos. Se ha de delimitar con claridad cuál es la finalidad de la entrevista. Esto conlleva que se confeccione una buena guía acorde con el nivel de estructuración. 2. Realización: Aplicar la entrevista. Para ello, e! entrevistador ha de dominar una serie de técnicas en relación con la comunicación, la comprensión de la personalidad del entrevistado y de la situación. Entre otras, estrategias verbales: silencios, repetición, aclaración, reflejo de sentimientos, interpretación, explicación, estímulo, sugerencias, persuasión, confianza y seguridad; y no verbales: aceptación, comprensión, sinceridad, adecuado contacto visual, posición de! cuerpo, situación espacial y calidez de las expresiones faciales. 3. Conclusión: Debe realizarse una síntesis de lo tratado. Toda entrevista va seguida de la elaboración de una serie de conclusiones sobre los objetivos que se han alcanzado, en qué medida se han alcanzado y las tareas para e! futuro. Cuestionario 2.2. El cuestionario es un tipo especial de entrevista. Puede utilizarse en una relación presencial, en cuyo caso nos encontraríamos ante una entrevista estructurada; o puede ser contestado sin intervención directa del encuestador, lo que se podría considerar como una entrevista a gran escala. Clasificación: Los modos de las respuestas determinan las distintas clases de cuestionarios. Reproducen la clasificación de ítems mencionada en el capítu- 180 La evaluación de aprendizajes lo 3, con la peculiaridad, compartida por todas las PD como instrumentos de evaluación por analogía, de que no hay respuesta correcta predeterminada, sino que todas tienen valor como información sobre la situación que se evalúa. Así, aparecen los siguientes cuestionarios: Dicotómicos CUESTIONARIOS (A) Múltiples excluyentes (B) Cerrados (2) Mixtos (3) {Abiertos (1) Múltiples no excluyentes (C) { Clasificación (D) 1. Cuestionarios abiertos: Son cuestionarios construidos con preguntas de respuesta abierta (RA). Ejemplo: ¿Quépiensa Vd. sobre el modo de evaluar que usan los profesores de Matemáticas en su Centro? 2. Cuestionarios cerrados: Son cuestionarios con distintos tipos de PO, por lo que, dentro de este tipo de cuestionarios, existen, a su vez, una serie de categorías: A. Dicotómicos: Cuestiones formuladas con alguno de los protocolos de los ítems V/F. Ejemplo: ¿Tiene vd. interés por el estudio de las Matemáticas? [SÍ/NO]. B. Alternativas múltiples excluyentes: Cuestiones con formato EM de única respuesta. Ejemplo: ¿En qué debe basarse la evaluación escolar? a) b) c) d) Los ejercicios de clase. Los exámenes tradicionales. Laspruebasobjetivas Trabajo de investigación. C. Alternativas múltiples no excluyentes: Cuestiones con formato EM de varias respuestas. Ejemplo: ¿En qué momentos los profesores debieran comunicar alumnos sus decisiones evaluativas? a) b) c) d) a sus Después de la sesión de evaluación. En público. Después de cada actividad de aprendizaje. Privadamente. D. Clasificación: Se pide al encuestado que valore las alternativas, de tal forma que la respuesta implique un orden en las categorías presentadas en el cuestionario; excepcionalmente, se puede pedir que sean proporcionadas por el mismo encuestado. 181 Pruebas diagnóstico Ejemplo: Según tu opinión, cita por orden de preferencia las disczplinas que más contribuyen a tu formación. 1° Educación Física. 2D Sociales. 3° Matemáticas. 3. Cuestionarios mixtos: Se trata de añadir alguna pregunta abierta al final de una pregunta cerrada. Tienen las ventajas de ambos tipos de pruebas. Ejemplo: Valora con Excelente(E) / Bueno(B) / Correcto(C) / Pobre(P) / No puedo juzgar (Nj) los materiales siguientes: A Texto: B. Clases: " C. Prácticas: D. Bibliografía: E/B/C/P/N] E/B/C/P/N] E/B/C/P/N] E/B/C/P/N] Añadir las razones para haber elegido la valoración "Pobre»: o Confección de cuestionarios 1. Factores: Una vez delimitado el campo de estudio, una primera tarea consiste en identificar las variables o factores que lo configuran. Se pueden utilizar para ello diversos procedimientos como definición de conceptos, construcción de indicadores de presencia o ausencia de los factores, etc. 2. Preguntas: La «bondad» de un cuestionario se juzga por la clase de preguntas que se proponen y por su adecuada formulación. Las preguntas de un cuestionario recaen sobre aquellas variables o factores respecto a los cuales deseamos tener información. Cuando se formulan las preguntas, es conveniente seguir una serie de reglas prácticas: a) La pregunta ha de ser clara y concreta, evitando palabras de significado confuso y ambiguo, o términos excesivamente técnicos y poco usuales. Cuando la información deseada depende de un factor excesivamente complejo, es preferible utilizar varias preguntas. Ese ideal de claridad exige también prescindir de frases negativas y de aquellas otras que condicionan la respuesta. b) Las preguntas han de tener «aceptabilidad» social. Esto supone evitar preguntas inadecuadas porque exijan una información confidencial, o pongan de manifiesto la ignorancia o falta de información del sujeto. c) Es conveniente seguir una adecuada distribución de las preguntas. Así, la técnica del «embudo» propone formular preguntas generales para pasar, a continuación, a otras más concretas. d) Por su parte, el fenómeno de la «irradiación» -influencia de la pregunta anterior- aconseja usar «preguntas amortiguadoras» que corten una 182 La evaluación de aprendizajes posible influencia y que, a la vez, permitan volver a la «batería» o conjunto de preguntas sobre la cuestión que se estaba abordando. e) Un cuestionario debe incluir preguntas «filtro» que permitan eliminar otras posteriores. 3. Población y muestra: Una tercera tarea es determinar la muestra y la población, a qué sujetos se va a aplicar la muestra y con cuántos se va a realizar el cuestionario. Es conveniente empezar por realizar una reducción provisional de! cuestionario para sometedo a una prueba técnica o pretest. Los resultados del análisis de este pretest contribuirán a completar una presentación definitiva. 4. Otras exigencias metodológicas: Hay que tener en cuenta también e! modo de administrado, que impone unas pautas de aplicación, la computación y codificación de los resultados y el análisis de las conclusiones de acuerdo con los objetivos. Presentación del cuestionario: Cuando se presenta un cuestionario deben tenerse en cuenta las siguientes consideraciones: a) Aspecto externo: - No demasiadas preguntas por página. Separar grupos o bloques de preguntas. Dejar espacio suficiente para las respuestas abiertas. Dibujar espacios (cuadros) para las respuestas cerradas. b) Secuencia de las cuestiones: - Agrupación lógica de preguntas por temas: hechos o acciones, intenciones, opiniones, motivos, etc. Colocar estratégicamente preguntas «f1ltro». Para evitar e! efecto «irradiación», introducir, cuando se cambie de tema, preguntas «amortiguadoras». c) Hoja de datos: - Prever la posible mecanización. Prever la tabulación en histograma, tabla de doble entrada, etc. Eliminar preguntas inútiles, repetidas, imposibles de tabular. d) Instrucciones: - Explicar objetivos y razones del cuestionario. Claridad y concreción acerca de la contestación a cada pregunta. Indicación sobre el cómo y el dónde se debe contestar. Añadir un ítem-muestra al principio. 5VBElnHd 5'" Ela 5V)I~5IHEI~)VHV) I Todo instrumento de evaluación ha de cumplir algunos requisitos para su consideración, estudio y aplicación. Entre otros, las propiedades psicométricas; pero no sólo tales propiedades, también otras características necesarias para una buena confección y utilización de las pruebas. De las propiedades psicométricas con sus métodos de estimación más usuales y de las otras características, se tratará brevemente en el presente capítulo; para finalizar con una normativa deontológica actualizada sobre la evaluación educativa. PROPIEDADES PSICOMÉTRICAS 1. Los tests y pruebas, para poder ser utilizados de una forma adecuada como insy trumentos científicos de medida, han de reunir una serie de propiedades requisitos métricos (Muñiz, 2003), de los que citamos los siguientes: Fiabilidad 1.1. Es la precisión con la que una prueba mide una variable dada. Se proponen diversas formas para realizar una estimación empírica del coeficiente de fiabilidad: a) Repetición de la prueba: Consiste en la aplicación del mismo test en dos ocasiones distintas al mismo grupo de alumnos. La medida de la fiabilidad del test quedará puesta de manifiesto por el grado de correlación entre las calificaciones resultantes de la doble aplicación. Tal correlación se expresa por medio del coeficiente de correlación de Pearson, que muestra el grado de estabilidad de los resultados para un período de tiempo: rXY L ZXZy N [1] 186 La evaluación de aprendizajes En donde: Zx = puntuación típica de un alumno en la la prueba (Zx Zy = x ;x x) = puntuación típica de un alumno en la 2a prueba (Zy=Y;y YJ N = número de alumnos. b) Formas paralelas: Se mide la fiabilidad mediante dos presentaciones diferentes del mismo test; es decir, en la segunda ocasión no se aplica la misma prueba, sino otra equivalente. La correlación entre los resultados de las dos pruebas se llama coeficiente de fiabilidad, que también se expresa por el coeficiente de correlación de Pearson. c) Dos mitades: Cuando se construye e! test, se divide en dos mitades equivalentes y se hace una sola aplicación. En este caso, e! coeficiente de fiabilidad se calcula con la fórmula de Spearman-Brown [4], en la que n = 2, resultando la expresión siguiente (Muñiz, 2003): 2 Pxx' Pxx' donde Pxx' = 1+ Pxx' [2] es la correlación entre las dos mitades del test. d) Coeficiente alfa: Mide la consistencia interna de un test. La fórmula, establecida por Cronbach (1951), es una generalización realizada a partir de la fórmula de Kuder-Richardson-20 (Muñiz, 2003): n ex = n 1 [1 - 0'2x J~l [3] cr~J En donde: n = número de ítems de! test. Lcrj cr~ = suma de las varianzas de los n ítems. = varianza de las puntuaciones en el test. Factores que afectan a la fiabilidad: Para que las pruebas sean más fiables, conviene que el profesor tenga en cuenta los siguientes factores: a) Longitud: La fiabilidad de una prueba o test es mayor si se incrementa e! número de ítems similares para comprobar el mismo objetivo. En principio, cuantos más ítems se utilicen, es decir, cuanto mayor sea la longitud de la prueba, mayor será la fiabilidad. 187 Características de las pruebas A partir de la fiabilidad del test original, se puede medir ese aumento bilidad mediante la fórmula de Spearman-Brown (Muñiz, 2003): npxx' Pxx' En donde: =1+ (n - Pxx' = fiabilidad del test alargado. Pxx' = fiabilidad del test original. n de fia- [4] 1) Pxx' = número de veces que se ha alargado el test. b) Variabilidad: Cuando aumenta la variabilidad de las calificaciones, la fiabilidad también aumenta. Validez 1.2. Es el grado de precisión con el que la prueba utilizada mide verdaderamente aquello para lo que fue diseñada como instrumento de evaluación. El punto de referencia que ha de tener en cuenta el profesor validez de un examen deben ser los objetivos. para medir la Se distinguen diferentes clases de validez; se habla de validez de contenido, de predicción y de constructo. Sin embargo, la validez es un concepto único; las citadas clases son más bien evidencias de las que se puede inferir la validez (Osterlind, 1998). Validez de contenido: Hay validez de contenido ítems de la prueba es lo suficientemente representativa que se pretende. cuando la muestra de para evaluar el objetivo En la construcción de la prueba, el profesor ha de tener en cuenta los índices de dificultad y de discriminación de los ítems propuestos. Validez de predicción: Trata de mostrar la medida en que una prueba predice o estima una actuación o conducta futura, llamada criterio. Para ello se utilizan las técnicas de regresión simple y múltiple (Muñiz, 2003). La regresión simple intenta pronosticar el criterio a partir de un solo test; la regresión múltiple, a partir de varias medidas predictivas. Validez de constructo: Se refiere a la recogida de evidencia empírica que garantice la existencia de un constructo de acuerdo con las condiciones propias de cualquier modelo o teoría científica. En el ámbito psicológico, se han utilizado dos procedimientos para obtener datos acerca de la validez de constructo, el análisis factorial y la matriz multirrasgo-multimétodo (Muñiz, 2003). 188 La evaluación de aprendizajes 1.3. Dificultad Se entiende por índice de dificultad (ID) de un ítem la proporción de sujetos que lo aciertan de aquellos que han intentado resolverlo. Varía de Oa 100. El índice de dificultad del ítem vendría dado por la siguiente fórmula (Muñiz,2003): A ID = - x 100 [5] N En donde: ID = índice de dificultad. A = número de sujetos que aciertan el ítem. N = número de sujetos que han intentado resolver el ítem. 1.4. Discriminación Se dice que un ítem discrimina si distingue entre aquellos sujetos que puntúan alto en la prueba y los que puntúan bajo. En consecuencia, el índice de discriminación (IDs) se define como la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en la prueba (Muñiz, 2003). El índice de discriminación, que varía de -1 a + 1, permite determinar en qué medida una pregunta es selectiva para distinguir un grupo competente de un grupo incompetente. Cuanto más elevado es este índice, la pregunta permite diferenciar mejor dichos grupos. Si un test, por ejemplo, se compone de preguntas con altos índices de discriminación, asegura una clasificación discriminativa de los estudiantes según su nivel de actuación. Dicho de otra manera, el test no concede ventajas a los alumnos débiles respecto de los fuertes; más bien ayuda a reconocer a los mejores estudiantes. Esto, por tanto, sólo quiere decir que una pregunta separa a los alumnos en la misma dirección (discriminación positiva) que el resto del examen, o en dirección contraria (discriminación negativa). Uno de los procedimientos para establecer el índice de discriminación es el siguiente: con las pruebas ya corregidas, se hacen dos grupos: mejores calificaciones y peores calificaciones. El índice de discriminación vendrá dado por la siguiente fórmula: IDs = As - Ar N 2 En donde: IDs = índice de discriminación. ~ = número de aciertos del grupo superior. [6] 189 Características de las pruebas Al = número de aciertos del grupo inferior. N = número total de sujetos corregidos. * * * Muchos de estos cálculos vienen facilitados por programas informáticos para PC como el ITEMAN (comercializado por Assessment Systems Corporation), que permite calcular todo tipo de índices de los ítems. Otros programas son «El Sistema Integrado de Procesado de Test» elaborado por Díaz, Neira, Alguero, Brugos, García, Ávarez y Soler (1999) y el ITEM (pomes y Arguelles, 1991) que proporciona un servicio de análisis de resultados; entre otros: a) Número de aciertos, fallos y omisiones, ción tipmcada de los individuos. puntuación absoluta y puntua- b) Calificación media, desviación típica y fiabilidad de la prueba. c) Corrección de acierto casual y detección de fraude. Además, el programa dispone de un servicio de archivo de hasta 999 pruebas diferentes, con 999 individuos, 150 ítems por prueba y cinco opciones por ítem, con la posibilidad de copiar, fusionar, depurar y modificados. OTRAS CARACTERíSTICAS 2. Los instrumentos los que se suelen edición de 1965, entre las diversas de evaluación deben cumplir también otros requisitos, entre citar los siguientes (Ebel y Frisbie, 1977, y sobre todo en la 1a citada por Guilbert, 1989, estudian ampliamente la relación características de un examen): Pertinencia: Grado de coherencia entre los criterios establecidos en la selección de las preguntas y sus fines. Las preguntas deben ser pertinentes en relación con el interés general de un tema, y no consecuencia del gusto y capricho del examinador. La noción de pertinencia se aproxima a la de validez de contenido. Equilibrio: Grado de concordancia entre la proporción de las preguntas que se seleccionan para cada uno de los objetivos y lo que sería una proporción ideal a juicio de expertos. Representatividad: plicar preguntas Es el equilibrio entre preguntas para un aspecto y olvidar otros. Equidad: Grado de concordancia tivos tratados en la enseñanza. entre las preguntas y objetivos, no multidel examen y los obje- Claridad: Supone unos enunciados en los que aparezca la información necesaria con expresiones directas simples, eliminando palabras innecesarias y datos poco relevantes. 190 La evaluación de aprendizajes Objetividad: Grado de concordancia entre el juicio del examinador y lo que, según criterio de especialistas independientes y competentes, constituye una «buena» respuesta. «Practicabilidad»: Está determinada por las circunstancias, especialmente espacio-temporales, necesarias para la construcción, administración, calificación e interpretación de los resultados de un examen. Dicho de otra manera, debe ser posible elaborar, responder y corregir la prueba. Este aspecto no debe prevalecer sobre la validez. Eficiencia: Es la cualidad de un examen que permite el mayor número posible de respuestas independientes por unidad de tiempo. Tiempo: Un instrumento de evaluación será menos fiable si, porque se dispone de poco tiempo, provoca la introducción de factores que distorsionen; por ejemplo, poco rigor, aproximación, riesgo, etc. El tiempo de examen puede ser un factor decisivo que condiciona su dificultad. Hay que escoger más bien problemas que necesiten una reflexión (comprensión, análisis), pero cuya solución pueda expresarse en un tiempo relativamente breve. Extensión: La fiabilidad de un instrumento de evaluación puede aumentarse (fórmula de «5pearman-Brown», citada al hablar de los factores que afectan a la fiabilidad) por adición de nuevas preguntas equivalentes a las del test original. «Especificidad»: Cualidad que hace que un alumno que no ha seguido las enseñanzas que han servido para construir el instrumento de evaluación, obtenga un resultado similar al esperado únicamente por azar. 3. RELACiÓN ENTRE LAS CARACTERíSTICAS DE UN EXAMEN Las propiedades y características hasta aquí citadas guardan entre sí una estrecha dependencia, de las que destacamos algunas. Validez y fiabilidad: Para que un instrumento de evaluación sea válido debe ser a la vez pertinente y fiable. La fiabilidad es una condición necesaria, pero no suficiente, para la validez. Así, resultados válidos deben ser fiables, pero resultados fiables no son necesariamente válidos. En consecuencia, los resultados poco fiables influyen en el grado de validez. Por otra parte, una prueba puede a menudo volverse más válida si se aumenta su fiabilidad. Validez y pertinencia: El concepto de pertinencia corresponde, más o menos, al de validez de contenido. El modo de establecer una y otra es análogo. Por definición, una pregunta es pertinente si sirve a la validez del ítem, y un ítem es pertinente si respeta las especificaciones de los objetivos establecidos durante su planificación. Características de las pruebas Pertinencia y equilibrio: El equilibrio no es más que una subcategoría del concepto de pertinencia. Pertinencia y equidad: Si el ítem se construye a partir de los objetivos, es pertinente por definición. En la hipótesis contraria, este ítem no es pertinente y; en consecuencia, tampoco es válido. Es equitativo en el primer caso, e injusto en el segundo. Sin embargo, un examen puede ser equitativo sin ser pertinente (válido de contenido) en la medida en que corresponde bien a lo tratado durante la enseñanza; lo que sucede es que no se deriva suficientemente de los objetivos propuestos. Equidad, especificidad y fiabilidad: Una prueba no puede ser equitativa si no es primero específica. Por otra parte, la especificidad, así como la equidad por razones análogas, afectará a la fiabilidad de los resultados. Fiabilidad, discriminación, extensión, homogeneidad (de las preguntas) y heterogeneidad (de los estudiantes): La fiabilidad está influida por la discriminación de los estudiantes, el número de ítems, la similitud de los ítems para medir un competencia dada y las diferencias de los estudiantes en relación con esa competencia. El poder discriminatorio de una pregunta está directamente influido por su nivel de dificultad. Así, el índice medio de discriminación de un ítem se verá igualmente afectado por la homogeneidad de las preguntas y por la heterogeneidad de los estudiantes. La equidad y la especifiCidad van a influir también en el poder de discriminación del ítem. Se ha demostrado que un test con un índice medio de dificultad del 50% tiene grandes probabilidades de ser fiable, en lo que concierne a su consistencia interna y homogeneidad. Formato y capacidad: El formato de la pregunta no condiciona el proceso mental que se pretende evaluar. Ningún instrumento de evaluación tiene la exclusividad cuando se trata de medir los procesos intelectuales más elevados y complejos. La forma de la pregunta no determina la naturaleza del proceso intelectual requerido para poder contestada. Otra cosa es que las conclusiones de la investigación al respecto ponen de manifiesto que los exámenes reales de nuestras aulas, sean pruebas libres (PL) o pruebas objetivas (PO), ponen en juego sobre todo la memoria y pocas veces exigen que el alumno haga un razonamiento. Formato y aprendizaje: El que la naturaleza del examen afecte a la preparación que de él hace el alumno viene atestiguado por la experiencia, la razón y la investigación. En relación con la influencia de los exámenes en el estudio y el aprendizaje, la cuestión realmente importante es cómo estas diferencias afectan a sus logros. A falta de investigaciones adecuadas, nos aventuramos a formular las siguientes inferencias: a) El tipo de estudio y logro que un formato de examen estimula depende probablemente más de las preguntas que se hacen que de la manera en que deban respondedas los alumnos. 191 192 La evaluación de aprendizajes b) En la medida en que los exámenes en diferentes formatos miden los mismos tipos o aspectos de logros, estimulan el mismo método de estudio y tienen los mismos efectos en los logros. Muchos factores, diferentes de los exámenes, afectan a cómo y con qué éxito estudian los alumnos. Estos factores interaccionan de maneras complejas para facilitar o inhibir el aprendizaje. Por tanto, es muy pequeña la probabilidad de que la investigación demuestre alguna vez claramente qué forma de examen, respuesta abierta (RA) o prueba objetiva (PO), produce una influencia más beneficiosa en el estudio y el aprendizaje. Dificultad y capacidad: Se tiene tendencia a confundir la dificultad de una pregunta con la complejidad del proceso intelectual que mide; sin embargo, no hay relación entre ellas. Una pregunta que sólo requiera memoria puede ser más difícil, a causa de la naturaleza excesivamente especializada de la información exigida, que una pregunta que requiera interpretación de datos; y al contrario, una aplicación de principios puede ser más fácil, si los principios son familiares al alumno y si los datos que se han de interpretar son simples, que la simple memorización de un principio complejo. Dicho de otro modo, la dificultad de una pregunta y la complejidad de las instrucciones que la acompañan no están necesariamente unidas a la naturaleza del proceso intelectual puesto en juego. El cuadro siguiente (versión simplificada de la propuesta por Cormier, 1977) resume las relaciones entre las principales características que debe tener un examen: VALIDEZ ~ FIABILIDAD PERTINENCIA ~ OBJETIVIDAD DISCRIMINACiÓN ~ DIFICULTAD PRACTICABI LIDAD Para que una prueba sea válida, es necesario que sea pertinente y fiable; pero puede ser fiable y no válida. De manera semejante, para que sea fiable, ha de ser objetiva y discriminante; lo contrario no es verdad. Para que discrimine, debe poder llevarse a la práctica y tener un índice de dificultad adecuado, no viceversa. 193 Características de las pruebas PRINCIPIOS ÉTICOS Y DEONTOLÓGICOS DE LA EVALUACiÓN El código de la American Psychological Association, 1992 (APA)dedica un apartado completo a los distintos aspectos de la evaluación, del que presentamos, adaptadas a los docentes, las siguientes directrices (Muñiz, 1997b). 1. Evaluación en un contexto profesional: Los profesores únicamente llevan a cabo evaluaciones en el contexto de su tarea docente; además, dichas evaluaciones educativas se basan en una información suficiente para proporcionar una fundamentación adecuada de sus conclusiones.. 2. Competencia y uso apropiado de evaluaciones: Los profesores, por un lado, elaboran, aplican, puntúan, interpretan o usan técnicas de evaluación de manera que tanto su proceder como los fines perseguidos son apropiados de acuerdo con las conclusiones actualizadas de investigaciones acerca de la utilidad y pertinencia de dichas técnicas; y, desde otro punto de vista, se abstienen del uso inapropiado de técnicas de evaluación y toman medidas razonables para evitar que se use inadecuadamente la información proporcionada por estas técnicas; esto incluye el abstenerse de facilitar las puntaciones de los exámenes y otros datos a personas ajenas a los estudiantes. 3. Construcción de exámenes: Los profesores, al construir exámenes, utilizan procedimientos científicos y conocimientos profesionales actualizados para su diseño, estandarización, validación, reducción o eliminación del sesgo y recomendaciones de uso. 4. Uso de la evaluaciones: Los profesores, al aplicar, puntuar, interpretar, o utilizar técnicas de evaluación, conocen su fiabilidad, validez, estudios sobre la estandarización y resultados y aplicaciones adecuadas. Además, son conscientes de los límites de la certidumbre con la que pueden hacerse diagnósticos, juicios y predicciones acerca de las personas, por lo que intentan identificar las situaciones en las cuales determinadas técnicas de evaluación o normativas no deben ser aplicadas, o pueden requerir un ajuste, debido a características de la persona tales como género, edad, raza, etnia, nacionalidad, religión, orientación sexual, discapacidad, idioma o estatus socioeconómico. 5. Interpretación de los resultados de la evaluación: Al interpretar los resultados de la evaluación, los profesores tienen en cuenta los distintos aspectos de las pruebas y las características de la persona evaluada que puedan afectar sus juicios o reducir la presión de sus interpretaciones. 6. Personas no cualificadas: Los docentes no promueven el uso de técnicas de evaluación educativa por parte de personas no cualificadas. 4. 194 La evaluación de aprendizajes 7. Pruebas obsoletas y resultados desfasados: Los profesores no basan sus decisiones en medidas y pruebas obsoletas, inapropiadas para los objetivos de sus programaciones. 8. Calificación e interpretación: Los profesores, que ofrecen procedimientos de calificación o evaluación a otros docentes, describen con precisión la finalidad, normas, validez, fiabilidad y aplicaciones de los procedimientos, así como cualquier cualificación especial aplicable a su uso. 9. Explicación de los resultados de la evaluación: Los profesores garantizan una explicación de los resultados, utilizando un lenguaje que pueda entender la persona evaluada u otra persona legalmente autorizada. 10. Mantenimiento de la seguridad de los tests: Los profesores se esfuerzan para mantener la integridad y seguridad de los exámenes de acuerdo con la legislación vigente y los requerimientos del código ético. SVB:lnHd :la O)NVB Un Banco de Pruebas es un archivo de preguntas válidas para comprobar con fiabilidad la consecución de un repertorio de objetivos de aprendizaje. La confección y, en su caso, la informatización de un Banco de Pruebas debe servir principalmente para poder diseñar un examen de características determinadas por el profesor. Un repertorio de pruebas propuesto directamente a los alumnos puede tener el peligro de llevades a «estudiar para el examen» y, así, viciar su función de control del aprendizaje y, en general, de todo el proceso de instrucción. Enseñar y estudiar para el examen es una mala práctica, porque todo examen representa una muestra de los muchos ítems posibles de una programación para deducir, por extrapolación, si el alumno ha aprendido bastante más que la mera solución de unos pocos ítems. Aprender únicamente las respuestas hace que la prueba global dé una indicación equivocada del rendimiento del alumno y resta significado a la calificación basada en tales resultados. Las características de un Banco de Pruebas, en general, son las siguientes: 1. Clasificación: Para poder localizadas fácilmente, las pruebas deben estar bien clasificadas, ya que lo que no está clasificado «no existe». A continuación, glosamos algunos criterios recomendables para clasificar las pruebas de un «banco». 1.1. Objetivo: Cada pregunta debe estar relacionada con un objetivo de aprendizaje, identificado al menos esquemáticamente, por un lado, con un contenido científico y, por otro, con la capacidad o proceso mental que el alumno debe realizar sobre dicho contenido. Creemos que así es más fácil localizados. Aunque en teoría podrían figurar más, se recomienda que la capacidad de los objetivos de referencia sea la comprensión, es decir, preguntas que pretenden comprobar si el alumno es capaz de traducir afirmaciones a diferentes lenguajes o a distintos grados de abstracción, de interpretar datos, métodos o conceptos y de extrapolados. También se suelen considerar objetivos cuya capacidad es la aplicación, es decir, si el alumno es capaz de identificar las limitaciones del ámbito de aplicación de un principio, de seleccionar la fórmula adecuada y de relacionada con la situación problema para sacar conclusiones en casos concretos. 198 La evaluación de aprendizajes En consecuencia en los «bancos» no se suelen utilizar objetivos que encierren capacidades más complejas, como analizar, sintetizar o valorar (Álvarez, Soler, González-Pienda, Núñez y González-Castro, 2004); pero sobre todo ha de evitarse la simple memorización, por lo que es indiferente, en la mayoría de los ítems, que el alumno los realice con o sin libros; incluso con éstos es posible que, si no domina la materia, le resulte más difícil realizar el examen, debido a la confusión que le puede producir una consulta en un tiempo limitado. 1.2. Nivel: Es obvio que las pruebas deben enmarcarse en una programación contextualizada en un nivel. 1.3. Diseño: Es la característica más crítica y la que da unidad a un conjunto de pruebas. Se trata de explicitar, por un lado, la generalización de la situación en que se va a situar al alumno (se podrá materializar en una serie casi indefinida de pruebas) para que demuestre la adquisición del objetivo correspondiente; dicho de otra manera, son los indicadores observables para poder deducir la adquisición de dicho objetivo. En teoría se pueden concebir varios diseños distintos para comprobar el mismo objetivo. Por otro lado, concreta también el formato del ítem. Si el formato es de elección múltiple (EM), hay que recordar que la base debe ser autosuficiente, es decir, deben permitir, eliminando los distractores o con una simple adaptación gramatical, utilizadas automáticamente como preguntas clásicas de respuesta abierta (RA).Otra alternativa es la utilización de estos ítems como pruebas mixtas, exigiendo que el alumno justifique la elección de su respuesta o incluso por qué elimina las incorrectas. A veces, cuando se desea hacer un amplio barrido de varios conceptos, se fuerza el formato EM para convertido en respuestas combinadas. 1.4. Otras características: En cada prueba, es útil añadir lo siguiente: a) Diagnóstico, es decir, la respuesta correcta a cada ítem, y todas aquellas consideraciones que se crean necesarias para corregidos. Se ahorrará tiempo y esfuerzo si, al mismo tiempo que se formula el ítem, se escribe la respuesta. Es recomendable consignadas aparte para no condicionar la resolución de las cuestiones. b) Observaciones, tales como tiempo de aplicación, recursos que se permita utilizar a los alumnos, etc., y sobre todo alternativas de interpretación o dificultades especiales que encuentran los alumnos debido a sus preconceptos. c) Análisis: Se recogerían en este campo los resultados del estudio psicométrico del ítem, es decir, los índices de dificultad, discriminación y demás datos de interés de la historia de aplicación de cada ítem. 2. Codificación: En los «bancos», cada prueba debe quedar identificada con un código. En los ejemplos que incluimos al final del capítulo, está formado por una letra y seis números para significar los extremos siguientes: Banco de pruebas 2.1. Capacidad: La letra corresponde a la capacidad. Para ello es obligado referirse a la taxonomía de capacidades propuesta por el equipo de Bloom (1972). En esta taxonomía, tantas veces criticada, con frecuencia crípticamente citada y hasta el momento no mejorada, se ordenan las capacidades cognoscitivas del 1 al 6 (1-Memorización, 2-Comprensión, 3-Aplicación, 4-Análisis, 5-Síntesis y 6-Valoración). Puesto que en los ejemplos que aquí incluimos solo se pretende comprobar la comprensión y la aplicación, el código de las pruebas empieza con una e (comprensión) o una a (aplicación) respectivamente. 2.2. Objetivo: Los primeros dos dígitos hacen referencia al número de orden del objetivo de aprendizaje de la programación de aula correspondiente. 2.3. Diseño: Los dos dígitos siguientes recogen el diseño (01, 02, etc.). 2.4. Prueba: Hemos reservado los últimos dígitos para identificar cada prueba (desde el 01 al 99; si se prevén más de 100 pruebas equivalentes del mismo objetivo y diseño, habría que reservar tres o más dígitos). Por ejemplo, una prueba identificada con c.30.02.05 quiere decir que pretende comprobar comprensión (c); se refiere al objetivo (30); recoge el diseño (02) de los posibles para comprobar dicho objetivo; y en el banco figura en el lugar quinto (05). 3. Utilización: En el capítulo 16, recogemos una serie de consideraciones necesarias para llevar a la práctica el proceso de examinar; aquí adelantamos algunas. Es obvio que, para comprobar la consecución de un objetivo de aprendizaje, hay que incluir alguna prueba clasificada dentro de dicho objetivo. El conocimiento, producto del aprendizaje significativo, no está ato mizado; por el contrario, se almacena de una manera relacionada en racimos de conocimientos afines. Por esta razón, aunque el objetiVO tiene siempre un carácter general y la prueba un carácter particular, se propone la hipótesis de que, seleccionando una muestra de pruebas, incluso pertenecientes a cualquiera de los posibles diseños, se puede extrapolar, de su éxito, la consecución de todo el objetivo. Esta hipótesis, así como la determinación del número de pruebas equivalentes necesarias para lograr una observación controlada de la que deducir resultados válidos y fiables, es necesario sometarla a la oportuna investigación. Conviene tener en cuenta que, al seleccionar algunos de estos ítems para confeccionar un examen, habrá que modificar el orden de los distractores para que, como ya se subrayó, el número de veces que aparece la respuesta correcta en cada posición se equilibre. 199 200 La evaluación de aprendizajes 4. Ejemplos de bancos 4.1. Matemáticas (Teresa y Luengo, 1996) OBJETIVO (4) CAPACIDAD: CONTENIDO: Comprensión. Concepto de derivada de una función en un punto. DISEÑO (1): Se trata de comprobar si se comprende el concepto de derivada de una función en un punto, para lo cual se propone en primer lugar que se seleccione las expresiones que corresponden a la derivada de f en un punto y, haciendo uso del resultado obtenido y conocidos los valores determinado que toma la función en las proximidades del mismo, se estime el valor de la derivada de la función en dicho punto. c.04.01.01 PRUEBA 1) ¿Qué expresiones ción f en x = 1? 1. 2 entre las que siguen corresponden a la derivada de la fun- lim f(x) - f(l) x-H x- 1 . f (1 + h) .llm-----h f (1) h~O 3. 1im [f (x + h) - f (h)] x~l 4. 1im f(l) - f(h) h~O a) b) c) 1 Y3 2 y4 d) 3 y4 h 1Y2 2) Si de la función f se conocen los datos que figuran en la tabla de la derecha, ¿cuál sería el valor estimado de f'(l)? a) 1 b) 2 3 4 c) d) x.. 0,8 0,9 0,95 1 1,01 1,1 1,15 f(& 3,64 3,81 3,9025 4 4,0201 4,21 4,32 201 Banco de pruebas PRUEBA c.04.01.02 De la función f se conocen los datos que figuran en la tabla de la derecha. -0,15 -0,10 -0,01 fC& 1,08 1,069 1,0097 O 1 K.. 0.01 0,1 0,15 0,9897 8,87 0,789 1) ¿Cuáles de las expresiones que siguen corresponden a la derivada de f en el punto x = O? 1. l. lm-----f(O + h) 2 • 1 lID . x-tO 3. h h-tO - f(O) _-_1 _f_(x_) X 1iID f(x) - f(O) x-tO X - O 4 • l' lID f(h) - 1 h-tO a) b) c) d) h Sólo la 1 y la 3 Sólo la 2 y la 3 Sólo la 3 y la 4 Todas 2) Teniendo en cuenta los valores de f que figuran en la tabla, ¿cuál sería el valor estimado de f' eO)? a) -2 b) -1 c) O d) 1 202 La evaluación OBJETIVO (4) CAPACIDAD: CONTENIDO: de aprendizajes Comprensión. Concepto de derivada de una función en un punto. DISEÑO (2): Para comprobar si se comprende el concepto de derivada de una función, se propone que, con la ayuda de la gráfica de la función y conocidos los valores que toma en las proximidades de un punto, se estime el valor de la derivada de la función en dicho punto, como el límite de los cocientes f(x) - f(a) ----- x-a . (pendlentes , de las secantes que se apoyan en el). PRUEBA c.04.02.01 La gráfica de más abajo corresponde a la función f, de la que se conocen más los valores que figuran en la tabla siguiente: x 3 fW- 5 3,25 5,5 5,9 4,0625 4,8025 6 5 ade- 1,25 1) ¿Cuál es el valor de la pendiente de las secantes AB, donde la abscisa de B va tomando los valores x de la tabla, desde x = 3 hasta x = 5,9? a) b) c) d) 1,25; 1,75; 1,875; 1,975 2,25; 2,45; 2,475; 2,495 -2,25; -2,45; -2,475; -2,495 -1,25; -1,75; -1,875; -1,975 2) En consecuencia, a) de las afirmaciones lim f(x) = 2 x-t6 e (6) c) =2 f(3) = -1,25 d) lim f(x) = -2,5 b) x-t3 que siguen, ¿cuál puede ser cierta? 203 Banco de pruebas PRUEBA c.04.02.02 A determinada función f le corresponden la gráfica de la derecha y los valores que figuran en la tabla siguiente: 25,75 ÍOO5,4375 5,724 5,64 2\; 2 I~I 5 2,5 2,05 2,2 1) ¿Cuál es el valor de la pendiente de las secantes AB, donde la abscisa de B va tomando los valores x de la tabla, desde x = 5 hasta x = 2,05? a) b) c) d) -1; 1,75 ; 1,950; 1,975 1; -1,75; -1,950; -1,975 1,25; 0,625; 0,55; 0,52 -1,25; -0,625; -0,55; -0,52 2) Teniendo en cuenta el resultado obtenido, ¿cuál de las afirmaciones que siguen puede ser cierta? a) lirn f(x) = -1/2 x--.2 b) f~ (2) = -112 c) lirn f(x) = 5 x--.2 d) f' (5) = 5/4 204 La evaluación OBJETIVO (5) CAPACIDAD: CONTENIDO: Aplicación. Derivabilidad de una función límites. Derivadas laterales. de aprendizajes en un punto. Cálculo de DISEÑO (1): Para comprobar si se sabe aplicar el concepto de derivada de una función en un punto, procurando controlar el proceso de resolución, a través de varias preguntas y a partir de la expresión de una función, debe procederse al cálculo de las derivadas laterales y decidir sobre la derivabilidad de la misma en dicho punto. PRUEBA a.05.01.01 Considérese la función dada por f (x) = -- x 1+ Ixl 1) ¿Cuál es el valor de las derivadas laterales de f en x=O? a) b) c) d) e (0)= e (0)= e (0)= f~ (0)= 1 f~ (0)=-1 -1 Yf~ (0)= 1 f~ (0)= 1 Yf~ (0)=-1 2) ¿Es derivable f en x enx = O? a) b) c) d) = O? En caso afirmativo, ¿cuál es el valor de su derivada Sí, y su derivada en x = O es l. Sí, Ysu derivada en x = O es-l. No, al ser distintas las derivadas laterales de f en x = O. No, al estar definida f por medio de valores absolutos. PRUEBA a.05.01.02 si x:/:.O Dada la función f(x) = {--" 1) ¿Cuáles de las expresiones 1. 2. f' (O)= lim + h---*O+ , . f_ (O) = hm t---*o- 3. f'(O) =lim~ x---*o 4. f'(O) =O que siguen son correctas? f(h) h -- 1 1+ e 1+ Sl X = O e 205 Banco de pruebas a) 1Y2 b) 1 y4 c) d) 2y3 Todas 2) ¿Cuál es el valor de las derivadas laterales de f en x a) b) c) d) f~ (O) = f~ (O) = O f~ (O) = f~ (O) = 1 (O) = O; f~ (O) = f~ (O) = 1; f~ (O) = e 3) ¿Es derivable f en x enx = a) b) c) d) = O? 1 O = O? En caso afirmativo, ¿cuál es el valor de su derivada O? Sí, y su derivada en x = O es O Sí, Ysu derivada en x = O es 1 No, al ser distintas las derivadas laterales de f en x No, al no estar definida f en x = O =O 206 La evaluación OBJETIVO (5) CAPACIDAD: CONTENIDO: Aplicación. Derivabilidad de una función límites. Derivadas laterales. de aprendizajes en un punto. Cálculo de DISEÑO (2): Para comprobar si se sabe aplicar el concepto de derivada de una función en un punto y con el fin de controlar el proceso de resolución, a partir de la expresión de una función, con el apoyo de la gráfica de la misma y a través de varias preguntas debe procederse al cálculo de las derivadas laterales y decidir sobre la derivabilidad de la misma en dicho punto. PRUEBA a.05.02.01 La función f(x) = sen Ixl tiene por gráfica la que figura a la derecha: 1) ¿Cuál es la expresión vadaf'(x)? a) b) de la función deri- f'(x) = eas Ixl, para x #f'(x) = leas xl O e) f'(x) = { - eas x para x> x~O d) f'(x) = {- eos eas x para x > f'(x) = {-3X~ x ~O b) f' (x) = { -3x3X~ Sl s ~ x> x ~ O O e) f'(x) = 13x21 d) f'(x) = 3x2 2) ¿Cuál es el valor de las derivadas laterales de f en x a) b) c) d) = O? e (O) = f~ (O) = o e (O) = f~ (O) = _00 e (O) = f~ (O) = +00 e (O) = -00; f~ (O) = +00 3) En el caso de que exista, ¿cuál es el valor de feO)? a) b) c) d) -00 +00 O No existe Diagnóstico: 4.01.01.1-a) / 4.01.01.2-b) / 4.01.02.1-d) / 4.01.02.2-b) / 4.02.01.l-a) / 4.02.01.2-b) / 4.02.02.1-d) / 4.02.02.2-b) / 5.01.01.1-a) /5.01.01.2-a) / 5.01.02.1-a) / 5.01.02.2-d) / 5.01.02.3-c) / 5.02.01.l-d) / 5.02.01.2-c) /5.02.01.3c) / 5.02.02.1-a) / 5.02.02.2-a) /5.02.02.3-c) 208 La evaluación de aprendizajes 4.2. Física (García Mendoza y Soler, 1994) OBJETIVO (4) CAPACIDAD: CONTENIDO: Comprensión. Cinemática. Composición de movimientos. DISEÑO (1): Se propone una situación problema en la que el móvil está sometido a dos movimientos independientes. La dificultad de las distintas pruebas es consecuencia de que en unas se dan los datos directamente, con lo que se puede deducir la respuesta de forma inmediata; mientras que en otras el alumno debe deducir los datos que no se le dan expresamente. Se pide identificar las clases de movimientos y las variables que intervienen en cada uno, para así deducir las características (tiempo, trayectoria, velocidad, etc.) del movimiento compuesto. No se tiene en cuenta el «efecto Coriolis». PRUEBA c.04.01.01 Desde lo alto de un precipicio se lanzan horizontalmente y a la vez tres piedras (A, B Y C) con distintas velocidades. ¿Cuál llega antes al suelo? a) b) A B c) C d) llegan todas a la vez ~"¡¡ .•....... \":¿:;~:~~:~, , ... .. ~..... '. .'. .. . . "0••••••••• . ~ ~'- - - -- - - PRUEBA c.04.01.02 Un cazador experimentado apunta, con un rifle sin alza, a la cabeza de un mono que se encuentra a una distancia de 300 m en una rama de un árbol. En el momento justo del disparo, el mono se deja caer al suelo. Entonces la bala: a) b) e) d) Dará en la cabeza del mono. Dará en el cuerpo del mono. Pasará por encima de la cabeza del mono si la velocidad es alta. Pasará por encima de la cabeza del mono siempre. PRUEBA c.04.01.03 Un velero se mueve con velocidad constante en un mar en calma. Se deja caer un cuerpo desde lo alto del palo mayor. El cuerpo chocará contra el suelo: a) b) e) d) Delante del palo mayor. Detrás del palo mayor. Justo en la vertical del punto de lanzamiento. No se puede afirmar nada sin saber la velocidad de velero. 209 Banco de pruebas PRUEBA c.04.01.04 Una persona va en una moto con velocidad constante. Suelta una de sus manos y lanza verticalmente hacia arriba una bola de acero, dejando la mano extendida. Labola caerá: a) b) c) d) Detrás del motorista, si la velocidad de la moto es grande. Delante del motorista. En la mano que la lanzó. Detrás del motorista siempre. PRUEBA c.04.01.05 Un nadador que es capaz de mantener una velocidad constante de 1 m.s-1 respecto al agua en reposo, desea atravesar un río cuya corriente tiene una velocidad de 1 m.s-1. Para hacerla en el menor tiempo posible, debe nadar en una dirección: a) b) c) d) Perpendicular a la corriente. Que forme un ángulo de 45° con la corriente y sentido aguas arriba. Que forme un ángulo de 45° con la corriente y sentido aguas abajo. Tarda el mismo tiempo sea cual sea la dirección de marcha que elija. PRUEBA c.04.01.6 Se dispara un proyectil formando un ángulo de 30° con la horizontal. ¿Qué gráfica representa correctamente el espacio horizontal X recorrido por el proyectil en función del tiempo? x x x a) b) c) h d) PRUEBA c.04.01.07 Un niño lanza con un tirachinas una piedra a un pájaro que vuela horizontalmente a una altura de H m. El tiempo transcurrido desde que la piedra golpea al pájaro hasta que éste choca contra el suelo sólo depende de: a) b) c) d) Velocidad que lleva el pájaro. Altura H. Altura H y velocidad que lleva el pájaro. Distancia entre el niño y el pájaro en el momento del impacto y altura H. 210 La evaluación de aprendizajes PRUEBA c.04.01.08 Un defensa golpea un balón hacia la puerta contraria. La aceleración del balón durante el vuelo: a) b) c) d) Es máxima en el punto más alto de la trayectoria. Es la misma en todo el recorrido. Es mayor en el trayecto de subida que en el de bajada. Es cero en el punto más alto de la trayectoria. PRUEBA c.04.01.09 ~ ~ ~ Al golpear un balón se le comunica una velocidad inicial Va = Si + lO} . En el punto más alto de su trayectoria la velocidad y la aceleración toman los valores: a~~~j jj SiOj ~ -9,S -9,S 10 9,S 9,S ~ ~ Se dispara un proyectil formando un ángulo de 30° con la horizontal. ¿Qué magnitud, referida al proyectil, permanece constante? a) b) c) d) Vector velocidad. Componente horizontal del vector velocidad. Componente vertical del vector velocidad. Módulo del vector velocidad. Diagnóstico 4.01.0l-d) / 4.01.02-a) / 4.01.03-c) / 4.01.04-c) / 4.0l.05-a) / 4.01.06-b) / 4.01.07-b) / 4.01.0S-b)/ 4.01.09-b) /4.01.10-b) 211 Banco de pruebas 4.3. Química (pereda y Soler, 1994) OBJETIVO (44) CAPACIDAD: CONTENIDO: Aplicación. Electroquímica. Electrolisis. DISEÑO (1): Se pide la aplicación de los principios de la electrolisis a casos concretos llegando a deducciones cuantitativas. PRUEBA a.44.01.01 Tres cubas electrolíticas idénticas contienen disoluciones acuosas diluidas de igual concentración de HC1, HZS04 y Hl04. Si se hace pasar la misma cantidad de electricidad, ¿en cuál de ellas se recogerá más volumen de hidrógeno en c.n.? a) HCl b) c) d) HZS04 Hl04 Igual en las tres PRUEBA a.44.01.02 En la figura se observan dos cubas electrolíticas idénticas con sendas sales: NiClz y NiC13, fundidas. Con estos datos, ¿qué se puede afirmar sobre los depósitos en cada una? a) b) c) d) Se deposita la misma masa de níquel en ambas. Se deposita el mismo número de equivalentes de níquel en ambas. + + + NiCI2 Se deposita más masa de níquel en la de NiC13. Se precisa conocer la carga que circula para determinar cias. NiCls si hay diferen- PRUEBA a.44.01.03 En la electrolisis de una sal de oro desconocida, se obtuvieron 3,09 g de oro haciendo pasar 4.550 C. ¿Cuál es el eq-g del ión oro en dicha sal? Dato: 1 F = 96.500 C a) 49,25 g b) c) 65,66 g 98,5 g d) 197g 212 La evaluación de aprendizajes PRUEBAa.44.01.04 En la electrolisis controlada de AuCl3 se desprende Clz en un electrodo deposita Au en el otro. Indicar cuántos moles de electrones se necesitan que se deposite 1 mol de Au y en qué electrodo tendrá lugar ese depósito. a) b) c) d) y se para 3 moles en el cátodo. 3 moles en el ánodo. 1 mol en el cátodo. 1 mol en el ánodo. PRUEBA a.44.01.05 Sabiendo que EONi2+/Ni = -0,25 v y EOclz/cl = -1,36 v, ¿qué potencial mínimo se requiere para electrolizar una disolución acuosa de NiClz en condiciones estándar? a) b) c) d) 0'11 v 1,61 v 2,22 v 2,51 v Diagnóstico: 44.01.01-d) / 44.01.02-b) / 44.01.03-b) /44.01.04-a) /44.01.05-b) 213 Banco de pruebas 4.4. Biología (Bárcena, llana y Olaizola, 1994) OBJETIVO (6): CAPACIDAD: CONTENIDO: Describir la morfología de la célula y la fisiología de sus orgánulos. Comprensión. Morfología y fisiología celular. DISEÑO (1): Se pregunta res y sus funciones. sobre la relación entre distintas estructuras celula- PRUEBA c.06.01.01 ¿Cuál es el camino correcto que ha de seguir una proteína ribosoma para llegar al interior de una vacuola digestiva? a) b) c) d) sintetizada Ribosoma, hialoplasma, lisosomas y vacuola. Ribosoma, hialoplasma, mitocondria y vacuola. Ribosoma, retículo endoplasmático rugoso, retículo endoplasmático liso, aparato de Golgi, lisosoma y vacuola. Ribosoma, reticulo endoplasmático liso, lisosoma, aparto de Golgi y vacuola. PRUEBA c.06.01.02 me qué tipo de células es propia una pared celular cutinizada? a) b) c) d) Todas las células animales. Célula vegetal adaptada a un medio seco. Célula vegetal adaptada a medio húmedo. Célula vegetal de tejidos conductores como el xilema. PRUEBA c.06.01.03 Una célula vegetal se caracteriza por: a) b) c) d) por un Tener pared celular de celulosa y cloroplastos. Presencia de membrana plasmática y ausencia de pared celular. Ausencia de pared celular y gran abundancia de mitocondrias. Presentar su ADN disperso por el protoplasma. Diagnóstico: 6.01.01-c) / 6.01.02-b) /6.01.03-a) 214 La evaluación de aprendizajes 4.5. Geología (Bárcena, Dona y Olaizola, 1994) OBJETIVO (4): CAPACIDAD: CONTENIDO: Describir los procesos de la Tectónica Global. Comprensión. Laestructura de la corteza terrestre y la tectónica de placas. DISEÑO (1): Se proponen varias definiciones y/o características y se pide que se relacionen con el nombre que reciben. PRUEBA c.04.01.01 ¿Cómo se define una dorsal medio-oceánica? a) b) c) d) Grandes cordilleras marinas de plegamiento. Acumulaciones de lava basáltica con claras anomalías térmicas positivas. Geosinclinales en los que se están produciendo el plegamiento de rocas sedimentarias. Fosas submarinas en las que la corteza oceánica subduce. PRUEBA c.04.01.02 ¿Cómo se define una placa litosférica? a) b) c) d) Fragmento de la corteza en forma de casquete esférico. Fragmento de litosfera limitado por fallas transformantes. Una estructura en forma de casquete esférico cuyo límite inferior es la astenosfera. Una porción de la corteza oceánica en movimiento. Diagnóstico: 4.01.01-b) /4.01.02-c) Banco de pruebas 215 4.6. Filosofía (Ordóñez, 1996) OBJETIVO (4) CAPACIDAD: CONTENIDO: Aplicación. Convencionalismo de los sofistas. DISEÑO (1): Resolver una serie de casos relacionados convencionalismo político y ético. con el concepto de PRUEBA a.04.01.01 Según el convencionalismo a) b) c) d) político, ¿cuál es el origen de las leyes políticas? La convención de las voluntades de los dioses. El acuerdo social de la mayoría. Las leyes dadas por e! acuerdo de los fundadores El Logos o Razón Universal. de la polis. PRUEBA a.04.01.02 «Pero, según yo creo, la naturaleza misma demuestra que esjusto que elfuerte tenga más que el débil». Los valores morales, como la justicia, se fundamentan según los sofistas en la: a) b) c) d) Voluntad del más fuerte o en la voluntad de la mayoría. Astucia de los dioses, que son más fuertes que los humanos. Conciencia de cada superhombre. Imposición de las tradiciones populares de las culturas dominantes. PRUEBA a.04.0l.03 «Si cualquier hombre criado en sociedad, nos dice el sofista, se encontrase con hombres en estado natural, añoraría la presencia de Euribatos y Frinondas -dos ejemplos de hombres malvados-». Según Protágoras, y atendiendo al anterior texto: a) b) c) El hombre es social por naturaleza, como dice Aristóteles. La educación es necesaria para transformar a un hombre en ser social. La educación no consiste en transformar las opiniones inconvenientes en convenientes. d) La educación cosas. no tiene sentido si el hombre es medida de todas las PRUEBA a.04.01.04 El bien y la verdad en e! plano ético dependen del mayor o menor grado de placer que nos proporcionan y del poder establecido. El resto de las normas morales son: a) b) Consecuencia de! temor a los dioses, impuesto por la religión. Una guía para aceptar la muerte y el dominio del poderoso. 216 La evaluación c) d) de aprendizajes Una imposición de los usos y costumbres sociales del pueblo conquistador. El resultado de un acuerdo, y posiblemente antinaturales. PRUEBA a.04.01.05 La admisión por los sofistas de la convencionalidad de las leyes políticas estaba suponiendo la existencia de unos valores muy propios de la cultura occidental. ¿Cuáles eran? a) b) c) d) El progresismo en las legislaciones y en los pueblos. El acceso a la lectura y escritura. El régimen democrático y de libertades. La existencia del derecho y de la magistratura. PRUEBA a.04.01.06 «En el fondo no tenéis idea de los valores del hombre, y por eso no sois conductores sino seductores», decía Platón de los sofistas. Según esta crítica, el requisito de acuerdo de la mayoría, ¿es suficiente para que algo se convierta en ley? a) b) c) d) Sí, porque los acuerdos de la mayoría marcan el bien común. No, porque los acuerdos pueden estar equivocados. Sí, porque eso es lo que se requiere para que algo sea ley No, porque aparte de los acuerdos, se requiere que la ley sea justa. Diagnóstico: 4.01.01-b) / 4.01.02-a) / 4.01.03-b) / 4.01.04-d) / 4.01.05-c) / 4.01.06-d) NOI)lf)I:lI'lf) -11 NOI)lf)n051 N5I"0105l1l\lln .1 .1 Después de haber estudiado el primer elemento de la evaluación y, a su vez, de la medida, es decir, la recogida de datos con un estudio pormenorizado de los distintos instrumentos para recoger dichos datos, abordamos ahora el segundo, la valoración, codificada generalmente en una calificación. Como ya hemos subrayado, la recogida de información es condición indispensable para llegar a conocer el estado de los alumnos en un momento dado; sin ella la evaluación queda en mera «opinión» del profesor. Si bien en la práctica docente se valoran los datos conforme se van recogiendo durante la corrección de pruebas -se califica al corregir-, conviene tener en cuenta que el mero resultado de dicha información, aunque sea numérico, no tiene significado por sí mismo, no es aún una calificación; cuyo significado se deriva no del carácter cuantitativo de tales datos, sino del valor que se les asigna en un contexto académico. Así, por ejemplo, 5 problemas o 50 pruebas objetivas bien resueltos de un total de 10 problemas o 100 pruebas, respectivamente, son resultados numéricos sin significado inherente; hay que valorados para convertir el 5 y el 50 en calificación de suspenso o aprobado. En conclusión, la calificación es un juicio de valor en el que se comparan los datos obtenidos en la recogida de información, que reflejan el «cómo es» de lo que se va a evaluar, con unos determinados parámetros de referencia, que indican el «cómo debería ser» (Zabalza, 1989); es decir, los criterios con que se van a comparar los datos obtenidos. Elegir esta base de referencia, llamada a veces «normotipo», parece algo inocuo e intrascendente; sin embargo, es una decisión fundamental en la tarea de todo profesor y conlleva consecuencias significativas, por lo que es importante entender las diferencias de los procedimientos para corregir pruebas que se presten a un tipo de valoración más que a otro, y que cualquiera de éstos comporta virtualidades y riesgos. Aunque son varias las formas para llegar a la valoración de datos, se suelen citar dos: valoración «normativa» y «criterial»; si bien sucesivas matizaciones en ambos casos pueden dar pie a una lista más amplia de «normotipos» (Hills, 1981). Se oye con frecuencia que las buenas pruebas se construyen para hacer un solo tipo de valoración: si el estándar por el que se opta es el absoluto, los ins- 220 La evaluación de aprendizajes trumentos de evaluación deben servir para una interpretación «criterial»; si el relativo, para una «normativa». En la práctica docente se suelen llevar a cabo ambas de forma espontánea, haciendo matizaciones normativas a las valoraciones criteriales. 1. Valoración «normativa» (entre los muchos autores que la tratan se pueden citar: Ebel y Frisbie, 1977; Rodríguez Diéguez, 1980; Zabalza, 1989): Cuando referimos los resultados a otros individuos para obtener un significado, estamos haciendo una valoración «normativa» o relativa. Otros autores hablan de «normotipo estadístico,>. El término quiere decir «normal», que tiene una connotación de típico, usual o promedio. Así, la valoración «normativa» supone comparar los resultados de una persona con su grupo de referencia: ¿está por encima o por debajo, un poco o muy por encima? Por ejemplo, si para interpretar las puntuaciones de un alumno, comparamos el rendimiento del mismo con el rendimiento de los otros, estamos haciendo una valoración «normativa». Ésta se basa, pues, en unos criterios relativos que discriminan a los sujetos de acuerdo con una distribución de resultados de todos los que han realizado la prueba. Las pruebas construidas para hacer este tipo de valoración se conocen con el nombre de «pruebas normativas», y su aplicación más frecuente es la ordenación de personas en concursos, oposiciones, etc. Aquilatando un poco más, a veces se llama valoración propiamente «normativa» a la que se hace entre individuos y grupos, y de «tratamiento» a la que se hace entre grupos. Es obvio que la calificación obtenida mediante una valoración «normativa» depende mucho de la naturaleza del grupo con el que se compara. Una persona puede pertenecer a la vez a varios grupos y, consiguientemente, su situación relativa puede variar de un grupo a otro: alumnos con una actuación satisfactoria podrían fracasar en un grupo brillante; por el contrario, un grupo de malos alumnos podría permitir el éxito de incompetentes. Mediante una valoración «normativa», los alumnos quedarán siempre clasificados en dos grupos: los admitidos y los excluidos; sin la seguridad de que los admitidos sean, además, competentes. Las calificaciones en todos los sistemas se suelen codificar en diez números o cinco letras para expresar varios niveles de logro; en éste, el código 10/NSB indica actuación excelente; 7/B/N, más que media; 5/C/S, media; 4/D1I, por debajo de la media o insuficiente; y O/E/MD,logros muy deficientes. En las calificaciones conseguidas por este método, suelen ser pocos los que queden en el límite de poder recibir una nota más alta; en este caso, los profesores reciben menos quejas y peticiones de los alumnos para revisar exámenes en busca de algún punto extra con que subir de 4 a 5 o de 5 a 7. Si la distribución de resultados es muy dispersa, probablemente se obtendrán calificaciones similares por cualquier método de calificación relativa; sin embargo, cuando los resultados están más concentrados, puede ser injusto para algunos alumnos, dado que con una leve revisión podrían mejorar sus La medida en educación. 11. Calificación calificaciones. Por ello, este método de calificar no es aconsejable en situaciones académicas. Por otra parte, este tipo de calificación se complica por la necesidad de establecer cuotas arbitrarias para cada categoría. Las cuotas pueden asignarse mediante «cortes» hechos en una lista de alumnos ordenados por sus resultados: hasta el primero se califican con SB, hasta el segundo con N, y así hasta MD. La principal falacia de este sistema es que no es fácil que exista un criterio objetivo que permita 'delimitar la extensión y decidir la localización de los «cortes». ¿Qué proporción de notas deben ser SB, N, S, etc.? En toda valoración «normativa» hay siempre implícito algún tipo de criterio que se relativiza en la comparación con el grupo. Una dificultad añadida es el hecho de que alumnos con logros semejantes queden con calificaciones distintas en virtud del criterio de «corte» utilizado. Un modo de asignar cuotas de calificación relativa es mediante la desviación típica, que permite determinar «cortes» según la proporción de alumnos que queramos obtenga las distintas calificaciones de 5B, N, 5, lo MD. Para determinar los sitios de «corte» a partir de la desviación típica, un criterio puede ser el siguiente (Ebel y Frisbie, 1977): • Para la calificación S (actuación media), se suma y se resta a la media la mitad de la desviación típica. Se obtiene así el intervalo para la calificación S. • Para determinar la calificación que separa las notas SBy N, se suma la desviación típica al extremo superior del intervalo de las notas 5. • Para el «corte» de las notas I-MD, se resta la misma cantidad del extremo inferior de las S. • Finalmente, conviene revisar al alza o a la baja los casos que caen en los límites (casos «frontera»), teniendo en cuenta el número de pruebas realizadas, la calidad de las puntuaciones o algún otro dato relevante de los logros. Si el número de alumnos fuese lo suficientemente elevado para poder suponer que la distribución de las calificaciones es «normal», este método nos daría los siguientes porcentajes: 38,3% para los 5, 24,1% para los N e 1y 6,7% para los 5ByMD. La tabla de la página siguiente recoge un ejemplo de las puntuaciones de los 40 alumnos de una clase de Historia del Arte: 221 222 La evaluación de aprendizajes 4 2 3 9 8 5 Lx¡f¡ 40 20 32 54 27 21 12 2 4 = Lx¡2f¡ 324 256 243 200 147 36 2 80 = 1296 8 212 1 1° Se calcula la media de todas las puntuaciones: x: = LX. f;. 212 1 = -= 5,3 N 40 2° Se calcula la desviación típica: (j-~~ ~~f;. _ x:2 = ~ 11296 _ (5, 40 3)2 = 2, 07 . d d e d'1C h a d eSVIaClon .. , tlpIca: ,. 2, °7 = 1,03 Y1a mIta -- 2 3° Para determinar los sitios de «corte»: • Intervalo de calificaciones S: (S,3 - 1,03 , S,3+ 1,03) = (4,27, 6,33). Observamos que hay 17 alumnos con puntuaciones en este intervalo (S a 6), que representan el 42,S% de los 40 alumnos. • «Corte» de las calificaciones SB-N: (6,33 + 2,07 = 8,4). Serán calificados con N los alumnos cuyas puntuaciones estén en el intervalo (6,33,8,4), y con SBlos que tengan más que 8,4. Observamos que hay 7 alumnos con N (los de 7 y 8), que representan el 17,S%;y 3 alumnos con SB (los de 9), que representan eI7,S%. • «Corte» de las calificaciones I-MD: (4,27 - 2,07 = 2,2). Serán calificados con I los alumnos cuyas notas estén en el intervalo (2,2, 4,27), y con MD los que tengan menos de 2,2. Hay 9 alumnos con I (los de 3 y 4), que representan el 22,5%; Y4 con MD (los de 1 y 2), que representan el 10%. La medida en educación. II. Calificación En resumen: SE: 7,5% (3) N: 17,5% (7) S: 42,5% (17) 1:22,5% (9) MD: 10% (4) Obsérvese que los porcentajes son parecidos a los que obtendríamos si la distribución fuese «normal» con un número suficiente de alumnos. 2. Valoración «criterial» (entre los muchos autores que la tratan se pueden citar: Ebel y Frisbie, 1977; Rodríguez Diéguez, 1980; Zabalza, 1989): Se basa en unos criterios absolutos que permitan valorar la competencia de una persona. Fue Glaser (1963) quien usó por primera vez el término para destacar la necesidad de pruebas que puedan describir la posición del aprendiz respecto de un programa y no de un grupo. Se realiza una valoración «criterial» cuando la comparación se establece en relación a un marco de referencia externo de estándares absolutos, el cual determina los requisitos qúe ha de reunir lo evaluado (aprendizajes, instituciones, etc.). Obviamente, en la evaluación de aprendizajes estas referencias son los objetivos. Este tipo de valoración permite evaluar la actuación de una persona según un nivel determinado para, sin tener que comparada con otras, establecer si posee competencia en una tarea dada. Es posible, por tanto, declarar aptos a todos los alumnos; y también, teóricamente, suspender a todos. Así pues, de acuerdo con varias gradaciones, y en un sentido absoluto, la calificación encierra un significado de lo que la persona puede hacer. Después de 40 años, el término «criterio» sigue siendo confuso, en parte debido a que se usa con diferentes significados; por lo que algunos autores sugieren que se utilicen otras expresiones, como la valoración de «dominio» de una muestra o de cada uno de los objetivos de aprendizaje. Se habla, así, de «dominio de un repertorio de objetivos» cuando las preguntas de un examen se refieren a todos y cada uno de esos objetivos fijados de antemano; y de «dominio de una muestra» para describir valoraciones absolutas de exámenes que sólo representan algunos de los objetivos programados. En este segundo caso, la valoración ha de centrarse en la proporción de objetivos conseguidos, aunque se deben extrapolar deducciones sobre los objetivos no recogidos en la muestra. De todas maneras, no es fácil determinar la muestra de un «dominio», especialmente en ciencias sociales, más que en las experimentales y Matemáticas. En suma, cuando se habla de «dominio», se hace referencia a una valoración «criterial» que se aplica bien cuando el examen refleja todos los objetivos, bien cuando sólo aparece una muestra. Es la valoración más frecuente en situaciones académicas, aunque a menudo viene matizada por la valoración «normativa»: los 223 224 La evaluación de aprendizajes estándares absolutos se suelen modificar más o menos explícitamente según la calidad del grupo, tal como se indicó anteriormente. En general los profesores, por razones teóricas, prefieren estas calificaciones absolutas a las relativas; sin embargo, encuentran difícil, y en algunos casos arbitraria, la tarea de establecer estándares. Para hacer valoraciones absolutas, se proponen dos métodos: a) Porcentajes: El primero consiste en otorgar las calificaciones según los porcentajes de objetivos que domina el alumno. Así, una calificación de 80% significa que se domina el 80% de los objetivos de aprendizaje pedidos en la prueba. Generalmente, los porcentajes se convierten más tarde en notas numéricas o literales al compararlos con los estándares establecidos por el profesor. Por ejemplo, a los alumnos con calificaciones entre el 95 y 100% se les da un SE; entre el 85 y 94%, un N; entre el 75 Yel 84%, un S; y así sucesivamente. La restricción, más que en el número de alumnos elegibles para recibir cada una de las posibles notas, se encuentra aquí en el rango de las calificaciones; por lo que una primera dificultad, semejante a la citada al hablar de la valoración «normativa», viene dada por las razones para determinar el intervalo de cada nota: ¿por qué para los SE se decide el 95, en vez del 90 o el100%? Otra gran dificultad es la costumbre de usar porcentajes fijos en el tiempo. No parece lógico que permanezcan constantes a lo largo de todo un curso, es más defendible establecer porcentajes variables; por ejemplo, que el rango de los SE sea 95-100% para el primer trimestre, 88-100% para el segundo, 85-100% para el tercero y 90-100% para el examen final. Una tercera dificultad de las calificaciones porcentuales es la situación que se crea cuando la mejor nota de un examen es excesivamente baja, por ejemplo 68%. En este caso, algunos profesores no se complican la vida con preguntas tales como ¿era el examen demasiado difícil?, ¿estudiaron poco los alumnos?, ¿no se enseñó bien?, e introducen directamente ajustes sustituyendo la calificación perfecta, 100%, por la más alta conseguida, el 68%. Aunque este reajuste sirva de alivio a los afectados, se establece así un nuevo dominio con una serie de interrogantes: ¿cómo se puede definir este nuevo dominio?, ¿qué interpretación útil se puede hacer de las nuevas calificaciones? b) Objetivos: Un segundo método de calificación absoluta es el basado en la relación entre el número y dificultad de las cuestiones de una prueba y los objetivos programados. Este método depende de los juicios del profesor para establecer el tipo y la cantidad de conocimiento que los alumnos deben demostrar para conseguir cada nota. Entraña los siguientes pasos: En primer lugar, el profesor ha de describir, preferiblemente por escrito, los objetivos que debe haber alcanzado el alumno para «pasar por los pelos» y asignarle la calificación de aprobado mínimo o S, para obtener una nota de N, de SE, etc. La medida en educación. 11. Calificación Con las descripciones en la mano, el profesor lee el primer ítem de la prueba y decide si un alumno con sólo el mínimo de logro debe ser capaz de responded o correctamente. Si es así, se registra una S; en caso contrario, la pregunta se califica como de nivel superior, N o en su caso SB; y se aplica el mismo procedimiento al ítem 2, 3, etc. El proceso continúa hasta clasificar todos los ítems. La cuota estimada para un S se determina sumando el número de símbolos S que se escribieron junto a los ítems. Supongamos que en este caso resulte 29. A continuación se suman los símbolos N, a los que se añade 29 para obtener la calificación corte para una actuación de N. Y así hasta que se haya determinado una calificación de corte para cada nota. En resumen, podría resultar: SB = 48-50 N = 40-47 S = 29-3'9 1 = 17-28 MD = 0-16 La clave final se puede obtener ajustando 2 o 4 puntos hacia abajo las cuotas estimadas, según la longitud de la prueba. Este ajuste pretende corregir, en favor del alumno, el posible error de que nuestras estimaciones no sean fiables. Así, con un ajuste de 2 puntos, los resultados para obtener desde 1 a SB en nuestro ejemplo son, respectivamente, 15, 27,38 y 46. En el caso de preguntas abiertas o problemas científico-matemáticos, pruebas que no se puntúan con 1/0, sino que admiten una gradación de puntos, este extremo ha de tenerse en cuenta a la hora de clasificados con S, N, SB, etc., y decidir el mínimo número de puntos que debe conseguir un alumno en cada nota. Este método, sin embargo, tiene también sus limitaciones. A veces resulta difícil que profesores de una misma materia y de un mismo curso se pongan de acuerdo sobre los conocimientos que se deben mostrar en cada lugar de la escala de notas y, por consiguiente, en la clasificación de los ítems. No obstante, se puede llegar a consensos aceptables si los profesores están dispuestos a definir la actuación están dar por escrito y si son capaces de proporcionar unas razones defendibles para sus juicios clasificatorios (Terwilliger, 1989). 3. Calificación por referencia al propio alumno (Rodríguez Diéguez, 1980; Zabalza, 1989): Si la valoración se realiza desde la perspectiva de la evolución del mismo sujeto, se habla a veces de calificación por diferencia o «normotipo individualizado»: se valoran las ganancias que el alumno ha manifestado a partir de una determinada línea base (LB). Algunos profesores consideran esto más justo, sobre todo en el caso de alumnos con necesidades educativas especiales (n.e.e.) en etapas de educación 225 226 La evaluación de aprendizajes obligatoria (Álvarez y Soler, 1998; Álvarez, González-Pienda, Núñez y Soler, 1999). Para estimar esa cantidad de cambio y crecimiento, se utilizan pruebas antes y después de la intervención. Sin embargo, son pocas las pruebas escolares lo suficientemente buenas como para ofrecer medidas fiables de ganancias a corto plazo en los logros individuales de alumnos. Además de la fiabilidad, hay otros problemas con las medidas del crecimiento. Por una parte, para la mayoría de los fmes educativos, es más útil el conocimiento del nivel de un alumno en relación con un programa o con el de sus compañeros, que el saber si ese alumno ha cambiado más o menos rápidamente que los otros a lo largo de un período de entrenamiento; por otra, los alumnos con capacidad medio-alta, cuando saben que la calificaciónse obtiene mediante el grado de crecimiento, aprenden de inmediato que sus calificaciones en el pretest deben ser lo más bajas posible para permitirles mayor ganancia. 4. Calificación por contrato: Supone un acuerdo entre profesor y alumno en el que se especifican los logros que éste debe alcanzar y qué nota se le asignará si los consigue. Taylor (1980), que revisó más de cien informes en los que se describe la calificación por contrato, concluye que ésta, aunque se presenta de múltiples formas, hasta el extremo de que cada maestro inventa su propio sistema, tiene un sitio permanente entre los métodos para asignar notas. Este tipo de calificación se adapta mejor a alumnos con buen nivel intelectual y con motivación de logro. Por otro lado, es más eficaz con clases pequeñas y programas flexibles, en los que los alumnos tienen la opción de seguir intereses individuales. En todo caso, el contrato ha de redactarse siempre por escrito, para que no haya ningún malentendido sobre lo que se debe hacer, cómo, cuándo y por quién. 5. Valoración de «nivel mínimo»: Exige señalar un nivel mínimo, aunque, según el método empleado para fijado, implícitamente se esté usando una «norma» relativa o un «criterio» absoluto. Un ejemplo sería proponer una prueba para determinar qué alumnos podrían seguir con aprovechamiento un curso de álgebra: si se selecciona el 20% mejor (16 de una clase de 80), se está utilizando una «norma»; si, en cambio, se seleccionan todos los alumnos que hayan alcanzado unos determinados objetivos, se recurre a un «criterio de dominio». Ejemplos de «nivel mínimo» podrían ser los siguientes: Se requiere una media de 6,5 para entrar en Medicina; los que saquen más de 8,5 de media no necesitan ir al examen final. Un caso extremo de esta valoración es la calificación determinada por el resultado mínimo; así, si los resultados parciales fueron [5, 6, 7 Y8], la calificación es 5. Hasta aquí un breve estudio de la «medida» en educación, con sus dos dimensiones de recogida de datos y su valoración, imprescindibles para abordar con cierta garantía el tercer elemento, y más complejo, la toma de decisiones, que estudiaremos a continuación. v AIJ.V)n051 V1 N5I NOI)Vn'VA5I .1 S5INOISI)5IO 510 VIlUOJ. La toma de decisiones es algo que está presente en todo momento a lo largo del proceso de instrucción. Sin embargo, aquí nos centramos fundamentalmente en su estudio como tercer elemento esencial de toda evaluación y que sigue al juicio de valor sobre los resultados codificado en la calificación, de acuerdo con la definición de evaluación por la que hemos optado (cap. 2). Una decisión se define como una elección entre distintas acciones posibles, lo que supone disponer de alternativas para poder elegir la más adecuada de acuerdo con algún criterio. Tal elección viene casi siempre acompañada de determinadas circunstancias de conflicto, incertidumbre y, en definitiva, de riesgo; lo que ha de hacer reflexionar al que la toma sobre la transcendencia que puedan tener sus consecuencias. A esto hay que añadir que podemos no conocer todas las alternativas, que no estén en todo momento a nuestro alcance o que, en fin, no siempre exista un único criterio. Por otro lado, la verdad es que no siempre se busca «lo mejor», quizá por aquello de que «lo mejor es enemigo de lo bueno». Una decisión, también las educativas, la puede tomar una persona, como en estos momentos es el caso del profesor único en la Educación Primaria y la Enseñanza Universitaria, o un grupo, como es el caso de las Juntas de Evaluación exigidas por el ordenamiento legal para la Educación Secundaria. En las páginas siguientes nos proponemos estudiar la problemática de la toma de decisiones grupal, aunque también se tratará la individual, en el contexto educativo, a través de los siguientes apartados: clases de decisiones, enfoque racional del proceso y herramientas de formulación y selección de alternativas, para terminar con algunas sugerencias sobre un proceso práctico aplicable a lasJuntas de Evaluación. CLASES DE DECISIONES En los procesos de evaluación se manejan distintas decisiones, cada una de las cuales tiene sus peculiaridades. Simplificando el análisis, se podría afirmar que existen dos clases de decisiones: las selectivas y las modificativas. 1. 230 La evaluación de aprendizajes 1. Decisiones selectivas: Las decisiones selectivas están relacionadas con las funciones atribuidas a una evaluación sumativa (cap. 15). En muchos casos son irreversibles, por lo que se ha de procurar una especial precaución y prudencia para que su adopción ofrezca las máximas garantías de justicia, adecuación y objetividad. Se suelen considerar como decisiones selectivas, entre otras, las siguientes: a) Promoción: Tal decisión es la consecuencia de una integración de juicios o calificaciones parciales. En general no sólo se decide quiénes promocionan, también se establecen diferencias de calidad entre los que promocionan. b) Concesión de premios: Tienen este carácter las matrículas de honor, los premios final de carrera, la selección de candidatos para determinados eventos como olimpiadas de Matemáticas o Física, etc. c) Repetición: La repetición de un curso o asignatura suele ser una decisión conflictiva para quienes la toman y para quienes la sufren. De ahí la importancia de acompañada de un informe, haciendo ver al alumno el riesgo de fracaso futuro si se le promocionase; así como de un plan de acción para que no se vuelvan a repetir las mismas deficiencias. 2. Decisiones modificativas: Las decisiones modificativas están relacionadas con la evaluación formativa (cap. 15), ya que tienen en cuenta el rendimiento del alumno para determinar unas actividades de recuperación, preferentemente individualizadas, condicionadas e inspiradas por una simple orientación, o por una modificación diversificadora en la programación o en la metodología. Estas decisiones pueden ser ejecutivas o consultivas (Barbier, 1990). 2.1. Ejecutivas: Son aquellas en las que se asume la responsabilidad de llevadas a la práctica por medio de un plan de intervención y seguimiento (Álvarez et al., 1999). Las decisiones ejecutivas pueden referirse a diversos ámbitos: a) Decisiones metodológicas: Mectan directamente al alumno, pero van más allá del veredicto tradicional que se limitaba a discriminar entre alumnos que «valen» y «no valen». Se pueden citar, entre otras, las siguientes: D~cisiones-pronóstico: Teniendo en cuenta los conocimientos del alumno, su capacidad de trabajo y otras aptitudes, se pronostica sobre posibilidades futuras; lo que se utiliza para diseñar y recomendar un plan educativo adecuado. Decisiones de orientación: Determinan ayudas para desarrollar las aptitudes innatas de los alumnos, incrementar sus hábitos de estudio y, en definitiva, obtener resultados satisfactorios (G. Vidal y G. Manjón, 1992). Decisiones de modificación de conducta: Complementan las decisiones de orientación y pretenden potenciar o eliminar determinados comportamientos. Entre las conductas que han de ser potenciadas están el aumento de atención, el hábito de concentración, etc.; entre las que hay Toma de decisiones en la evaluación educativa que eliminar están la falta de disciplina, la asistencia incontrolada, la pasividad en el aula, etc. Decisiones didácticas: Pretenden promover la construcción personal de conocimientos significativos mediante asimilación receptora o mediante aprendizaje por descubrimiento, tomar en consideración los conocimientos previos del alumno, adecuar la enseñanza a los estadios mentales del alumno, combinar la práctica con la teoría, etc. Decisiones motivacionales: Buscan incrementar el interés y la satisfacción de los alumnos en el aprendizaje. Son decisiones didácticas que se suelen tratar aparte por su importancia. Por ejemplo, mostrar la utilidad que tienen las tareas que se van a realizar, favorecer que el alumno opte por ejercitar las estrategias de aprendizaje que le sean más apropiadas, explicitar la formulación de objetivos, los instrumentos de evaluación y los criterios de calificación. Decisiones asignativas: Se encarga a una persona una función o cometido. b) Decisiones institucionales: Las decisiones institucionales son aquellas que se toman teniendo en cuenta el conjunto de una institución, antes que los valores y necesidades particulares del individuo. Suelen ser procedimentales porque intentan modificar modos de actuar, tales como: Proceso de evaluación: Las funciones de la evaluación, los instrumentos de recogida de información, la temporalización de los exámenes. Dinámica de las reuniones: Técnicas de análisis de las deficiencias y problemas individuales y grupales; herramientas de elección de soluciones a dichos problemas; distribución de responsabilidades del Tutor, delJefe de Estudios, de los profesores. Sistemas de control y seguimiento de las decisiones. 2.2. Consultivas: La evaluación educativa termina muchas veces con decisiones no ejecutivas. Ocurre esto cuando las soluciones que pueden subsanar los malos resultados rebasan la responsabilidad del que las toma. Es entonces cuando aparecen las llamadas decisiones modificativas de' propuesta o sencillamente consultivas. La decisión se limita a la elaboración de un informe dirigido al órgano competente con capacidad para ejecutadas para que estime y adopte la puesta en práctica de lo que se le propone. Otras, por el contrario, dan lugar a la petición de datos que sirvan de apoyo a los evaluadores; tal es el caso de los que se piden a equipos de orientación, tutores, padres, etc. Son decisiones de este estilo las relativas al: a) Alumno: Reglamento Interno, faltas de asistencia, condiciones materiales y organizativas, masificación, tratamiento de la diversidad, etc. b) Profesor: La especialización y perfeccionamiento didáctico, el profesorado de apoyo y sustitución, la formación del profesorado, etc. 231 232 La evaluación de aprendizajes c) Proyecto curricular de centro: Estrategias especiales para conseguir objetivos difíciles o subsanar lagunas por la falta de coordinación con los cursos anteriores. d) Organización: Horario, equipo psicopedagógico, intervención de la Jefatura de Estudios, etc. 2. EL ENFOQUE RACIONAL DE TOMA DE DECISIONES Conviene recordar que las decisiones educativas las puede tomar una persona o un grupo. En todo caso, es difícil hacer buenas tomas de decisiones, y más cuando las circunstancias de riesgo o incertidumbre son acusadas o cuando, fiándose de la propia experiencia y capacidad, se resuelven de manera intuitiva. Los resultados, en cambio, suelen ser más eficaces y la probabilidad de acierto mayor, sobre todo en el caso de la toma de decisiones grupal, cuando se tienen en cuenta unas reglas inspiradas en teorías psicológicas y prácticas empresariales. Estas reglas se materializan en el enfoque de toma de decisiones racional, que Zerilli (1978: 103) define del siguiente modo: La decisión es un proceso racional continuo mediante el cual partiendo de ciertos datos y efectuando un análisis y valoración sobre la conveniencia y las consecuencias de las soluciones alternativas posibles, respecto a un determinado objetivo, se llega a efectuar la elección final. Este enfoque expresa siempre una sistematización y en muchos casos refleja también un proceder espontáneo real que, aunque aparentemente resulte artificial y tedioso a los profesores nuevos, llega a automatizarse de una manera natural en profesores habituados. El enfoque racional de los procesos de evaluación educativa viene marcado preferentemente por un carácter grupal, ya que son grupos de docentes los que toman las deCisiones en los Departamentos, Seminarios, Claustros y Juntas de Evaluación. Existen múltiples razones que justifican muy positivamente este extremo (Huber, 1984): Los grupos suelen tener más información y mayor capacidad para usada correctamente que la que puede atribuirse a una persona. La aceptación de una decisión tiende a ser más completa cuando se ha intervenido en el proceso de tomada. A todo esto hay que añadir la ventaja que tiene para la institución la experiencia que sus miembros adquieren con esa participación grupal en la toma de decisiones. Por el contrario, una de las desventajas que más afecta a las decisiones grupales es el consumo de mucho tiempo y el desánimo que esto inspira. Toma de decisiones en la evaluación educativa El enfoque racional se presenta estructurado en las siguientes tres fases: 1a Fase: Problema: Una toma de decisiones es una consecuencia de la aparición de un problema que hay que resolver; por ejemplo, un suspenso o rendimiento insatisfactorio de! alumno. Es obvio que sin e! acuerdo de que existe un problema no puede abordarse su solución. Pero no son tan obvias las dificultades añadidas, a causa de que la perspectiva del problema sea diferente desde el punto de vista de cada miembro de! grupo. De ahí que una reunión puede resultar ineficaz si en el grupo no existe la comunicación debida para llegar a compromisos comunes. Esta comunicación, como elemento previo e imprescindible al análisis del problema, se facilita cuando el grupo está jerarquizado, y adopta una dinámica en las intervenciones yen los procedimientos. Así, por ejemplo, en las Juntas de Evaluación, el tutor puede anunciar el tema, el tiempo que se le asignará y e! orden de intervenciones; el Jefe de Estudios puede actuar de secretario tomando nota y resumiendo las decisiones tomadas. Supuesta esta dinámica, para llegar a una buena decisión es preciso analizar el problema, lo que podrá realizarse a través de los siguientes tres pasos dependientes y complementarios: 1. Detección del problema: El primer paso consiste en detectar e! problema, es decir, en darse cuenta de que una situación determinada constituye un conflicto que ha de resolverse. En la práctica educativa el problema aparece, con cierta facilidad, en los resultados insatisfactorios de los alumnos. 2. Recopilación de datos: El segundo paso en este análisis consiste en recopilar datos que ayuden a definir la situación problemática. Se trata de identificar los factores clave que la delimitan. 3. Objetivo: El último paso de esta fase es traducir el problema a objetivo en términos de resultado deseado. 2a Fase: Soluciones: En esta fase se distinguen también tres pasos comple- mentarios. 1. Causas: Esta segunda fase empieza con la investigación de las causas: se pretende establecer una relación entre e! problema suscitado y sus posibles causas. Suele ser lo más difícil y lo que puede invalidar todo e! proceso. En algunas-ocasiones, se encontrará una única causa; en otras, una combinación de dos o más. En general, el profesor se pregunta por las posibles causas de una calificación negativa: mala preparación, poco tiempo de estudio, escasa atención, deficiencias en la enseñanza, deficiencias en las técnicas de estudio, etc. Ayuda a encontrar causas la atribución de variables a distintas dimensiones; lo que se puede reducir a la información sobre capacidades básicas, conocimientos específicos y estrategias de estudio (cap. 15). Así, por ejemplo, a la dimensión «rendimiento general insatisfactorio», pueden atribuirse variables como falta de atención, lagunas, poco tiempo de estudio, etc.; ya la dimensión «insuficiencia en el dominio del lenguaje histórico», pueden atribuirse variables como falta 233 234 La evaluación de aprendizajes de retención, falta de expresión linguística, problemas de relación con el profesorado, etc. 2. Soluciones opcionales: El segundo paso consiste en identificar soluciones, sugeridas precisamente por las causas del problema, que sirvan para alcanzar el objetivo propuesto. Por ejemplo, ¿qué soluciones son las que efectivamente servirían para alcanzar el nivel de suficiencía en el dominio del lenguaje histórico? La importancia de la búsqueda de soluciones opcionales se pone de manifiesto por el hecho de que, con frecuencia, la decisión resulta inapropiada por no haber considerado todas las alternativas posibles. El número de alternativas depende en gran medida de la naturaleza de la decisión. Así, en las decisiones de selección sólo hay dos alternativas: aceptar o rechazar; por ejemplo, una Junta de Evaluación acepta o rechaza que un alumno tenga matrícula de honor. En cambio, en las decisiones de tratamiento o modificativas existen más alternativas; por ejemplo, a los profesores se les presentan diversas opciones para elegir tareas de recuperación. 3. Elección de la mejor alternativa: Una vez exploradas las opciones, se trata de elegir una alternativa que al menos ayude mejor que cualquier otra a superar las posibles deficiencias. Por experiencia se sabe que existen decisiones evidentes que se toman con mucha facilidad y otras, en cambio, que exigen muchas deliberaciones y atinadas reflexiones. Esto se debe fundamentalmente a las siguientes razones, citadas en el Proyecto Inteligencia Harvard (Megía, 1992): Es extremadamente dificil tomar decisiones cuando se desconoce qué resultados producirán las diversas opciones. Si todas las soluciones opcionales llevan a un resultado favorable, o todas tienen aspectos desfavorables, también es difícil optar por alguna de ellas. En cambio, cuando una opción produce resultados claramente mejores que otros, no resulta difícil elegir. La alternativa elegida puede gozar de diferentes grados de aceptación, tanto entre los individuos sobre los que va a recaer como entre los que la van a llevar a cabo. La mejor alternativa es la que viene determinada no sólo por la calidad, sino también por la aceptación; a saber, «buena decisión = calidad x aceptación». 3a Fase: Plan de acción: Una cosa es tomar una decisión y otra llevada a la práctica. Por lo tanto, una vez seleccionada la alternativa que más satisfactoriamente resuelve el problema, es necesario elaborar un plan de acción en el que queden organizadas unas tareas y en el que se establezca un sistema de seguimiento. Toma de decisiones en la evaluación 235 educativa HERRAMIENTAS DE TOMA DE DECISIONES Se han elaborado diferentes técnicas para cada una de las fases de la toma de decisiones que describiremos a continuación agrupándolas en torno a tres clases: análisis, selección y plan de acción, Todas ellas son de aplicación en las situaciones de toma de decisiones grupal, algunas también para realizadas individualmente. 1. Técnicas de análisis (Blasco, 1990; Delbecq, Van de Ven y Gustafson, 1975): Son instrumentos de exploración cuyo fin es precisamente detectar posibles alternativas de problemas, causas, soluciones, etc. Son muchas las que se pueden encontrar en la bibliografía especializada; por ejemplo, árboles de pertenencia, análisis de gráficos, estratificación de datos. Aquí describiremos con más detalle cuatro: las dos primeras de carácter más general, el «brainstorming» para grupos pequeños y el «Phillips 66» para grupos más numerosos; las dos últimas más específicas y complementarias de las anteriores, ya que pueden utilizarse en sus grupos. a) «Brainstorming» o tormenta de ideas (Anzieu y Martín, 1975; Cirigliano y Villaverde, 1982): Se apoya en la teoría psicológica de la asociación de ideas por contigiiidad, semejanza o contraste, por lo que se rompe la barrera de lo inconsciente, se estimula la facultad creadora y; al activar procesos asociativos y reforzar la capacidad de comunicación, ayuda a descubrir ideas originales, aumentando la información elaborada. El «brainstorming» se sitúa en los mecanismos de la inducción, desarrollando una actitud interrogativa, poniendo de manifiesto las preocupaciones de los miembros de un grupo acerca de las posibles alternativas de formulación de problemas o de sus soluciones. Para ello se organiza un grupo pequeño, entre 5 y 10 personas, concebido para presentar ideas divergentes, sin restricciones o inhibiciones debidas a dificultades procedimentales de ejecución, ni a limitaciones de aptitudes o de habilidades. Todas las ideas son aceptadas sin ponedas en tela de juicio, a menos que choquen con las reglas acordadas, por ejemplo, en cuanto al tiempo de discusión, o que tiendan a menoscabar las contribuciones de los otros. Aunque el «brainstorming» es relativamente libre, es posible limitado; así, una sesión de promoción de ideas sobre un campo amplio de problemas, causas o soluciones puede continuar con otra sobre algún aspecto más restringido. Es indispensable, por un lado, que el grupo sea homogéneo y esté integrado por individuos relativamente maduros que se conozcan suficientemente bien como para crear una atmósfera en la que sea aceptable la completa libertad de expresión; por otro lado, es también necesario disponer de suficiente tiempo para encarar el tema de una manera relajada y sin tensiones, porque no se necesiten inmediatamente resultados, 3. 236 La evaluación de aprendizajes Supuesta la familiaridad con la técnica, y ya dentro de las normas prácticas de funcionamiento, el moderador deberá: Indicar claramente el campo de ideas que se habrá de abarcar. Cerciorarse de que alguien tenga la responsabilidad de llevar un registro de las ideas expresadas. Ayudar a establecer y hacer cumplir las reglas acordadas. Establecer el tiempo límite de la discusión. Asignar el turno cuando dos o más personas deseen hablar al mismo tiempo. Animar a participar a los que tengan dificultades en liberarse del miedo o la timidez. Luchar para crear la atmósfera que provoque ideas divergentes. b) «Phillips 66» CAntunes, 1975; Anzieu y Martín, 1975; Cirigliano y Villaverde, 1982): Esta técnica, descrita y divulgada por J. Donald Phillips, de la Universidad del Estado de Michigan, tiene en común con la anterior el hecho de que es muy útil para descubrir todos los entresijos de un supuesto, facilitando la confrontación y el esclarecimiento de los puntos de vista de todos los miembros del grupo; pero se distingue en que permite descomponer un grupo grande en unidades pequeñas, en donde es más fácil crear una atmósfera informal que facilite la participación de todos los presentes, liberándolos de sus inhibiciones y permitiendo incluso que puedan llegar a ser protagonistas; es difícil permanecer anónimo en un grupo pequeño. De este modo se rompe la frialdad y se obtiene rápida y ordenadamente la participación de un auditorio grande en una cuestión determinada. En esencia, consiste en dividir un grupo en otros más pequeños, de cuatro a seis integrantes, con el propósito de discutir o analizar un tema durante un tiempo breve. El 66 alude a grupos de seis personas que discuten un tema durante seis minutos. Dentro ya de las normas prácticas de funcionamiento, hay que conceder siempre unos minutos para elegir un presidente, con el fin de propiciar la integración en los subgrupos, y un secretario-informante para llevar un registro e informar al pleno. Uno de ellos actuará, además, de coordinador, que deberá: Asegurarse de que todos están familiarizados con el procedimiento, por qué se emplea, el tiempo que se concede y lo que se espera alcanzar. Hacer la división del grupo, de manera que se rompan vínculos previos. A menudo esto se consigue disponiendo con anticipación los asientos, o acudiendo al procedimiento de «numerarse». Explicitar oralmente o por escrito el tema en cuestión. Moverse entre los subgrupos y estar a su disposición para aclarar posibles dudas y determinar los logros. Toma de decisiones en la evaluación educativa 237 Si la cantidad de subgrupos, o la falta de tiempo, impide elaborar un informe completo, facilitar medios y ampliar el tiempo para ordenar las ideas en orden de importancia y pertinencia. Siempre se debe avisar antes de dar por finalizado el tiempo. Recoger los informes de cada grupo (escritos y orales), clasificados y preparar un resumen. En este punto el procedimiento debe ser flexible para recoger los condicionamientos que impone el tamaño de la reunión, los tipos de preguntas que se discuten, el empleo que se hace de ellas, etc. Asegurarse de que todos los puntos al grupo general. de vista significativos sean llevados c) QDCC (Kepner y Tregoe, 1983): Es una técnica complementaria del brainstorming y del Phillips 66, ya que en ambas los participantes pueden utilizada para elaborar alternativas y conclusiones. Propone que el problema, las causas, las soluciones, etc., se describan en detalle desde cuatro perspectivas, a cada una de las cuales se responde con una doble salida, indicando qué es y qué no es en relación con: • • • • QUÉ: Identidad, ¿qué es? o ¿de qué se trata? DÓNDE: Ubicación en el espacio, ¿en dónde surge? CUÁNDO: Ubicación en el tiempo, ¿cuándo ocurre u ocurrió? CUÁNTO: Magnitud o extensión, ¿qué extensión tiene?, ¿qué abarca? Un ejemplo esquemático de tal técnica pudiera ser el siguiente: ES QUÉ NO ES insatisfactorio evaluación la 1alos otros cursos Literatura Rendimiento Disciplinario escolar 2aobjetivos evaluación -En Historia Integración Historia: 2a yescolar 3a evaluac. Literatura: En otras asignaturas Todos d) Diagrama causa-efecto o de Ishikawa (Blasco, 1990): Por su forma, se conoce también como «espina o raspa de pescado». Tiene el mismo carácter de complementariedad que la técnica anterior QDCC, pero añade la virtualidad de sistematizar las posibles causas y soluciones de un problema, agrupándolas por familias y jerarquizándolas; orientando, así, el análisis hacia las más fundamentales. 238 La evaluación de aprendizajes TAREA DEL FAMILIA ALUMNO Trastornos de atencion/motivación Bajo nivel cultural Trastornos perceptivos No valoración del estudio Deficiencias de aptitudes Metodología inapropiada CALIFICACiÓN NEGATIVA Deficiencias lingOísticas Objetivos CAPACIDAD DEL ESCUELA ALUMNO 2. Técnicas de selección (pokras, 1992; Simon y Albert, 1979): Son herramientas que ayudan a abandonar alternativas de problemas, causas, soluciones, etc., para concentrarse en unas pocas; en la convicción, como dice el principio de Pareto, de que los elementos críticos de cualquier conjunto constituyen una minoría. Este principio se traduce en la regla 80/20, que se suele ilustrar con el ejemplo de que el 80% de los problemas se pueden explicar mediante el 20% de las causas. De manera semejante a las de análisis, son muchas las técnicas de selección que aparecen en la bibliografía especializada; por ejemplo, la Matriz de prioridades y el Criterio ABC. En éste se clasifican ordenadamente las alternativas de un problema y se da importancia a las clasificadas como A; en cambio, las B se consideran como meramente instrumentales, y las C se relegan por su escasa incidencia. Por su mayor posibilidad de aplicación en el contexto educativo, nos detenemos, sin embargo, en el voto ponderado, en la matriz de clasificación por criterios yen el análisis de fuerzas. a) Voto ponderado (Anzieu y Martín, 1975): Consiste en presentar y comentar una serie de cuestiones, estudiadas anticipadamente por cada uno de los miembros del grupo, y votadas de forma ponderada, según la importancia que cada uno les dé a partir de sus diferentes aspectos. Por ejemplo, se consideran tres alternativas, que cada miembro del grupo califica con un 1, 2 o 3; el grupo selecciona la alternativa más votada, en este caso la P, como aparece en la tabla siguiente: Toma de decisiones en la evaluación Alternativas I Profesor A 1a 3 2a 2 I 239 educativa Profesor B I Profesor I Profesor D 3 2 3 3a e 2 9 3 8 2 7 b) Matriz de clasificación por criterios (Pokras, 1992): Se trata de adoptar unos criterios para seleccionar la alternativa más plausible. Los criterios pueden ser la consideración de las consecuencias de la elección: beneficios, recompensas, conclusiones, perjuicios, etc.; o también la jerarquización de opciones según criterios como la mejor, la más factible, la más fiable, etc. En una tabla de doble entrada quedan incluidas en vertical las posibles alternativas, y en horizontallos criterios de ponderación materializados en una puntuación que puede ir, por ejemplo, de Oa 5. CRITERIOS 2 3 TOTAL 3 5 8 ALTERNATIVAS 1a o 2a 5 7 La decisión recaerá sobre aquella alternativa que más puntuación numérica alcance. Es una tarea en la que resaltan los atractivos de la decisión tomada, así como las críticas a las alternativas rechazadas. La opción elegida pasaría por ser la alternativa ideal o, al menos, la que más se acerca. c) Análisis de fuerzas (pokras, 1992): Se analiza cada alternativa bajo los siguientes aspectos: Positivas: ¿Con qué alternativas aminoramos o resolvemos el problema? Negativas: ¿Con qué opciones aumentamos o empeoramos el problema? Incógnitas: ¿Qué desconocemos del problema que pueda ser definitivo para encontrar una solución? Al final se comparan los resultados del análisis: ¿Son o tienen la misma relevancia todas las alternativas?, ¿qué alternativa se presenta como más factible?, ¿qué alternativa tiene más apariencia de ser la adecuada?, ¿qué cantidad de riesgo conlleva cada alternativa?, ¿en cuál se confía más? Los resultados del análisis para cada tipo de acción alternativa se recogen en una tabla como la siguiente: 240 La evaluación Alternativas de aprendizajes Positivas Comparación Incógnitas (Desventajas) Negativas 2" Todas estas técnicas no se utilizan como métodos únicos, sino como técnicas complementarias a otras más tradicionales en el campo de la educación para buscar una mayor profundidad y amplitud de las alternativas, debido a las aportaciones de todos los integrantes del proceso instructivo. 3. Técnicas para diseñar un plan de acción: A este fm se puede emplear la siguiente herramienta, que es una versión más o menos simplificada del PERT,siglas que corresponden a «Program Evaluation and Review Technique», y que se refiere al camino crítico de un calendario de un plan de acción que especifica las fechas, personal implicado, orden de las operaciones, etc., para conseguir una meta determinada. Se pueden encontrar aplicaciones al contexto educativo en Pokras (1992). Se empieza teniendo presentes las respuestas a una serie de preguntas hechas en las fases de análisis y selección, tales como: ¿cuál es el objetivo de la decisión en términos de comportamiento?, ¿qué actividades son necesarias para alcanzado?, ¿quién será el responsable de cada una?, ¿en qué orden se realizará cada actividad y cuánto tiempo supondrá cada una?, ¿qué recursos son necesarios?, ¿qué criterios se adoptan para medir si el objetivo se ha conseguido? A continuación, se ordenan las acciones que se consideran imprescindibles para llevar a la práctica la decisión tomada, así como la indicación de las personas responsables, el sistema de seguimiento, los recursos y tiempos. El conjunto de tales actuaciones y propuestas constituye un detallado plan de acción que, en el caso de ser muchas o complejas, se puede recoger en una tabla como la siguiente: Recursos DECISiÓN TOMADA: Tiempo responsable Persona Técnica de seguimiento 2" Acciones Es conveniente también tener en cuenta la ley de Murphy: «Todo aquello que tenga posibilidades de fracasar, fracasará». Por eso, el plan se puede completar anticipando los posibles fallos que, si se considera útil, se pueden Toma de decisiones en la evaluación educativa 241 recoger en una hoja de previsión donde figure lo que puede fallar, cómo se puede evitar que ocurra y cómo se rectificará el fallo si ocurre. JUNTAS DE EVALUACiÓN 4. Algunos profesores se muestran muy contentos porque ya han superado eso de dictar notas en las sesiones de evaluación, y dicen que se dedican a evaluar, lo que en muchos casos quiere decir a hablar de los alumnos. Pero, ¿sobre qué se habla? Fulanito es muy inteligente, pero muy vago; no le doy sobresaliente porque no estudia. Menganito, el pobre, no puede más, hace todo lo que puede, así que le vaya aprobar (Brincones, 1990: 230). La cita refleja en gran medida la realidad de muchas Juntas de Evaluación, en donde se hacen comentarios, pero no se evalúa porque no se toman decisiones sobre los resultados ni sobre las estrategias de enseñanza. Tampoco se evalúan las programaciones en muchas reuniones de departamentos docentes, porque no se toman decisiones ni sobre la extensión de los programas ni sobre la secuencia de los objetivos. Sin embargo, en aquellos casos en que el proceso de evaluar incluye la toma de decisiones, por un lado, cambian sustancial mente las actuaciones de los citados órganos docentes y, por otro, se enriquecen y perfeccionan los contenidos conceptuales y procedimentales no sólo de los alumnos, sino también de los profesores. Todo grupo debe adoptar un proceso racional -inicialmente debe ser sencillo- de toma de decisiones y obligarse disciplinadamente a seguido sin improvisar excesivas modificaciones sobre la marcha. Esto no se contradice con la conveniencia de dedicar periódicamente un tiempo a analizar el proceso para ir introduciendo mejoras más complejas. La estructura de cada fase del proceso debe utilizar, en primer lugar, una técnica de análisis que permita formular todos los posibles problemas, causas, soluciones, etc.; para reducidos posteriormente a las alternativas más viables mediante una técnica de selección. Es decir, un proceso en «zigzag»que sucesivamente se abra de modo creativo a todas las alternativas para luego sacrificar la mayoría de ellas con objeto de concentrarse en el problema más importante y en la solución más viable. A manera de ejemplo, se sugiere el siguiente para un escenario restringido al ámbito de los aprendizajes, que es el más frecuente en las Juntas de Evaluación. Decisiones previas Para agilizar el proceso formal de toma de decisiones en la Junta de Evaluación, se deben tomar en el foro adecuado una serie de decisiones previas, más fáciles 4.1. 242 La evaluación de aprendizajes por no ser irreversibles, por lo que se pueden rectificar cuantas veces se estime oportuno. Son fundamentalmente tres, como aparece en el siguiente esquema: Opciones Organización funcional Datos 1. Opciones: Además de clarificar las metas, objetivos, estrategias de instrucción, etc., hay que decidir si se ofrece a los alumnos la opción de elegir entre asignaturas optativas; y; luego, dentro de cada asignatura, si se les ofrece un único programa a todos, o también programas diversificados, en los que los objetivos complementarios se calificarían con una gama completa de notas (de O a 10) y los mínimos con una restringida (de O a 5), o sencillamente con un apto/no apto. Asignatura Obligatoria Asignatura Optativa Programa Único Complem.lÚnico Programa Ayuda también tener presente un catálogo de las clases de decisiones que se van a considerar. 2. Organización funcional: Se trata de atribuir una función a cada miembro del grupo y diseñar la dinámica de las reuniones. 3. Datos: Decidir qué datos se van a llevar a la Junta, es decir, las calificaciones numéricas o literales, simples o matizadas. A continuación se ofrecen Toma de decisiones en la evaluación educativa diferentes modelos de informes, para matizar las calificaciones insatisfactorias, que los profesores se comprometen a aportar a la Junta de Evaluación. MODELO A CURSO: A A P C P C . EVALUACiÓN: NOMBRE SOCIALES MATEMÁTICAS LENGUA CATEGORíAS (Siglas) 1. Conceptuales (C): (M) Memorización: No recuerda datos. (1<) Comprensión: No los comprende. 2. Procedimentales (P): (R) Aplicación: No es capaz de resolver cuestiones. 2. Afectivas (A): (T) Atención: Es incapaz de mantener una atención sostenida. (1) Interés: No demuestra interés. (O) Otras causas que hay que explicar en un informe más detallado: - Aptitud deficiente para la materia. - Problemas personales. - Falta de base. - No dedica tiempo al estudio. Falta de orden, puntualidad, disciplina, etc. Desconoce técnicas de estudio adecuadas. MODELO B 72548 96 3 CURSO: 10 1 ASIGNATURA NOMBRE CATEGORíAS: 1. Bajo nivel de aptitudes. 2. Retraso en el aprendizaje. 3. Falta de interés. 4. Nivel de atención bajo. 5. Problemas personales. 6. No entrega los trabajos a tiempo. 7. Aparentemente no estudia. 8. Deficiencias en el recuerdo de datos. 9. Deficiencias de comprensión. 10. Deficiencias de aplicación. 243 244 La evaluación 4.2. de aprendizajes Proceso Los pasos del ejemplo que estamos sugiriendo se simbolizan en el siguiente diagrama: Psicólogo Médico Departamento Plan de acción Controles 1. Técnicas: Las técnicas de análisis y selección que se aplican a lo largo del proceso se simbolizan en el diagrama de la siguiente manera: ~ EXPLORACIÓN:Brainstorming o Phillips 66, dependiendo del número de personas, completado con QDCC o diagrama causaefecto. <> SELECCIÓNBINARIA:Sencillamente sí/no. V SELECCIÓNMÚLTIPLE:Voto ponderado. C) PERTsimplificado. c=J OPERACIONESdecididas en procesos previos. 2. Pasos: La secuencia de pasos simbolizada en el diagrama, que a primera vista puede antojarse compleja, pero que en realidad muchos califican hasta de obvia, es la siguiente: O. Datos sobre alumnos con calificaciones insatisfactorias, aportados según el modelo de informe adoptado en las decisiones previas. Toma de decisiones en la evaluación educativa 245 1. Problema: 1.1. Enumerar, por medio de un brainstorming o Phillips 66 completado con QDCC, los problemas planteados por los datos aportados. 1.2. Filtrar, por medio de una selección simple sí/no, solo los susceptibles de decisiones ejecutivas; es decir, los problemas relacionados con el aprendizaje. El resto de problemas, enviados al órgano competente (Jefatura de Estudios, Departamento, Gabinete de Orientación, etc.). 1.3. Seleccionar un problema de aprendizaje por medio de la selección ponderada o matriz de clasificación por criterios. 2. Soluciones: 2.1. Formular todas las posibles causas del problema seleccionado medio de un brainstorming o Phillips 66. por 2.2. Formular todas las soluciones sugeridas por las causas detectadas a través de brainstorming o Phillips 66 completado con diagrama causa-efecto. 2.3. Aplicar criterios no sólo cognoscitivos (capacidad demostrada de comprensión, aplicación, etc., de contenidos), sino también afectivos (interés, aptitudes, etc.), de acuerdo con el modelo de recogida de datos decidido previamente. 2.4. Seleccionar la mejor alternativa por medio de la selección ponderada o de la matriz de clasificación por criterios. 3. Plan de acción: Concretar las acciones, personas responsables de cada acción, sistema de seguimiento, recursos y tiempos. 4. Introducir las mejoras adecuadas en las decisiones previas y los pasos del proceso, con el fin de empezar a recoger nuevos datos para la sesión siguiente. NOI)Vn'VA:I:la S:lS,") .1 Son varios los criterios que se pueden adoptar para determinar las distintas clases de evaluación (Rodríguez Diéguez, 1980). Entre otros, conviene citar el sistema que se evalúa (dando lugar a la evaluación interna y externa), el momento de aplicación (evaluación inicial, intermedia y final) y los fines y funciones de la evaluación (evaluación formativa y sumativa). SISTEMA EVALUADO Se habla de evaluación interna y externa, según el grado de pertenencia del evaluador al sistema evaluado. Si se considera la evaluación referida al aprendiz, se habla de auto y de heteroevaluación. En la heteroevaluación, cuyo estudio ocupa gran parte de la presente publicación, el profesor evalúa al alumno. Sin embargo, uno de los objetivos de la educación es también capacitar a éste a reflexionar sobre sí mismo, más cuando la capacidad de valorar es un componente indispensable de todo aprendizaje. Por todo ello, el profesor debe ayudar al alumno a que, a partir de la heteroevaluación del profesor y de otra serie de datos, sea capaz de valorar sus propios procesos de aprendizaje y de tomar sus decisiones, con objeto de conformar «esquemas personales» válidos para poder usados en el futuro cuando se enfrente a situaciones análogas. En esto consiste justamente la autoevaluación que, aunque a menudo pueda ser imprecisa, no es muy difícil de conseguir, dado que cualquier alumno posee siempre un juicio subjetivo de lo que hace; tanto más exacto cuanto más avanza en el sistema educativo. Si se considera como sistema la clase, aparece como interna la evaluación ordinaria integrada en el Proyecto Curricular, que es responsabilidad de los profesores implicados en el proceso de instrucción; y como externa en diversos grados las distintas clases de evaluación asistida, que suponen el asesoramiento o intervención de orientadores especializados (García Vidal y González Manjón,1992). 1. 250 La evaluación de aprendizajes Se pueden considerar otros sistemas de referencia como el centro o todo el sistema educativo, dando lugar a otras clases de evaluación interna y externa. 2. TIEMPO DE APLICACiÓN Un segundo criterio es el momento en que se aplica dentro del proceso de instrucción. En este sentido se puede hablar de evaluación inicial, intermedia y final. La evaluación intermedia yfinal pueden asimilarse respectivamente a la evaluaciónformativa y sumativa que consideraremos posteriormente clasificadas desde otro criterio; sin embargo, la evaluación inicial, con características claramente formativas, tiene un perfil diferencial, por lo que pasamos a estudiada a continuación. La evaluación inicial, conocida también como evaluación diagnóstica, es la que proporciona información sobre el alumno para tomar decisiones antes de comenzar un proceso de instrucción. 1. Tipos de diagnóstico: Se suelen considerar, en primer lugar, varios tipos de diagnóstico (Brueckner y Bond, 1971). a) General: Su finalidad es básicamente preventiva, con objeto de determinar la situación de cada alumno antes de iniciar un proceso de instrucción y asegurar, así, que las características de la enseñanza se ajusten a las propias del aprendizaje. Se refiere, pues, a todo el grupo, y ha de hacerse sobre las distintas variables que se consideren relevantes. No puede reducirse, por ello, a un test que se pasa el primer día de clase; sino que ha de extenderse a un cierto período de tiempo, que puede coincidir con el repaso inicial por el que los alumnos van recordando y activando dichas variables. Como parte esencial del proceso ordinario de programación, es la que afecta más directamente al profesor. b) Analítico: Busca aumentar el conocimiento de las variables y de los alumnos que presentan cualquier tipo de problemas, con objeto de que tales problemas puedan ser identificados y precisados lo mejor posible y, así, tratados adecuadamente. Su finalidad es, pues, fundamentalmente correctiva. Puede ser llevado a cabo por el profesorado con o sin la intervención de otros especialistas. c) Individual: Se refiere a alumnos con dificultades en el aprendizaje (DA) o necesidades educativas especiales (n.e.e.) (Álvarez et al., 1999), con frecuentes y generalizados fracasos. Para llevado a cabo, se aconseja una actuación conjunta del profesorado y de otros especialistas (Pérez]uste y G. Ramos, 1989). 2. Contenido del diagnóstico: En segundo lugar, hay que considerar el contenido de la información necesaria para todo diagnóstico. Se reduce básica- Clases de evaluación mente a lo que Halwachs (1975) designa con la expresión «estructuras de acogida», que indica el conjunto de conductas, representaciones y maneras de razonar propias del alumno que conforman la estructura en la que se inserta y organiza el nuevo conocimiento que va adquiriendo. No existe un consenso sobre los aspectos que deben ser objeto de esta evaluación, ni siquiera dentro de una misma teoría del aprendizaje (Álvarez Rojo, 1984; Buisán y Marín, 1984; García Vidal y González Manjón, 1992; Pérez]uste y Ramos, 1989). Tradicionalmente, se ha entendido como la evaluación de una serie de capacidades básicas, fundamentalmente cognitivas, relacionadas con los logros académicos. Más tarde, se insistió más bien en la necesidad de evaluar conocimientos previos específicos y pertinentes para los nuevos aprendizajes. Desde otras perspectivas, se ha puesto de relieve la importancia de los esquemas de conocimientos previos, es decir, los «inclusores» en nomenclatura de Ausubel, encaminados a los nuevos aprendizajes y a la organización y planificación de la enseñanza. Pero hay autores que critican la excesiva preponderancia de las variables de carácter cognitivo, olvidándose de evaluar otras no cognitivas, tales como los factores motivacionales y afectivos, cuya importancia en el ámbito educativo ha sido probada empíricamente. Otros van más allá y critican la evaluación diagnóstica que se centra exclusivamente en los niveles actuales del desarrollo del alumno en un momento concreto y no considera sus potencialidades a través de la mediación de los otros. Así,Vygotsky (1964) (Álvarezy del Río, 1990) mantiene la teoría de la construcción social de la inteligencia, que integra los conceptos de <. eral y Aplicada, 131(29),1033-1055 FREDERIKSEN, N., MISLEvy' R. y BEJAR, 1. (1993). Testtheoryfor .. Hillsdale, NY: LEA. . A. (1973). «Multiple-choice vs. true-false: A comparison of reliabilities and rrent validities».Joumal ofEducationalMeasurement, 10,297-304. 'A, P.(1975). La dinámica de la entrevista enfunción del tutor. Madrid: INCIE. GAGNÉ, R. M. (1970). Las condiciones del aprendizaje. Madrid: Aguila (orig. 1985). GAGNÉ, R. M. Y BRIGGS, L.]. (1976). La planificación de la enseñanza. Sus principios. México: 'frillas (orig. 1973). GARCÍA-MENDOZA,A. y SOLER, E. (1994). Banco de Pruebas. Tomo 1. Física. Monografía núm. 23 de Aula Abierta. ICE de la Universidad de Oviedo. GARCÍAVIDAL,]. Y GONZÁLEZ MANJÓN, D. (1992). Evaluación e Informe Psicope- dagógico. Madrid: Eos .. GICKLING, E. E. & THOMPSON, V (1985). «A personal view of curriculum-based assessment». Exceptional Children, 52, 205-218. GIL, E. (1992). El Sistema Educativo de la Compañía dejesús. La «Ratio studiorum». Madrid: UPCO. GIMENO SACRISTÁN,]. (1981). Teoría de la Enseñanza y Desarrollo del Currículo. Madrid: Anaya. GIMENO Madrid:SACRISTÁN,]. Morata. (1988). El Currículo: Una Reflexión sobre la práctica. GLASER, R. 1. (1963). «Instructional Technology and the measurement of learning outcomes: some questions». American Psychologist,18,519-521. GÓMEZ, P. C. y GARCÍA, A. (1991). Manual TTl. Procedimientos para aprender a aprender. Madrid: Eos. GONZÁLEZ-ROMÁ, V y ESPEJO, B. (2003). «Testing the midcl1e response categories not sure, in between, and? in polytomous items». Psicothema, 15,278-284. GORING, P. O. (1971). Manual de mediciones y evaluación del rendimiento en los estudios. Buenos Aires: Kapelusz. 302 La evaluación de aprendizajes learning, 1960-1980. One participants .observa- evaluación. en la enseñanza. México: 'frillas Aprovechamiento. México: 'lliIlas Valladolid: ICE evdluatingalternatives to tradi- subseql.Ú~l1tresponses quality of preceding. responses on ta an essay question». Journal of entre la physique du physicienet la Pedagogie,33,19-29. SWAMINATHAN,H. y ROGERS, H. J. (1991). Fundamentals of Newbury Park, CA: Sage. NARAYANA,P.YSETIADI, H. (1996). «Construcción conceptas básicos, avances técnicos y aplicaciones». En :Psicometría. Madrid: Universitas. «Correlates, causes, effects, and treatment of test anxiety». ofEducationalResearch, 58(1), 47-77. Evaluación y Medición en Id Escueld. México: Kapelusz (orig. 1976). M. B. (1968). «Predicting grades from below chance test sco- JournCfIofEducational Measurement, 5, 45-53. P. (1981). Relationship between free-response and choice-type tests of achievement: A review oJthe literature. ERrC Document Reproduction Service P. W y WAINER, H. (1993). Differential item functioning. Lawrence Erlbaum. HOOVER, K.. H. (1977). «values Education. Developing HilIsdale, NJ: Values».EnL. Rubin (ed.): Currículum Handbook. The Disciplines, Current Movementand Methodology. Bastan: Allyn & Bacon. lnstructional HOWELL, K. y MOREHEAD, M. (1987). Curriculum-based(waluationfor remedial education. Columbus, OHIO: Merrill. special and HUBER, p. (1984). Toma de decisiones en la gerencia. México: Trillas (orig. 1980). HUGHES, D. c., KEELING, B. YruCK, B. (1983). «Effectsofachievement expectations and handwriting quality on scoring essays». Journal of Educational Measurement, 20, 65-70. HUNKINS, F. P. (1972). Questioning strategies and techniques. Bastan: Allyn & Bacon. ]OINT COMMITTEE ON TESTING PRACTICES (1988). Code offair testing practices in education. Washington, D. c.: APA. 303 Referencias bibliográficas KEMMIS, S. (1988). El Currículo: más allá de la teoría de la reproducción. Madrid: Morata (orig. 1986). ~~'lr TREGOE, B. (1983). El nuevo directivo KEP~;~. KRIPPENDORFF, K. (1980). Content analysis. An introttuc'tion Beverly Hills, CA: Sage Publications. LAFOURCADE, P.D. (1977). Evaluación de los aprendizajes. Madrid: CinceL LEFRANCOIS, G. R. (1988). Psychology for teaching. Belmont, CA: Wadsworth (6thed.). LEWIN, K (1946). <