Un rapport européen de Nathalie Mons recadre l'efficacité des évaluations standardisées pour les systèmes éducatifs

Par Nathalie Mons

« Les outils d’évaluation ne doivent jamais être conçus comme des instruments techniques neutres, ils sont au service d’une vision de l’école ». Nathalie Mons, maître de conférences à l’université de Grenoble II, spécialiste de l’analyse internationale des politiques éducatives, a réalisé un rapport pour la Commission Européenne (Agence Eurydice) sur les politiques européennes d’évaluation standardisée et leurs effets sur les acquis des élèves. Chercheur-associé à Sciences Po-Paris et professeur invité au London Institute of Education, elle dresse ici un portait du développement de ces politiques en Europe et une synthèse de la recherche internationale sur les résultats de ces programme sur l’efficacité et les inégalités scolaires.

Les évaluations standardisées qui existent désormais chez nous en CE1 et CM2 ont soulevé l’année dernière une vive polémique. Est-ce que l’on retrouve ce type d’instrument dans les pays européens ?

Oui, le développement des politiques d’évaluation standardisée est une tendance lourde dans l’Union Européenne. Aujourd’hui, sur les 30 pays qui constituent notre échantillon dans cette enquête, seuls 5 pays ou même régions – la Grèce, la République Tchèque, le Pays de Galle au Royaume-Uni, la Communauté germanophone belge et le Liechtenstein… – n’ont pas mis en œuvre cet outil. Le phénomène n’est pas seulement européen. 85% des pays de l’OCDE ont adopté ces dispositifs de testing. Ces politiques se sont majoritairement développées à la fin des années 1990 ou 2000. La France avec de premiers tests dès les années 1970-1980 est donc tout à fait pionnière en la matière. Une communication importante a entouré les nouvelles épreuves standardisées du primaire l’année dernière mais nous sommes bien là dans une tradition française qui n’a d’ailleurs pas toujours suscité une polémique aussi aiguë auprès du corps enseignant sans pour autant entraîner il est vrai une adhésion totale. Cette forte expérience française, développée dans le cadre de la DEPP, la direction du Ministère chargée entre autres des statistiques, est désormais reconnue internationalement. On peut souhaiter qu’à terme elle soit de nouveau davantage mobilisée que lors de l’élaboration des tests l’année dernière.

Le développement de l’évaluation standardisée dans la majorité des pays développés signifie-t-il qu’il s’agit désormais d’un outil incontournable ?

C’est la rhétorique politique aujourd’hui développée autour de cet outil. Cette politique d’évaluation standardisée est présentée comme de bon sens. Il faut tester les élèves pour savoir où nous en sommes et parce que l’instrument est censé améliorer leurs apprentissages. En fait, je montre dans ce rapport pour l’agence Eurydice que les bases théoriques de cette politique sont très faibles, la recherche n’a pas encore démontré par quel processus ces tests pourraient permettre de faire progresser les acquis des élèves. Il y a certaines pistes – les élèves, enseignants et parents confrontés à des objectifs clairs offrant un challenge se mettraient en mouvement pour atteindre ces buts, cette stimulation externe permettant de dynamiser l’ensemble du système. Outre le fait que ces considérations assez vagues reposent sur des pré-conçus, certaines de ces allégations théoriques ont été démontées par des recherches empiriques. Par exemple, les enseignants peuvent être certes stimulés par la pression de ces tests, mais dans le sens de pratiques pédagogiques qui peuvent être considérées comme déviantes : le phénomène du « teaching to the test » qui entraîne une trop forte focalisation de l’enseignement sur les épreuves standardisées, l’élimination officieuse des tests des élèves en difficulté, voire une moindre attention portée aux « cas désespérés » qui ne permettent pas à court terme de faire progresser les résultats de leurs écoles. Ces tests ne relèvent pas donc d’une application simple et de bon sens et leur mise en oeuvre, qui peut être tout à fait utile à des fins de pilotage du système, doit être menée avec circonspection.

Comment peut-on alors expliquer cet engouement pour l’évaluation standardisée ?

L’outil doit être considéré en conjonction avec d’autres politiques éducatives pour être mieux compris. Car ces dispositifs sont ainsi désormais à la croisée des nouvelles tendances qui caractérisent les politiques éducatives développées dans les pays de l’OCDE depuis les années 1980. Pour en affiner la compréhension, l’évaluation standardisée doit, en effet, être mise en relation avec quatre évolutions récentes de nos systèmes éducatifs:

a) la centration sur une mesure quantitative des apprentissages et la priorité donnée à des objectifs cognitifs au détriment d’objectifs de socialisation larges, en lien avec le développement du concept de compétences dans la veine économiste de la théorie du capital humain et des préconisations du New Public Management;

b) le développement d’un nouveau contrôle social des enseignants et des écoles par les responsables administratifs de l’éducation au sens large (districts, municipalités, administrations déconcentrées, régions suivant les pays) dans le cadre le plus souvent de réformes de décentralisation et d’autonomie scolaire;

c) l’évolution de la répartition des pouvoirs entre les acteurs centraux ou fédéraux et les responsables locaux qui voient ainsi leurs marges de manœuvre fortement encadrée et, enfin,

d) le développement de la redevabilité de l’École envers le grand public, en général, et les parents, en particulier, dans le cadre de nouvelles relations entre le politique, l’État, l’administration, d’un côté, et la société civile, de l’autre. Ces nouvelles relations sont sous-tendues par l’avènement d’une «démocratie du public» dans laquelle la définition du bien commun n’est plus le seul monopole des dirigeants légitimes.

Fondamentalement l’évaluation standardisée remet en cause la régulation professionnelle et politique traditionnelle de nos systèmes éducatifs : elle renouvelle la place des parents dans l’école, le contrôle social exercé sur les enseignants et les acteurs locaux, elle redéfinit les relations entre administration et administrés, et plus largement entre politiques et citoyens dans un nouveau cadre de reddition des comptes. Hier l’évaluation standardisée centrée sur la mesure des apprentissages s’intéressait principalement à l’élève, aujourd’hui son champ d’intervention est beaucoup plus large et met en lien le pédagogique – sa terre d’élection traditionnelle – et le politique dont il est devenu un outil de pilotage. Ce changement de nature et l’évolution politique qu’il suscite explique que l’instrument soit chahuté dans de nombreux pays notamment par les enseignants.

Retrouve-t-on des polémiques identiques à celle que nous avons connue en France dans d’autres pays ?

Oui et non. Dans certains pays, le débat autour du testing est vif dans le monde éducatif mais aussi politique et médiatique. Aux Etats-Unis, la polémique a même investi le terrain judiciaire : une association de défense de la minorité hispanique a récemment attaqué l’Etat du Texas – un des pionniers en matière d’évaluation standardisée – pour discrimination envers les élèves de cette communauté. En effet, plusieurs recherches qualitatives montraient que le testing à forts enjeux pratiqué dans cet Etat avait conduit les enseignants à accorder moins d’attention à ces élèves qui, souvent en difficulté, ne permettaient pas d’améliorer les performances de leurs écoles à court terme. En Angleterre, le printemps dernier a aussi été marqué par un vif débat autour du boycott des tests par les enseignants et un recul significatif du gouvernement acceptant de supprimer certaines épreuves standardisées.

Mais ce mouvement de résistance à l’évaluation standardisée n’est pas systématique. Par exemple, en Suède, un sondage administré par l’Agence Nationale pour l’Éducation (2004, National Agency for Education), montre que les enseignants adhérent dans leur très grande majorité aux tests nationaux développés dans leur pays. Une grande majorité d’entre eux déclarent que l’évaluation standardisée donne des lignes directrices claires sur les contenus à enseigner, aide à mettre en évidence les faiblesses et les atouts des élèves et constitue un cadre national cohérent dans un système aujourd’hui fortement décentralisé qui peut laisser craindre l’apparition d’inégalités entre les régions et entre les établissements. En fait cette résistance se développe plus particulièrement dans les pays ayant mis en œuvre des dispositifs à forts enjeux [1] ou des programmes qui laissent peu de place à l’expertise et l’intervention des enseignants et cadres intermédiaires. La résistance des acteurs de terrain à la culture de l’évaluation, bien que fortement dominante, ne serait pas automatique, elle pourrait dépendre des conditions de mise en œuvre de ces politiques.

Y a-t-il une réflexion en ce sens dans certains pays ?

Oui, les pays qui ont dû faire face aux effets pervers du testing dont je parlais précédemment évoluent vers un assouplissement des dispositifs et une plus grande responsabilisation des équipes pédagogiques. En cette fin de la décennie 2000, on perçoit en effet quatre grandes tendances: a) les programmes à fort enjeux ont tendance à s’alléger du fait de leurs effets déviants, – l’Angleterre vient par exemple de supprimer l’épreuve d’évaluation, qui à la fin de ce qu’ils appellent le Key stage 3 concernait les élèves de 14 ans, b) les enseignants gagnent en main mise sur le système – toujours en Angleterre, c’est eux qui choisissent désormais la date de passation de certains tests, ils doivent attendre que l’élève ait atteint le bon niveau pour le lui faire passer, l’Ecosse a également mis en place une banque d’items de tests qui permet aux enseignants de concevoir leurs tests, d) de façon générale, une nouvelle réflexion se développe autour de l’évaluation-diagnostic qui est au service du travail de l’enseignant, d) l’évaluation externe et de plus en plus couplée à l’évaluation interne réalisée par les équipes pédagogiques : on s’est rendu compte que de renvoyer aux équipes pédagogiques des résultats dont ils ne s’emparent pas ne sert à rien, pour qu’ils progressent il faut qu’ils soient acteurs de leur propre diagnostic, ce qui n’annule en rien l’intérêt d’un regard externe.

Pratique-t-on des politiques similaires d’évaluation standardisée dans tous les pays européens ?

Non, les dispositifs mis en place sont variables et surtout obéissent à des logiques très différentes. Pour autant se dessinent en Europe certaines grandes tendances, l’Angleterre étant souvent en marge de ce modèle européen continental que j’appelle d’« accountability douce » par opposition au modèle anglo-saxon d’ « accountability dure ». Il est caractérisé par un nombre de tests qui demeure restreint – la France se situant dans la moyenne haute sur ce sujet -, un spectre de discipline testées relativement fermé – mais allant parfois au-delà de deux disciplines fondamentales mathématiques et langue maternelle. La publication des résultats en direction du grand public est largement minoritaire, elle ne concerne que 6 pays ou régions européennes, comme l’Islande, l’Angleterre, le Danemark, la Suède ou encore les Pays-Bas. Les législations de nombreux pays interdisent explicitement la publication des résultats des écoles et leur mise en concurrence parce qu’un tel contexte n’est pas perçu comme permettant un développement harmonieux des activités éducatives. Quand les résultats sont publiés, ils intègrent le plus souvent des données en termes de valeur-ajoutée (par opposition aux données brutes) qui tiennent compte des caractéristiques des publics scolaires accueillis, sur le modèle de ce que nous avons établi pour le lycée en France. En effet, savoir que les établissements qui accueillent des populations socialement favorisées sont en tête de palmarès présente un intérêt limité.

Le rapport Eurydice insiste également sur les acteurs décideurs dans les dispositifs d’évaluation standardisée.

Oui, la gouvernance du dispositif est une caractéristique clef de ces politiques qui ont à voir avec le contrôle social et professionnel des acteurs impliqués dans le système éducatif. Il est donc important de savoir quels sont les acteurs impliqués dans l’élaboration des tests, leur administration et leur correction. Là encore se dessinent des grandes tendances. La conception de ces épreuves standardisées est de plus en plus confiée à des autorités externes indépendantes des ministères qui assez logiquement ne peuvent pas être juges et parties quand ces tests servent à évaluer leur politique. L’externalisation de l’élaboration des tests est fondamentale pour trois raisons: elle permet de mobiliser une expertise accrue qu’il est difficile de trouver en vase-clos, elle est une des conditions de l’association au dispositif des acteurs concernés sur le terrain – les enseignants- et donc de leur acceptation sociale finale du programme, elle garantit transparence et donc une légitimité démocratique au système. 65% des pays ou régions européens analysés ici la pratiquent. C’est donc aujourd’hui le modèle largement dominant. L’évolution récente de la France la dernière année vers un dispositif qui privilégie les acteurs internes au ministère ne suit pas cette tendance de fond.

Qu’en est-il de l’administration et de la correction des épreuves ?

Là encore des modèles dominants : les tests sont le plus souvent administrés par les enseignants eux-mêmes avec cependant des systèmes qui permettent un minimum de contrôle (l’enseignant administre le test dans une autre classe, une autre école, des personnes supervisent la passation….). Par contre, la notation est rarement laissée entre leurs mains : seuls 34% des pays et régions européennes analysés ici le pratiquent. Les corrections sont très majoritairement le fait d’acteurs externes. Ce qui est logique compte tenu de la volonté de porter un regard extérieur sur les acquis des élèves.

Qu’en est-il de la publication des résultats qui a fait polémique en France ?

C’est un des points cruciaux de ce modèle que j’appelle d’accountability douce. La responsabilisation des équipes pédagogiques sur la base des résultats aux tests standardisés est très peu courante en Europe. Seuls huit pays obligent leurs établissements à intégrer les résultats des tests dans leur évaluation interne. La responsabilité vis-à-vis du grand public, par la publication de classements, est plus rare encore, comme je le disais précédemment, même si elle fait souvent débat, notamment sous la pression des médias qui revendiquent le droit d’être le véhicule privilégié de ces informations. Il n’y a que six pays ou régions européennes qui publient les résultats.

Si ces tests se sont développés, est-ce parce que les recherches ont pu prouver leur efficacité ?

Comme je l’expliquais précédemment le cadre théorique de l’évaluation standardisée est faible. Les recherches empiriques sur les effets de ces dispositifs sur l’efficacité et l’égalité scolaire demeurent aussi à ce jour non convergentes. On ne peut pas dire si ces tests améliorent ou non les acquis des élèves car les résultats des études vont souvent dans des voies différentes. Aucun consensus scientifique ne se dégage : selon les niveaux d’enseignement, les disciplines observées, les dispositifs construits ou les périodes de mise en oeuvre observées, les conclusions des études sur l’impact du testing varient fortement et aléatoirement à la fois en termes d’efficacité et d’égalité scolaires. La méta-analyse développée par Lee en 2008 pour tenter une synthèse des résultats de plusieurs recherches s’est avérée un échec. Au-delà de l’efficacité et de l’égalité scolaire, le questionnement en termes d’efficience (l’évaluation standardisée est-elle coût-efficace ?) n’est pas davantage avancé pour une raison très simple : l’évaluation des coûts budgétaires de ces politiques a été à ce jour très peu explorée. On peut s’étonner d’un tel manque de curiosité à la fois scientifique et politique alors que ces réformes s’inscrivent dans une filiation théorique économiste dont un des objectifs, à juste titre, est de maximiser l’utilisation des ressources publiques.

Vous détaillez particulièrement deux études de cas américaines – l’expérience du Texas et du district de Chicago dans votre rapport. Pourquoi ?

Ces études de cas qui mêlent création d’un dispositif et recherche sur leur impact sont édifiantes. Partons par exemple ce que les chercheurs américains ont appelé le « mythe texan ». Au début des années 1990, l’État américain du Texas décide d’imposer des tests d’évaluation des acquis aux élèves à la fin des 4ème, 8ème et 10ème années. Ce dispositif du Texas Assessment of Academic Skills (TAAS) a pour but de responsabiliser les écoles et les élèves, les budgets des établissements et les carrières scolaires étant liés aux résultats aux tests.

Les premières recherches qui visaient à évaluer les effets de ce dispositif sur les acquis des élèves mirent en évidence des résultats positifs. En particulier, elles montrèrent que les résultats au test TAAS avaient fortement progressé durant les années 1990 à la fois en moyenne et pour les différents groupes ethniques (blancs mais aussi hispaniques et afro-américains). Ce premier enthousiasme fut rapidement refroidi par une série de recherches qui, à partir des mêmes données liées au test TAAS et de la prise en compte de tests nationaux, ré-analysaient les effets de ce dispositif. En effet, si les progressions au test local du Texas – le TAAS – pouvaient paraître particulièrement fortes, la prise en compte des résultats des élèves texans au test standardisé américain administré au niveau fédéral – le NAEP ([2] ) – ainsi qu’une analyse chronologique plus longue révélaient des progressions qui étaient soit très fortement diminuées soit non significatives selon les disciplines. Ces premiers résultats mirent ainsi en évidence quelques règles basiques méthodologiques à respecter pour permettre une évaluation scientifiquement fondée des dispositifs d’évaluation standardisée. Leurs effets ne doivent tout d’abord pas être analysés à partir des résultats du test mis en œuvre localement : l’évaluation locale ne peut servir à la fois de moyen d’intervention et être son propre outil d’évaluation. L’écart entre les résultats à des épreuves externes et ceux des tests locaux a été mis en évidence de façon consistante sur une pluralité d’études: le test local, surtout lorsqu’il est associé à des forts enjeux, voit, avant d’atteindre un plafond, ses résultats fortement progresser lors des premières années de sa mise en œuvre, principalement sous l’effet d’un phénomène d’entrainement intensif au test (le phénomène du «teaching to the test»). Une évaluation d’un dispositif de testing qui se limiterait aux résultats des élèves à l’outil d’évaluation locale ne serait en fait qu’une démonstration statistique du phénomène de «teaching to the test» et non pas une analyse du bien-fondé de cette politique éducative. Autre point fondamental de ces premières études: les effets de l’évaluation standardisée doivent être analysés sur le long terme, du fait d’effets probables artificiels lors des toutes premières années.

Qu’en est-il des effets de ce dispositif sur l’égalité scolaire ?

C’est un autre point crucial sur lequel les chercheurs se sont penchés. Les effets exceptionnels du nouveau dispositif sur les résultats scolaires des minorités ethniques conduisirent certains auteurs à s’intéresser de près à l’administration du test lui-même. Ils découvrirent ainsi qu’une partie du «mythe texan» s’expliquait par l’exclusion du test des élèves présentant des difficultés scolaires. Des analyses qualitatives, comme celle de Booher-Jennings montrèrent également que les comportements des enseignants avaient changé depuis l’introduction du test : leur attention se portait moins sur les élèves en grande difficulté dont les progrès ne permettaient pas d’améliorer à court terme les résultats de leur école. Au total, l’expérience texane interrogea sur la consistance des effets positifs de l’évaluation standardisée, leur pérennité dans le temps, les effets pervers dont elle pouvait être assortis ainsi que sur les écueils méthodologiques de certaines recherches qui visaient à en analyser les conséquences.

Que faut-il conclure de tout cela ?

Il faut avancer avec circonspection dans le domaine des politiques d’évaluation standardisée. L’outil peut tout à fait avoir sa place dans un système éducatif mais les effets pervers que l’on peut voir se développer dans certains contextes nationaux invitent à la prudence. Il existe maintenant une littérature importante sur les effets de ces dispositifs qui permettent de mieux dessiner la voie à suivre ou du moins d’éviter les échecs criants. Les politiques doivent pouvoir s’emparer de cette littérature.

Avant d’être techniques, les choix sont tout d’abord politiques, un choix de modèle d’évaluation des politiques publiques : veut-on aller vers ce que les politologues appellent l’ « évaluation gestionnaire » (schématiquement une approche dans laquelle l’outil, conçu comme un instrument technique entre les mains de l’administration est inclus majoritairement dans une logique de reddition de compte interne à l’administration et au politique), le modèle de l’ « évaluation démocratique » (démarche élaborée par une pluralité d’acteurs avec une responsabilisation prépondérante envers le grand public associée à une publication externe des résultats des écoles) ou un modèle d’évaluation que j’appellerai « professionnalisante » (approche là aussi conçue par des acteurs pluralistes destinée de façon prépondérante à un usage par les professionnels, en particulier les enseignants, sans publication au grand public) ? De ces grands modèles politiques découlent un ensemble de caractéristiques plus techniques qui façonnent le dispositif d’évaluation standardisée et qui lui donnent sa cohérence, cohérence politique que certains pays ont du mal aujourd’hui à trouver faute d’une réflexion en amont sur les enjeux politiques de leur système éducatif. Les outils d’évaluation ne doivent jamais être conçus comme des instruments techniques neutres, ils sont au service d’une vision de l’école.

Nathalie Mons

Liens :

L’intégralité du rapport est disponible à l’adresse suivante :

http://eacea.ec.europa.eu/education/eurydice/documents/themat[…]

Ce rapport vient compléter un document qui dresse une analyse comparatiste des politiques d’évaluation standardisés en Europe :

http://eacea.ec.europa.eu/education/eurydice/documents/themat[…]

Dans le Café :

Dossier : L’évaluation de CM2

http://cafepedagogique.net/lesdossiers/Pages/evaluati[…]

Xavier Pons : Sans évaluation on prive les familles d’une politique éducative nationale

http://cafepedagogique.net/lemensuel/lesysteme/Pages/2009[…]

Le pilotage par les résultats est-il efficace ?

http://cafepedagogique.net/lemensuel/larecherche/Pages/8[…]

Peut-on évaluer l’Ecole ?

http://cafepedagogique.net/lesdossiers/Pages/2009/106_[…]

Le dossier Evaluation : le système éducatif à un tournant

http://cafepedagogique.net/lemensuel/lesysteme/Pages/1[…]

Nathalie Mons dans le Café :

Statistiques ethniques

http://cafepedagogique.net/lexpresso/Pages/2009/03/St[…]

Gouvernance des établissements : « L’heure n’est plus, en Europe, à une autonomie scolaire tout azimuts »

http://cafepedagogique.net/lesdossiers/Pages/2008/Gou[…]

Formation des enseignants : « Il faut encore que le gouvernement démontre que cette nouvelle organisation puisse améliorer la situation à terme pour les élèves ».

http://cafepedagogique.net/lesdossiers/Pages/2008/Form[…]

PISA : des indicateurs pour lutter contre les inégalités scolaires

http://cafepedagogique.net/lexpresso/Pages/2007/12/PI[…]

La France fait-elle le bon choix ?

http://cafepedagogique.net/lesdossiers/Pages/2007/r200[…]

[1] Les fameux « high-stakes tests » associent les performances des élèves aux tests avec leurs carrières scolaires, les budgets des écoles ou encore les rémunérations des enseignants

[2] National Assessment of Educational Progress