Auteur d’un rapport européen sur les effets des évaluations standardisées et sur les politiques d’évaluations, Nathalie Mons ne voit pas seulement dans les évaluations de CM2 « une formidable régression technique ». Elles sont aussi le résultat des errements des politiques.
Cette année encore les évaluations nationales de CM2 sont mal parties et il faudra probablement à la DEPP quelque « coefficient correcteur » pour leur donner sens… Quel regard porte le chercheur sur ces péripéties ?
Il y a deux façons de créer des évaluations standardisées comparables dans le temps. Soit on crée initialement une base de données d’items avec des correspondances entre eux en termes de difficultés, correspondance testées à l’avance, ce qui est la meilleure solution. Soit, quand on a raté le début d’une opération, on peut créer de nouveaux items que l’on raccroche a posteriori à ceux passés lors des premières épreuves, par un travail de rajustement statistique tel qu’il a été réalisé l’année dernière par la DEPP. Pour un acteur qui a des compétences techniques aussi solides que la DEPP les deux solutions sont valides scientifiquement. Par contre politiquement la seconde peut entraîner un fort risque de perte de légitimité de l’instrument statistique, c’est ce qui se passe actuellement.
Le montage du dispositif d’évaluation a mal été engagé initialement, dominé la première année par un acteur qui manquait totalement de compétences techniques, la DGESCO. Il aurait fallu mettre tout cela à plat l’année dernière, repartir de zéro en s’appuyant sur les nouveaux apports techniques de la DEPP. C’était la condition pour redonner une crédibilité à l’instrument. Les tests standardisés sont certes des outils techniques mais aussi sont devenus, dans la majorité des pays européens d’ailleurs, des instruments politiques développés dans une nouvelle perspective d’évaluation des réformes, de reddition des comptes en direction des citoyens et des électeurs ainsi que des outils d’orientation des conduites pédagogiques. A ce titre les conditions de leur légitimité politique doivent être observées de près. C’est ce qui fait défaut aujourd’hui dans le dispositif français.
Le ministère se heurte au refus d’une évaluation bilan du système éducatif alors même que la LOLF l’impose. Cette forme de pilotage, qui est nouvelle en France, est-elle devenue universelle ?
Le Ministère se heurte actuellement au refus d’un dispositif dont les objectifs politiques ne sont pas clairs. S’agit-il d’une évaluation diagnostic ? Elle doit alors concerner tous les élèves en début d’année. S’agit-il d’une évaluation bilan qui donne une photo des acquis des élèves à un palier particulier du système éducatif ? Il est alors préférable qu’elle soit conduite en fin d’année et pour des raisons de coût sur un échantillon représentatif d’élèves et d’établissement.
Le dispositif actuel est un mélange des deux qui n’a pas de sens statistiquement parlant. A chaque objectif doit correspondre un test différent. C’est une confusion que l’on observe dans de nombreux pays européens, surtout au début de la création de tels dispositifs, puis les compétences techniques progressant les outils sont progressivement affinés. En France, avant que la DGESCO ne s’empare du dossier et tente de le piloter seule, la DEPP avait déjà largement acquis ce niveau de compétences techniques, la France avait un panel fort riche d’évaluations standardisées. Ce dispositif représente une formidable régression technique. Il a moins un objectif de validité de la mesure des acquis scolaire qu’un objectif politique d’évaluation des réformes et à terme de reddition des comptes par les acteurs locaux. Les contraintes de la LOLF en termes d’indicateurs nécessiterait seulement une évaluation sur un échantillon.
Les syndicats refusent la concurrence entre écoles et demandent que l’évaluation bilan soit faite sur échantillon de façon à ce qu’elle n’identifie pas les écoles. Dans certains pays les résultats sont publics et guident les parents dans le choix de leur établissement. Quels en sont les résultats en terme d’efficacité du système éducatif ?
Il n’y a pas de consensus scientifique sur les effets des évaluations standardisées sur les performances des élèves. Les modèles théoriques, en particulier issus de l’économie néo-classique, qui sont derrière ce type de réformes sont extrêmement faibles : pourquoi imposer un test conduirait-il à une progression des résultats scolaires ? Empiriquement, rien n’est démontré en tout cas. Les acteurs n’ont pas les comportements attendus : les parents, même lorsque les résultats des écoles sont publiés, de fait effectuent peu leur choix en fonction de ces indicateurs qui pour être valides doivent être des indicateurs de valeur ajoutée qui tiennent compte des publics accueillis par les écoles. A noter qu’il existe très peu de pays européens qui publient pour l’enseignement obligatoire les résultats des écoles et encore moins les résultats en valeur ajoutée. Même en Angleterre, championne depuis l’époque Thatcher des League tables (les palmarès des écoles), ces indicateurs VA datent de 2006. Les parents choisissent en fonction de la réputation des écoles et de la composition sociale de l’école.
Si l’on ne peut écarter l’évaluation du système éducatif, a quel niveau doit-il être fait ? Et par qui ?
Si l’on souhaitait réellement réaliser une évaluation indépendante du système éducatif français, elle pourrait être conduite sur la base d’un échantillon par une agence ou une institution indépendante du ministère comme cela se fait souvent à l’étranger. Mais les politiques qui imposent aux autres acteurs une culture de l’évaluation et progressivement une obligation de résultat ne sont pas prêts à se l’imposer à eux-mêmes. C’est ce que nous venons de montrer avec un collègue suisse à travers une recherche sur les caractéristiques des dispositifs d’évaluation standardisée en Europe, impropres à engager la responsabilité du politique.
Le premier problème du système éducatif français c’est le creusement des inégalités entre élèves mais aussi entre établissements. Ces évaluations pourraient-elles être utiles pour y remédier ? A t on des exemples de politiques efficaces pour ces questions ?
Une des vertus de l’évaluation standardisée est certainement d’être un outil de réduction des inégalités entre les élèves mais aussi entre les établissements. C’est une politique qui est plus en lien avec les inégalités scolaires qu’avec l’efficacité. Certains pays comme la Suède ou la Finlande utilisent ces outils pour observer et contrecarrer le développement des inégalités inter-établissements notamment d’origine territoriale.
Nathalie Mons
Maître de conférences en sociologie, université paris-Est Marne-la-Vallée, chercheur au laboratoire du LATTS.
Nathalie Mons a récemment rendu à la Commission européenne un rapport sur les effets des évaluations standardisées et sur les politiques d’évaluations standardisées dans les pays européens.
Entretien : François Jarraud