Tests de mesure des acquis : la France arrive à l’overdose !

Apparus à la rentrée 2018, les tests de mesure des acquis de début d’année scolaire sont devenus un procédé de pilotage quantitatif du système éducatif, directement inspiré des méthodes du New Public Management. Derrière les objectifs affichés d’aide aux enseignants se cache une large collecte de données destinée à construire les indicateurs de valeur ajoutée des établissements scolaires. D’abord limités aux classes de CP, CE1, 6^ème et seconde, la généralisation annoncée de ces instruments de mesure laisse entrevoir un système éducatif au bord de l’overdose. Le rejet massif de cette approche managériale quantitative, d’abord exprimée par les enseignants, semble gagner les élèves et les parents.

Constitution d’une grande base de données

Présentés par des notes de service académiques comme une réponse à une demande de Monsieur le Ministre, les tests de mesure des acquis de début d’année scolaire font maintenant l’objet d’une information directe aux établissements scolaires – par messagerie électronique – de la part de la Direction de de l’évaluation, de la prospective et de la performance (DEPP). Comme le site du Ministère l’indique : « Des évaluations nationales exhaustives ont été construites par la DEPP à partir d’orientation définies avec le Conseil scientifique de l’éducation nationale (CSEN) et la direction générale de l’enseignement scolaire (DGESCO). Elles permettent de proposer des repères en début de CP et de CE1, en début de 6e et de seconde. » Le guide destiné aux établissements scolaires précise : « Objectifs des évaluations nationales de début de sixième et quatrième : Permettre aux équipes pédagogiques, en complément des outils propres à chaque enseignant, de disposer d’un panorama de compétences de chaque élève en français et en mathématiques, Accompagner le pilotage pédagogique des réseaux écoles-collège dans les établissements, Enrichir les outils de pilotage académique ». Dans la pratique, beaucoup d’enseignants s’interrogent sur l’utilité de ces tests numériques. Les résultats, qui arrivent bien après les premières évaluations diagnostiques, viennent juste conforter les positionnements de début d’année. Ainsi, dès l’instauration des tests numériques, en 2018, la question du sens a été posée. Pour un enseignant, quelle est la pertinence de « perdre » deux heures de temps scolaire pour faire passer des tests qui n’apportent pas grand chose de plus aux diagnostics déjà effectués ?

Dans les faits, ces tests standardisés au niveau national sont des outils de mesure des acquis scolaires permettant au ministère de constituer une grande base de données propice aux comparaisons et aux mesures de performance. Aussi, les concernant, le terme « évaluation » est impropre. L’évaluation repose sur une logique qualitative qui consiste à porter une appréciation. Tel n’est pas le cas avec les tests de début d’année qui se contentent de faire des mesures d’acquis avec une volonté de centralisation au niveau national. Car avec de telles données, la DEPP est capable de produire des statistiques dans tous les sens. Il est possible de définir des groupes de niveaux et d’étudier finement la répartition des élèves dans ces groupes en corrélant avec l’indice de position sociale. Il est possible de comparer les résultats des établissements scolaires, en gardant la corrélation avec l’indice de position sociale de leurs populations scolaires respectives. Il est possible de mesurer les progressions dans le temps. Avec ces données exhaustives, il est aussi possible d’inférer des résultats attendus au regard des indices de position sociale et d’en déduire des possibles valeurs ajoutées lorsque les résultats obtenus sont supérieurs à ceux qui sont attendus. De fait, la notion de performance ou d’écarts de performance est une occurrence qui revient en moyenne plus d’une quinzaine de fois dans chacune des notes d’informations de la DEPP portant sur les « évaluations nationales ». En d’autres termes, cette large base de données, d’ampleur nationale, alimentée par les tests de positionnement, permet de développer tout l’arsenal du New Public Management.

Faut-il rappeler que la logique du New Public Management dans les services publics est fortement décriée depuis 2011 par l’ensemble de la recherche mondiale ainsi que par des acteurs majeurs que sont la Banque Mondiale ou l’OCDE ? La raison en est simple. Vouloir transposer le critère quantitatif de l’efficacité, propre aux entreprises privées, à un service public conduit irrémédiablement à sa dégradation. Le seul critère de performance applicable aux services publics est celui de la pertinence des réponses apportées au regard des besoins auxquels ils doivent répondre. Or celle-ci ne se mesure pas. Elle s’évalue selon une logique qualitative. De fait, à l’exception notable de la Hongrie, la France fait figure de cavalier solitaire dans sa volonté d’introduire des outils de mesure de la performance inspirés du New Public Management. Les autres pays se fient aux résultats des grandes enquêtes conduites par les organismes internationaux. Quand ils ont recours à des outils numériques nationaux, leurs choix se portent davantage vers des procédés de certification de fin de cycle plutôt que des mesures d’acquis de début d’année scolaire.

Recours à des prestataires extérieurs

La France n’a pas fait de choix de se doter d’un outil numérique national de certification globale, complémentaire aux évaluations de contrôle continu des enseignants. Les seuls outils dont elle dispose portent sur des compétences connexes. En la matière, un des outils les plus aboutis est PIX, plateforme d’auto-formation et de certification aux compétences numériques, développée à partir de 2016 sous forme de Groupement d’Intérêt Public, selon une logique de bien commun éducatif, maintenant soutenu par l’UNESCO. La plateforme PIX, réalisation française, est donnée en exemple dans les autres pays (en tant que bien éducatif commun, les élèves des pays francophones disposent d’un libre accès). Cela montre que les pouvoirs publics ont les ressources internes pour développer des applications répondant à des besoins de service public. Ces ressources internes ont-elles été mobilisées pour la conception des tests de mesure des acquis de début d’année scolaire ? Le site du ministère précise : « L’Éducation nationale a testé à partir de 2015 des évaluations numériques des élèves puis les a étendues progressivement. Pour ce faire, elle a recours depuis 2016 à un prestataire, l’entreprise OAT, spécialiste reconnu internationalement en matière d’évaluation en ligne pour le secteur public et l’éducation. Cette entreprise utilise les services techniques d’Amazon Web Services pour héberger sa plateforme d’évaluation et permettre la connexion simultanée d’un très grand nombre d’utilisateurs. » Autrement formulé, pour la mise en place des procédés de collecte de données, le ministère a eu recours à la sous-traitance auprès de Open Assessment Technologies (https://www.taotesting.com/fr/) pour l’administration des tests et d’Amazon pour l’hébergement cloud (https://aws.amazon.com/fr/). Le montant des contrats, qui sont renouvelés depuis 2015, ne font pas l’objet d’une communication au grand public. Il n’est peut-être pas judicieux de donner des éléments de comparaison avec les coupes budgétaires que subissent les établissements scolaires ? Le coût réel du dispositif, cependant, doit être cherché ailleurs.

Effet parc en centaines de milliers d’heures

L’effet parc est un effet multiplicateur qui concerne la diffusion d’une nouvelle pratique. Il est constaté à partir d’une certaine échelle de diffusion. Pour l’Education nationale, l’effet parc est particulièrement important dans le cas des décisions centralisées qui s’appliquent de façon uniforme à l’ensemble des 12 millions d’élèves, 850 000 enseignants et 59 000 établissements scolaires. En ce qui concerne les tests de mesure des acquis de début d’année scolaire, leur généralisation à l’ensemble des niveaux de primaire et du collège (auxquels il faut ajouter les élèves de seconde et de première année de CAP) conduit à les faire passer à près de 8,2 millions d’élèves (4,2 millions en primaire ; 3,4 millions en collège et environ 600 000 en seconde et CAP).

Pour le premier degré, il faut consacrer environ 2 heures de temps scolaire par classe aux tests (4 heures pour les CP). Cela revient à plus de 400 000 heures de temps scolaire. Dans le second degré, ces tests sont numérisés. Sachant que la norme numérique est de 15 postes environ par salle et qu’avec les temps de préparation, il faut « bloquer » 4 heures pour les passations, on arrive à plus d’un million d’heures dédiées. Le coût total avoisine donc 1,5 millions d’heures pour la passation. Cela représente plus de 40 000 heures de DHG, soit l’équivalent de la dotation annuelle d’une soixantaine de collèges ou d’une trentaine de lycées. Pour quel bénéfice ?

Rejet par les parties prenantes

Les « évaluations nationales » n’ont pas rencontré l’adhésion des enseignants. En atteste le faible taux de réponses au questionnaire de retour proposé par la DEPP. Pour ce qui concerne celui de CP, le site du ministère indique : « A la date du 23 février 2023, 6 775 enseignants ont participé à ce questionnaire, 1 947 enseignants ont répondu de manière complète. »

Ce qui est nouveau depuis la rentrée 2022, est un phénomène de rejet des tests de la part de certains élèves. Ce phénomène se constate en collège et en lycée parmi les élèves qui n’ont pas de difficultés et expriment une forme lassitude face à des tests répétés au fil de la scolarité. Certains choisissent de bâcler leurs réponses, d’où des aberrations entre les résultats des tests de mesure et les évaluations diagnostiques effectuées par les enseignants. Quand on ajoute les nombreux biais de passation à ces aberrations, on obtient dans certains établissements jusqu’à 10% de données dont la fiabilité est douteuse. En l’absence de procédés de neutralisation des doutes, les statistiques nationales portent sur l’ensemble des données remontées. Que nous disent ces données ? A quoi servent-elles ? Les notes de la DEPP sont disponibles sur le site du ministère. La comparaison dans le temps (les premiers tests de mesure remontent à 2018) montre que globalement, sur les domaines mesurés, le système éducatif français n’augmente pas sa « performance ». C’est aussi ce que nous disent les derniers résultats des enquêtes PISA. Fallait-il mobiliser tant de moyens pour obtenir cette conclusion ? A l’inverse de PISA, cependant, les tests de mesure permettent d’avoir une vision précise de la localisation des élèves selon leurs résultats aux tests.

Selon une logique de service public, cette analyse statistique pourrait être utilisée pour une meilleure allocation des moyens en direction des élèves à besoin. Il n’en est rien. Les moyens supplémentaires dédiés à la réforme du choc des savoirs, qui ont été alloués selon des critères propres à chaque académie, ont bien souvent conduit à une réduction des dispositifs spécifiques mis en place précédemment par les établissements scolaires. Mais surtout, les tests de mesure ont permis de « quantifier », sans distinction, le nombre d’élèves à besoin. Dans la première version du choc des savoirs, il était demandé de regrouper, pêle-mêle, dans le même groupe de niveau les élèves dyslexiques avec les élèves en difficultés cognitives, les élèves allophones, les élèves en trouble du comportement, les élèves en décrochage, les élèves en mal-être, etc. Car les tests de mesure – outils statistiques – n’ont pas la capacité d’analyse fine des évaluations diagnostiques réalisées par les enseignants. La mesure quantitative, mécanique et froide, ne connait pas le facteur humain. C’est cette froideur dans l’application d’une logique mécanique implacable qui a fait réagir certains parents d’élèves. Si la finalité des tests de mesure est le regroupement des élèves en difficultés, sans considération de leurs besoins, ceux-ci ne sont plus dans l’acceptation. Ils annoncent déjà un refus de soumettre leurs enfants aux tests de mesure. Outre l’argument de la finalité contraire à leurs valeurs, ils avancent le manque de confiance dans la protection des données collectées sachant que des opérateurs privés, connus pour leur propension à aspirer les données personnelles, sont aux commandes. En matière de RGPD, le site du ministère précise : « Dans le cadre du processus d’évaluation des élèves, ni OAT ni Amazon Web Services n’ont accès aux noms, prénoms et identifiants des élèves. ». Dans la réalité, la plateforme permet de générer des tableurs nominatifs au format Excel de l’entreprise Microsoft (https://www.microsoft.com/fr-fr) ainsi que les listes de fiches de restitution nominatives contenant des QR codes permettant d’accéder au détail des réponses. Ces documents circulent allègrement entre professionnels de l’éducation, notamment entre collèges et écoles dans le cadre des tests de mesure de 6^ème. Ces pratiques respectent-elles le RGPD ? Certains parents d’élèves s’interrogent. Les plus virulents indiquent qu’ils ne souhaitent pas que les résultats des acquis de leur enfant apparaissent au milieu d’un tableau Excel regroupant les élèves de la classe.

Mise sur la sellette

Absence d’adhésion des enseignants, rejet par certains élèves et parents, questionnements multiples sur la finalité réelle et le coût exorbitant, remise en cause de la logique sous-jacente de New Public Management, en cette rentrée 2024, les tests de mesure des acquis des élèves sont sur la sellette. Pour beaucoup la France a atteint l’overdose et il est urgent de soumettre leur pertinence au débat démocratique. Un aspect qui s’ajoute à la longue liste des sujets dont devra s’emparer le prochain gouvernement pour réparer le service public d’éducation.

Stéphane Germain