Xavier Pons : La « culture d'évaluation » est moins une réalité institutionnelle qu'un discours politique

Par François Jarraud

Auteur d’une thèse tout à fait remarquable sur « L’évaluation des politiques éducatives et ses professionnels. Les discours et les méthodes (1958-2008) », Xavier Pons met en évidence ici les questions que les évaluations posent au système éducatif.

Ce mois-ci, deux enquêtes en CM2 font beaucoup de bruit. Elles émanent toutes deux du ministère mais de deux directions différentes : la DGESCO et la Depp. Quelles differences voyez-vous entre ces deux évaluations ?

Il y a des différences méthodologiques et politiques. L’évaluation de la Depp vise à comparer dans le temps quelques compétences de base des élèves. Elle repose sur un modèle classique en psychométrie (le modèle de réponse à l’item) qui est utilisé dans certaines comparaisons internationales, notamment Pisa. Elle fait écho à plusieurs enquêtes qui posent la question de l’éventuelle baisse de niveau des élèves français consécutive à la massification de l’enseignement. L’objectif de ce type d’évaluation est plus scientifique que politique. Il s’agit plus d’améliorer les connaissances générales sur le fonctionnement du système éducatif que de contribuer à sa gestion immédiate.

L’évaluation des acquis des élèves de CM2 coordonnée par la DGESCO, à l’inverse, vise explicitement à fournir aux décideurs un outil de pilotage du système éducatif et aux familles un outil d’information. Elle repose apparemment sur une méthodologie moins soucieuse des acquis de la psychométrie. Aucun spécialiste de ce champ ne fait partie du groupe d’experts ayant conçu les épreuves. Les livrets à destination des enseignants mis en ligne clandestinement au début du mois de janvier montrent par exemple que des compétences complexes et multiples sont parfois évaluées sur la base d’un seul item, ce qui a peu de sens pour un psychométricien. L’essentiel est moins dans le strict respect des canons de la science que dans la construction d’un outil de gestion simple, crédible et utile à tous pour fonder une meilleure communication entre les partenaires du système éducatif.

Ces deux administrations sont-elles habituées à faire des évaluations ?

Elles ont très souvent travaillé ensemble depuis 1989 et la systématisation des évaluations à l’entrée en CE2 et en sixième. Toutefois jusqu’à récemment, la pratique voulait que les tâches techniques et statistiques soient assurées par la Depp (coordination du comité d’experts concevant les épreuves, gestion des remontées d’information, correction des bases de données et exploitations statistiques) et les tâches liées à la conception des actions de remédiation dans les établissements ou à la formation des enseignants à l’usage de ce type d’outils par la Dgesco.

Avec ces nouvelles évaluations en CE1 et CM2, la donne est différente. La Dgesco fait les deux en consultant, dans le meilleur des cas, les statisticiens de la Depp à titre d’experts. La remontée des données n’est plus contrôlée par la Depp mais assurée par un Service des technologies et des systèmes d’information rattaché au Secrétariat général. Ce choix correspond en partie à une évolution des technologies disponibles. Plutôt que d’organiser une nouvelle remontée de données sur le niveau scolaire et le milieu social des élèves pour chaque enquête nouvelle, le ministère profite des avancées de la technologie et récolte les données par le croisement de ces fichiers informatiques de gestion.

Mais en procédant ainsi, le ministère se prive du contrôle des données recueillies par des professionnels de la statistique, comme si l’essentiel était plus d’obtenir et de publier rapidement un chiffre que de s’assurer de sa validité scientifique. En outre, ce changement de donne arrive au moment où la Depp, après avoir beaucoup appris des évaluations internationales depuis 2000 et relancé les évaluations bilans dans plusieurs disciplines en 2003, participe plus activement à la conception de l’enquête Pisa de l’OCDE, dont les prochaines épreuves seront administrées en France en avril et mai prochains. C’est donc au moment où les statisticiens de la Depp sont peut-être les plus sensibles et formés à la psychométrie que les décideurs se privent de leurs compétences. On peut dès lors s’interroger sur l’écart entre des discours politiques insistant volontiers sur les vertus des comparaisons internationales et des pratiques nationales qui mobilisent peu les compétences sur lesquelles reposent ces enquêtes…

Certains enseignants voient dans ces évaluations une manœuvre politique visant à discréditer leur travail. Qu’en pensez vous ?

Je pense que ces réactions sont liées à une conjoncture politique particulière. Si l’on s’en tient aux objectifs généraux assignés à ces évaluations, ceux-ci semblent guère contestables : qui ne voudrait pas améliorer l’information disponible, mieux communiquer avec les parents, fonder des actions de soutien ou doter les responsables locaux d’un outil de pilotage ? Si l’on regarde la publication des résultats, des garanties sont données aux différents acteurs du système éducatif, notamment les enseignants (les résultats individuels des écoles ne seront pas publiés).

Mais ces évaluations sont menées sous le mandat d’un ministre qui a explicitement refusé de se prononcer sur les grands débats pédagogiques et didactiques (comme sur les méthodes d’apprentissage de la lecture) pour mieux se concentrer sur les résultats obtenus par les enseignants. Le raisonnement politique, conséquentialiste, était adroit : on ne relance pas des grands débats qui risqueraient de figer les positions de chacun et on affiche au passage sa confiance aux enseignants dont on souligne le professionnalisme. Mais il supposait de s’attaquer en parallèle à l’épineux problème de l’évaluation des enseignants. Or de ce point de vue, on a peu entendu ces derniers temps dans les discours politiques les conclusions de la Commission Pochard par exemple. On ne s’est pas non plus attaqué à la remise en cause du système de la double notation. Non, on a commencé par ces évaluations CE1-CM2, sous la pression d’autres dossiers en cours que celui de l’évaluation des enseignants d’ailleurs (socle commun, refonte des programmes et abandon de la carte scolaire). Comment les enseignants, sachant par ailleurs très bien défendre leurs intérêts professionnels, pouvaient-ils interpréter autrement la situation ?

J’ajoute que ces évaluations se superposent à des questions de fond qui n’ont pas été tranchées, comme le statut des enseignants directeurs d’école. Si je devais chercher une manœuvre politique, sans doute insisterais-je sur ce point. Depuis 1999, la grève des directeurs d’école, qui veulent obtenir de la part du ministère la reconnaissance d’un statut équivalent à celui du chef d’établissement dans le second degré, rend plus que problématique la construction d’indicateurs statistiques sur l’enseignement primaire. Les indicateurs Inpec sur la performance des écoles (équivalents des indicateurs Ipes du second degré) créés en 1998 n’ont jamais pu être renseignés. La création récente d’une base élèves du premier degré devait en partie permettre de contourner le problème, mais elle a suscité des réserves de la part de la Cnil et des oppositions de la part des enseignants et de certaines collectivités locales. Or en parallèle, la pression est forte pour obtenir des indicateurs à ce niveau d’enseignement, notamment dans le cadre de la Lolf. Rappelons que le directeur de la DGESCO est responsable du programme 140 de la Lolf portant sur l’enseignement primaire et que des financements à terme dépendent de la qualité des données disponibles. Les évaluations CE1-CM2 sont aussi un moyen pour le ministère d’obtenir rapidement un indice de l’efficacité des enseignements à l’école, donc de contourner le mouvement des directeurs d’école.

Récemment La revue de l’inspection générale a publié un texte assez critique sur ses propres évaluations. Il semble que pour tous les services du MEN l’évaluation soit devenue un objet de réflexion. Comment expliquez vous cela ?

Ce type d’auto-critique n’est pas nouveau. Depuis mai 1968 et la contestation politique des inspections individuelles, les inspections générales réfléchissent de façon récurrente à leur positionnement au sein du ministère, leur organisation et leurs méthodes. L’octroi d’une mission d’évaluation à l’IGAEN en 1984 et à l’Igen en 1989 a accentué cette tendance. Regardez par exemple les réflexions de l’Association française des administrateurs de l’éducation (AFAE) qui a publié dans sa revue plusieurs numéros thématiques sur le devenir des corps d’inspection dans les années 1990. C’est même devenu un mode de fonctionnement du corps à part entière, qui permet à ses membres de fréquemment adopter une position réflexive sur leurs pratiques.

Ces réflexions apparaissent en outre à un moment où le corps est mis en retrait par le ministre (non publication de sa lettre de mission en 2007-2008, faible consultation du groupe de l’Igen consacré à l’enseignement primaire lors de la réforme des programmes, non publication des rapports). Les inspections générales profitent de ce relâchement de la commande politique pour réfléchir à leurs pratiques. C’est exactement ce qu’elles ont fait en 1998, sous le ministère de Claude Allègre, quand elles ont expérimenté, sans l’aval officiel du ministre, l’évaluation de l’enseignement dans les académies de Bordeaux et Rouen. C’est ce qu’elles ont fait en 1982 quand elles ont tiré profit du moratoire sur les inspections individuelles décidé par Alain Savary pour expérimenter des « inspections paysages » visant à analyser les établissements dans leur globalité (en opposition aux « inspections portraits » de chaque enseignant). Elles ont ensuite approfondi ce savoir-faire dans les années 1980 et 1990.

De manière générale, depuis le début des années 1970, le débat politique sur l’évaluation du système éducatif en France consiste à s’alarmer des dérives de cet instrument d’action publique (le tout quantitatif, les palmarès, la marchandisation) et à en appeler à une meilleure évaluation possible. Ce débat transcende les clivages traditionnels, qu’ils soient politiques (droite-gauche) ou professionnels (tous les enseignants ne sont pas hostiles à l’évaluation, tous les inspecteurs généraux ne partagent pas la même conception de l’évaluation etc.). Par conséquent, la « culture d’évaluation » est moins une réalité institutionnelle qu’un discours politique sans cesse réactivé. Ce discours illustre l’incapacité des évaluateurs à faire partager leurs impératifs par le reste des acteurs du système éducatif, mais aussi le refus des décideurs de trancher le débat en affichant clairement une conception particulière de l’évaluation. En l’état du débat politique, ces derniers n’ont tout simplement pas intérêt à le faire ! Puisque personne ne s’accorde sur ce que doit être une évaluation juste et efficace, maintenir le flou autour de la notion est plus rentable politiquement : on utilise le terme dans différentes procédures en espérant que les acteurs s’accordent d’eux-mêmes sur les formes concrètes à leur donner.

Est-il possible de faire une évaluation du système éducatif qui échappe au contrôle politique ? Cela s’est-il déjà fait ? À qui faudrait-il aujourd’hui la confier ?

Tout dépend de ce que vous entendez par contrôle politique. Le choix qui a été fait en France ces trente dernières années a été de toujours privilégier une évaluation « en interne », menée presque exclusivement par des acteurs du système éducatif (corps d’inspection, statisticiens du ministère, enseignants-chercheurs de laboratoires sous la tutelle du ministère). Les arguments en faveur d’un tel modèle, énoncés le plus souvent par les évaluateurs eux-mêmes, sont multiples : seul ce type d’évaluation serait légitime aux yeux des destinataires de l’évaluation (notamment des enseignants), seul ce type d’évaluation permettrait une collecte fiable des données, il faudrait « forcément » un regard averti et expérimenté sur l’école française etc. Le seul ministre à avoir remis en cause publiquement ce compromis fut Claude Allègre, qui voulait externaliser la mission d’évaluation vers une agence autonome de chercheurs. Toutefois le projet avorta rapidement, faute d’avoir été exposé de façon pédagogique et d’avoir convaincu les acteurs du ministère, y compris les plus proches collaborateurs du ministre.

Il est possible de concevoir une évaluation du système éducatif qui soit menée par des acteurs extérieurs, non étatiques ou indépendants du gouvernement, par exemple sur le modèle anglo-saxon des agences non gouvernementales à mandat public. Mais dans ce cas, le contrôle politique emprunte d’autres voies (nomination des membres, engagement plus ou moins explicite des décideurs à mettre en place des actions de remédiation, fixation d’objectifs contraignants, audit d’audits). Plusieurs acteurs participent aujourd’hui de fait à l’évaluation du système éducatif français sans être sous l’autorité directe du gouvernement (chercheurs, magistrats de la Cour des comptes, experts internationaux). Le contrôle politique se fait différemment (financement plus ou moins soutenu des recherches, nomination de magistrats au tour extérieur, affiliations politiques des uns et des autres, faible relais dans les médias des conclusions des enquêtes internationales etc.).

Quel rôle vont jouer ces évaluations à l’avenir dans notre système éducatif ?

Tout d’abord, il n’est pas certain que ces évaluations perdurent. Historiquement, les évaluations bilans de la Depp ont été menées de façon très irrégulière depuis 1975, les décideurs accordant un intérêt et des moyens inégaux selon les périodes. Elles font l’actualité aujourd’hui, mais il est possible qu’elles ne résistent pas à un remaniement ministériel ou à un changement de majorité demain, et ce d’autant plus qu’elles sont mises en œuvre par une direction d’administration centrale très politisée (la Dgesco est en lien direct avec le cabinet, elle est responsable de trois des six programmes Lolf de la mission « enseignement scolaire », ses directeurs ont souvent été liés à la majorité en place).

Si elles perdurent, se poseront au moins quatre questions aux décideurs. Premièrement, va-t-on assortir ces évaluations de sanctions et d’actions de remédiation explicites en fonction des résultats qu’elles mettront en évidence ou va-t-on en rester, comme par le passé, à une simple production d’informations, les acteurs restant libres d’en tenir compte ou non ? Les signes actuels vont plutôt dans la première direction : en principe, ces évaluations doivent permettre d’identifier les élèves dits « en grande difficulté » (ceux qui réussissent à moins d’un tiers des items) et de leur proposer un soutien individualisé.

Deuxièmement, comment va-t-on articuler ces évaluations avec les évaluations requises par la Lolf et le socle commun ? Parmi les indicateurs retenus dans la Lolf figurent en effet les proportions d’élèves qui maîtrisent les compétences de base en français et en mathématiques en fin d’école et en fin de collège. En principe, les évaluations du socle commun alimenteront ces indicateurs. En attendant que ces évaluations soient conçues, la Depp procèdent temporairement à des évaluations en fin de CM2 et de troisième sur la base d’échantillons. Or comme personne ne sait encore comment évaluer le socle commun, il est possible que ces évaluations temporaires persistent. Au niveau du CM2, nous aurions alors des évaluations systématiques menées en janvier par la DGESCO et des évaluations sur échantillons menées fin juin par la Depp. Cette superposition ne va-t-elle pas semer la confusion ? Les décideurs, globalement peu sensibles à la raison statistique, ne vont-ils pas être tentés de faire des évaluations de la Dgesco des indicateurs Lolf alors qu’elles ne sont pas conçues pour cela ?

Troisièmement, va-t-on intégrer les résultats des élèves à ces évaluations dans l’évaluation des enseignants en général ? Et si c’est le cas, quelle sera la pondération entre les différents critères d’évaluation possibles ?

Quatrièmement, la position du ministère en termes de publication des résultats est-elle tenable ? Peut-on vraiment abandonner la carte scolaire sans rendre publics à terme les résultats de chaque établissement comme on le prétend actuellement ? Tout l’enjeu est de savoir si les décideurs préfèreront une régulation du système éducatif sur la base d’un quasi-marché ou d’un Etat évaluateur.

Xavier Pons

X Pons prépare un ouvrage à paraître aux PUF en 2010 : Xavier Pons, Evaluer l’action éducative, Paris, PUF, Coll. Education et sociétés, 2010.

Dernier article sur le Café :

Sans évaluation on prive les familles d’une politique éducative nationale

http://cafepedagogique.net/lemensuel/lesysteme/Pages/2009/99_XavierPons.aspx

Sur le site du Café