On conçoit que le numérique permette de corriger facilement des QCM, moins qu’à l’heure de l’IA il permette de corriger des productions écrites plus élaborées : qu’est-ce qui vous a conduit à un tel fantasme d’enseignant ?
J’aime bien le terme « fantasme » ! Il y avait peut-être un peu de cela inconsciemment en effet : le fantasme de se libérer d’un véritable pensum personnel que représente parfois la correction des productions longues. En effet, c’est une tâche qui est très chronophage et je trouve généralement bien plus de motivation à faire n’importe quoi d’autre pour mes élèves que de corriger leurs rédactions, malgré tout l’intérêt que je peux y trouver a posteriori.
Mais soyons plus sérieux : depuis l’avènement des IA génératives et leur démocratisation, les évolutions sont nombreuses et les progrès spectaculaires. Je mène plusieurs expérimentations à titre professionnel et utilise différentes IA pour cela (Perplexity, ChatGPT, Claude ou encore Gemini). Elles deviennent pour moi des assistants personnels en quelque sorte. Je m’en sers pour la réalisation de cours, pour m’aider dans ma recherche de textes ou encore pour concevoir des exercices voire des évaluations. L’étape suivante a été pour moi d’explorer une nouvelle tâche propre aux enseignants : celle de la correction de copies. Comme vous le rappelez dans votre question, utiliser le numérique comme assistant de correction existe depuis longtemps et on n’a d’ailleurs même pas besoin d’IA pour corriger automatiquement un Quiz. Cependant, je voulais savoir de quoi était capable l’IA face à des productions plus longues, plus élaborées et qui variaient nécessairement d’une copie à une autre.
Quels étaient précisément les objectifs de l’expérimentation que vous avez menée ?
Le premier objectif était de tester l’IA sur des productions réelles d’élèves, dans toute leur vérité : les graphies peu lisibles, les formulations parfois maladroites, avec des erreurs orthographiques, des réponses a contrario pertinentes et qui sortent des sentiers battus, des éclairs de génie stylistiques, etc. En amont de l’expérimentation, j’imaginais l’IA très efficace dans la correction de questions de compréhension sur un texte mais en réelle difficulté pour mener à bien cette tâche sur des rédactions. Mais pour que cela ait force de démonstration, il fallait que ces mêmes copies soient aussi corrigées par un enseignant. De là découlait mon deuxième objectif : confronter IA et humain et déterminer qui, de l’une ou l’autre, était le plus rapide mais surtout le plus efficace et le plus « objectif » si tant est qu’on puisse l’être parfaitement en correction.
De quelle façon avez-vous mené l’expérience ?
J’ai voulu tester le dispositif de correction sur des copies de brevet. Cela me permettait d’avoir une matière intéressante qui regroupait plusieurs types d’exercices : des questions de compréhension, l’analyse d’image, une réécriture, une dictée et enfin une rédaction (que ce soit en sujet d’imagination ou de réflexion). Cela regroupe ainsi la plupart des exercices que nous menons, en classe, avec les élèves au collège. Choisir des copies de brevet, c’était aussi observer une forme d’aboutissement du collège, niveau dans lequel j’enseigne au quotidien. En même temps, le fait que ce soient des copies d’élèves inconnus pour moi me permettait de pratiquer plus librement l’exercice. Choisir des copies de brevet, c’était, en outre, avoir un panel de copies d’élèves venant de plusieurs établissements aux IPS (Indice de Position Sociale) variables qui seraient corrigées par des professeurs venant eux aussi d’établissements différents. Choisir des copies de brevet, c’était enfin avoir pour la correction un barème national détaillé et des attendus très normés. Cela réduisait les biais de subjectivité.
En tant qu’harmonisateur du DNB de mon bassin et après avoir obtenu l’aval du Rectorat de l’Académie de Lyon et du corps d’inspection, j’ai donc proposé à sept correcteurs volontaires de récupérer, dans leur enveloppe, une copie au hasard avant correction pour la scanner vierge de tout commentaire : ce serait la version livrée plus tard à l’IA. Après qu’ils l’avaient corrigée, je la scannais à nouveau avec cette fois-ci leurs annotations pour une comparaison ultérieure. J’ai obtenu ainsi sept copies complètes scannées en haute définition au format PDF (un fichier par page). Pourquoi sept ? Je ne sais pas vraiment, j’estimais que cela constituait déjà une matière intéressante à analyser.
La première difficulté est sans doute de devoir livrer à l’IA des textes d’élèves qui sont manuscrits : comment avez-vous affronté ce problème de reconnaissance des caractères ?
En effet, j’avais essayé des années auparavant les systèmes OCR qui réalisent de la reconnaissance de texte à partir d’un scan. C’était assez efficace pour des textes tapés à l’ordinateur mais les systèmes étaient incapables de reconnaître des textes manuscrits, quelle que soit la qualité de la graphie. Heureusement, avec le déploiement de l’IA, des systèmes de HTR (Handwritten Text Recognition, ou reconnaissance d’écritures manuscrites) se démocratisent. J’ai utilisé un des outils de l’IA Gemini en le détournant de son rôle initial qui est de synthétiser des documents : NotebookLM. J’ai transféré, page après page, les documents PDF dans l’interface en demandant ensuite de transformer l’écriture manuscrite en texte numérique, en étant le plus fidèle possible. En effet, sans cette dernière précision, l’IA corrigeait naturellement toutes les erreurs orthographiques et grammaticales des élèves ce qui pouvait conduire à des biais importants de correction pour les exercices de réécriture ou de dictée.
Bon, même si le résultat de transcription est assez impressionnant, il faut nécessairement tout vérifier pour être certain que l’IA a « lu » correctement l’écriture manuscrite, ce qui n’était pas du tout le cas lorsque la graphie de l’élève était vraiment peu lisible. L’IA ayant horreur du vide, elle génère alors du texte vaguement en rapport avec quelques mots correctement déchiffrés ou cherche à recréer une forme de logique selon son modèle de langage. Mais on se rapproche alors davantage de cadavres exquis que de réelles transcriptions. Ce temps de relecture est extrêmement long et il faudrait de véritables logiciels HTR comme ceux utilisés par le LIRIS pour déchiffrer de manière irréprochable l’écriture des élèves. D’autant que confier des productions d’élèves à des IA propriétaires est absolument à proscrire pour respecter le RGPD. Je ne l’ai fait qu’avec la certitude que les copies étaient bien anonymes (sans même les n° de candidat) et avec l’assentiment de ma hiérarchie.
Vous avez confié les copies numérisées d’élèves à ChatGPT-4o : quel a été votre prompt ?
En effet, après avoir récupéré le contenu des copies sous format numérique et avec la transcription parfaite, y compris les erreurs orthographiques d’origine, j’ai créé un fichier PDF par copie que j’ai confié ensuite à ChatGPT. Mon instruction générative de départ a été celle-ci : « Je suis enseignant de Français et voudrais te soumettre une copie d’élève de 3e réalisée lors de la session 2024 du DNB, pour l’épreuve de Français. Mon idée est de te faire noter chaque question. Je vais te fournir le corrigé officiel et tu devras alors t’appuyer sur ce document pour noter la copie. C’est possible ? » Une fois la copie et le corrigé chargés, l’IA a commencé la correction avec une rapidité déconcertante.
Elle s’est alors arrêtée et m’a demandé si je souhaitais poursuivre pour la correction de la dictée. J’ai acquiescé et elle s’est exécutée. Il a fallu alors que je lui donne de nouvelles instructions au regard de sa correction car des erreurs étaient sanctionnées plusieurs fois. C’est le cas par exemple pour le verbe « répétait » dans la dictée d’origine qui, écrit « répetait » par un élève, était considéré comme une erreur à la fois de conjugaison et d’accent. Une fois la dictée corrigée convenablement, j’ai demandé à l’IA de corriger la rédaction. Là encore le résultat a été extrêmement rapide. L’IA a conclu sa correction de la première copie en faisant, sans que je lui demande, la somme des différentes parties (questions, dictée et rédaction). J’ai alors demandé à l’IA de corriger les copies suivantes, une à une, en s’appuyant sur la même méthode.
Quel regard portez-vous sur l’évaluation par l’IA de la partie Questions ?
Franchement, j’ai trouvé l’IA extrêmement rapide dans son exécution (moins de 10 secondes pour corriger l’ensemble des questions d’une copie) et sa notation respecte rigoureusement le barème. Elle calcule les points selon le respect ou l’écart à la norme fournie par le corrigé officiel. Elle est capable de bienveillance lorsque l’idée est présente mais mal exprimée ou avec des petites erreurs de grammaire et ce qui m’a justement intéressé est sa justification pertinente des points attribués pour chaque question. Le correcteur humain applique évidemment aussi le barème officiel mais sans faire apparaître de justification. Cependant, l’excellente présentation d’une copie ou bien une graphie peu lisible ont nécessairement des conséquences inconscientes, même si elles restent somme toute marginales, sur sa notation.
C’est peut-être sur la partie grammaire que les enseignants sont, à juste titre, plus exigeants que l’IA. En effet, pour un correcteur humain, lorsque l’élève confond par exemple « préposition » et « proposition », c’est rédhibitoire alors que l’IA fait trop peu de cas de cette confusion.
Enfin, le regard de l’enseignant me paraît indispensable car l’IA est incapable de sortir des sentiers battus du corrigé officiel. Or, certains élèves ont eu des réponses particulièrement intéressantes et pertinentes, non prévues par le corrigé officiel, que seul un humain pouvait apprécier à sa juste valeur et par conséquent valoriser.
Quel regard portez-vous sur l’évaluation par l’IA de la partie Dictée ?
La dictée au brevet est un exercice plutôt rapide à corriger pour un enseignant et il a fallu des réglages nombreux, en affinant l’instruction générative dans ChatGPT, pour aboutir à quelque chose de satisfaisant. Et encore, il m’a fallu revérifier ensuite pour chaque copie que la catégorisation d’erreurs était la bonne, ce qui n’était pas systématique. Bref, l’intérêt me paraît quasi-nul pour cet exercice sur si peu de copies.
Quel regard portez-vous sur l’évaluation par l’IA de la partie Rédaction ?
C’est surtout sur cette partie que j’étais impatient de tester l’IA. J’ai été impressionné une fois encore par la rapidité d’exécution mais surtout par les commentaires très détaillés fournis par le chatbot pour justifier les points attribués selon les éléments fournis par le corrigé officiel. En comparaison, les copies corrigées par les enseignants semblent bien vides. Il faut dire que les consignes sont de ne pas trop mettre de commentaires de correction et je n’avais pas à disposition les feuilles annexes dont se servent les enseignants pour l’évaluation.
Ensuite, j’ai été surpris parfois des écarts de note entre les enseignants et l’IA, jusqu’à 9 points en constatant généralement que l’IA était plus généreuse que les correcteurs. En revanche, il est assez facile de demander à l’IA de réévaluer la copie en lui opposant qu’un correcteur humain avait mis une note bien inférieure par exemple. L’IA justifie alors une nouvelle notation, plus en adéquation avec celle de l’enseignant. Elle est donc influençable et semble reconnaître facilement l’objectivité de la notation par un enseignant professionnel. Je n’ai pas demandé la réévaluation pour chaque copie afin de faire apparaître justement des écarts possibles.
Sur les 7 copies, six ont traité le sujet d’imagination pour une seule le sujet de réflexion, ce qui est assez représentatif de la réalité de terrain. Les justifications de l’IA étaient là encore, pour cette copie, en cohérence avec le corrigé officiel.
A la lumière de cette expérience, l’IA vous semble-t-elle pouvoir réaliser le fantasme initial de mener à notre place une évaluation efficace et juste ?
Dans les prochaines années, j’en suis convaincu, cette question de l’évaluation assistée par l’intelligence artificielle sera partie intégrante de notre métier car cette expérimentation m’a montré déjà une efficacité certaine. Pour l’instant, il n’y a pas assez de garde-fous pour confier à des chatbots privés le soin de corriger des copies d’élèves et c’est même tout simplement illégal au regard du RGPD. En outre, la reconnaissance de l’écriture manuscrite est encore un frein majeur et toutes les productions d’élèves ne peuvent ni ne doivent être tapées à l’ordinateur.
Je vois mal par ailleurs des enseignants donner à l’IA la charge complète de correction. En effet, les productions d’élèves sont souvent le prolongement voire l’aboutissement de nos enseignements. Cela permet d’appréhender avec finesse ce qui a été compris, réussi ou dépassé. D’apporter aussi une remédiation personnalisée lorsque des points n’ont pas été assimilés. Connaître nos élèves, c’est aussi se confronter à leurs écrits.
Je vois davantage, dans l’avenir, un partenariat avec l’IA pour que l’enseignant se concentre sur les tâches où il aura une haute valeur ajoutée. Il est vrai, par exemple, que le repérage et la catégorisation des erreurs orthographiques peuvent sûrement être confiés à une machine mais détecter des contresens, mesurer finement les compétences acquises, des progrès, apporter un élément culturel complémentaire sont encore de l’ordre de l’humain.
L’enseignant du XXIe siècle sera sûrement assisté, peut-être même augmenté grâce à l’IA mais pas remplacé.
Propos recueillis par Jean-Michel Le Baut
Sur le site lettres de l’académie de Lyon