top of page

Clés canoniques

un instrument algorithmique pour déverrouiller le corpus d’Érudit par les œuvres de la théorie d’architecture

Avec le soutien du comité scientifique d'Érudit, du projet CO.SHS et de la Fondation canadienne pour l'innovation

collective_persona_ecran.jpg
Description du projet

Avec l’accessibilité croissante à des corpus de textes en ligne, l’éducation en architecture, comme dans tous les domaines, fait face à une nouvelle relation au savoir. Si les bibliothèques et les bibliographies des cours fournissent aux futurs architectes une sélection de références, ceux-ci alimentent leur acquisition du savoir avec des recherches sur Internet. Dans un souci de sélectionner les sources « fiables », l’étudiant est dirigé de plus en plus vers les bases de données regroupant des articles scientifiques. Cependant, la production textuelle propre à l’architecture (essais, traités, manifestes) ne se trouve que rarement dans de telles bases de données. On peut même postuler que le canon de l’architecture, qui énonce des principes pour bien construire, entre en compétition avec l’autorité contemporaine des sciences qui décrivent et expliquent de façon plus générale les différentes manières de construire. Ce premier se trouve même écarté, car la littérature en architecture, difficile à trouver par hasard sur Internet, peut paraître impertinente et anachronique en comparaison aux grands corpus de production scientifique récente disponibles sur Internet.

Dans l’objectif de valoriser à la fois la théorie de l’architecture et l’importante production scientifique disponible en ligne et en français, ce projet propos de développer un prototype algorithmique qui se sert de textes de la théorie de l’architecture comme des « mots clés » pour interroger des milliers de textes qui se trouvent dans le corpus de la plateforme Érudit. La métaphore opérationnelle du projet est celle d’un gnomon : le corpus textuel est abordé comme une source rayonnante, les textes sélectionnés de la théorie de l’architecture comme les marques temporelles au sol et un algorithme d’apprentissage-machine comme l’élément vertical qui intercepte la source lumineuse. Plus concrètement, tous les textes seront codés selon leur structure globale et la fréquence des mots employés avec des modules Python (p.ex. scikitlearn et gensim). Les textes provenant de la théorie de l’architecture qui ne sont pas en français seront traduits avec le service DeepL. Trois applications du prototype algorithmique seront testées en premier par le responsable du projet avant de mener des expériences avec des étudiants en architecture :

 

  1. Trouver les articles du corpus Érudit dont la structure globale des textes (choix et agencement des mots) est similaire aux textes d’architecture présentés à l’algorithme (modèle algorithmique proposé par doc2vec).

  2. Trouver les articles du corpus Érudit dont la fréquence relative des mots employés est similaire aux textes d’architecture (modèle algorithmique auto-organisant, SOM).

  3. Trouver les articles qui se situent « sur le chemin » entre deux textes d’architecture, si le corpus Érudit était projeté dans un espace deux-dimensionnel (modèle qui insère des textes comme nœuds liés à leurs voisins les plus « proches »).

 

Les résultats du projet seront à la fois synthétiques et analytiques. Le volet analytique s’interrogera sur les types de contenu qui sont indexés par l’algorithme à proximité des textes d’architecture : les revues, les sujets des articles, les dates de publication, etc. Il servira à tenir compte de la performance générale du prototype. Le volet synthèse, quant à lui, mettra en lien une visualisation des données avec des extraits des textes choisis par l’être humain (le responsable et, plus tard, des étudiants). Chaque extrait ou mention d’un article du corpus renverra par hyperlien à la source sur la plateforme d’Érudit. Si l’analyse sert à répondre à des questions statistiques et descriptives, la synthèse cherche de nouvelles questions à la fois pour le « gnomon » (l’implémentation algorithmique) et pour le contenu. Quel lien nouveau et possiblement inconnu émerge de ce que l’algorithme propose comme proximité ou affinité entre les textes ? 

Premiers résultats

"Nemo" est un moteur de recherche qui permet de chercher dans le texte brut de presque 100 000 articles indexés par Érudit et de trouver des articles similaires selon la structure du texte et selon la fréquence des mots employés. On peut même y coller du texte brut (d'un texte que nous avons écrit, par exemple) — Nemo recommandera des articles similaires.

Capture d’écran, le 2022-11-23 à 09.59.04.png

La prochaine phase du projet cherchera à compléter la fonctionnalité "clé" qui permettra de prendre un texte du corpus de textes de la théorie de l'architecture et les utiliser pour chercher des articles similaires dans le corpus d'Érudit.

bottom of page