trucs que j’ai faits sur le Wiktionnaire francophone :

idées en l’air :

  • faire une interface pratique, dans le style de https://typos.toolforge.org (code source), pour des corrections rapides de prononciations / modèles d’accord, basé sur les erreurs trouvées par mon programme d’extraction
  • j’aimerais, étant donné un temps infini, refondre les modèles d’accord, avec un modèle de base unique codé en Lua et une interface uniforme (la discussion où j’expose mes griefs avec les modèles actuels)
    • travail plus modeste (et probable préliminaire) : factoriser le code Lua de Module:fr-flexion et enfin terminer cette migration commencée en 2014 (!)
    • en 2013 JackPotte a codé un nouveau modèle d’accord plus générique qui semble ne pas avoir été adopté : Utilisateur:JackPotte/fr-accord-rég2
    • en 2020 une refonte similaire à celle que j’ai en tête a été faite (avec succès) pour l’italien : Module:it-flexion
    • migration : demande intervention humaine au moindre truc suspect (erreur d’usage d’un modèle d’accord, prononciation suspecte, etc.), on aura besoin d’une interface pratique dans le style évoqué précédemment
    • nécessaire réflexion/discussion globale : place des modèles d’accord dans le Wiktionnaire, redondance avec la ligne de forme, redondance entre pages des diverses flexions ; mon opinion :
      1. le modèle d’accord (rendu plus puissant) pourrait produire la ligne de forme ;
      2. il faudrait réduire au minimum vital les données sur les pages de flexion (donc pas de prononciation ni de modèle d’accord) pour pointer vers les lemmes où seraient centralisées toutes les infos.
      3. Pour expliquer un peu ma philosophie : Je vois le Wiktionnaire sous l’angle de l’informatique et du traitement automatique, pour moi il est important que l’info soit structurée, ce pour quoi je veux autant que possible des modèles plutôt que du texte libre laissé à la fantaisie des contributeurs. Certains gros contributeurs, dont l’avis semble prévaloir actuellement, estiment que le Wiktionnaire s’adresse à des êtres humains y compris son code source et veulent donc coder l’information en langage naturel, le plus verbeusement possible, avec le moins de modèles possibles ; cette même vision du projet professe que l’information doit être immédiatement lisible sans suivre un lien et donc que chaque flexion doit avoir sa propre entrée, plutôt que de simplement rediriger vers son lemme. Ça me gêne non seulement parce que (1) on perd toute facilité d’extraction de données, mais aussi parce que (2) fatalement, des contributeurs divergeront volontairement ou accidentellement de la structure qui, bien que pas techniquement imposée (et pas toujours documentée), est malgré tout attendue ; et que (3) faire manuellement la présentation des données signifie beaucoup de redondances (comme on l’a dit), ce qui signifie efforts manuels pour maintenir en synchronisation l’information dupliquée (et hop, faire le tour des 4 pages de flexions / variantes orthographiques à chaque ajout ou correction d’info) ou, à défaut (très souvent à défaut, dans le cas des flexions !) info qui diverge. Produire du contenu et soigner sa forme sont deux boulots complètement différents (le 2e est traditionnellement le rôle d’un éditeur), mais le Wiktionnaire nous demande de porter les 2 casquettes, même quand on manque de compétence ou d’intérêt pour la 2e. Dans mon expérience. on gaspille un temps absurde à simplement maintenir le Wiktionnaire en bonne forme. À ça il faut ajouter que le Wiktionnaire étant immense, on a évidemment besoin de robots pour automatiser des tâches très répétitives, et il y a donc des robots qui tournent dans tous les sens mais qui, malheureusement, font n’importe quoi parce que, précisément, le wikicode ne se prête pas au traitement automatique (par exemple : corrige une erreur à un endroit mais pas la même répliquée ailleurs, la redondance met en échec le focus (nécessairement) étroit du robot ; mélangent les arguments d’un modèle, transforment une graphie en une prononciation… un péché originel : parser le wikicode à coups de regex). Donc encore plus de bazar, et de temps perdu à corriger les bêtises des robots… Pour résumer, le Wiktionnaire représente une masse de travail collectif immense, qui a beaucoup de valeur, et je trouve extrêmement dommage que tout ça soit gâché parce que des tâches triviales absorbent une grande partie du temps investi, et parce que le produit utile de ce travail est inexploitable en dehors de son cadre d’origine. Fin du lamento.

erreurs à signaler ?

à suivre :

liens utiles :

trucs intéressants extra-wikt :