Wiktionnaire:Actualités/043-octobre-2018

Traduire cette page ; Cette page contient des modifications qui ne sont pas marquées à traduire.

Wiktionnaire:Actualités est un journal mensuel sur le Wiktionnaire, les dictionnaires et les mots. Il est publié en ligne depuis avril 2015. Son écriture est ouverte à toutes les bonnes volontés. Vous pouvez recevoir un avis lors de la publication des prochains numéros, consulter les anciens numéros et participer au brouillon de la prochaine édition. Vous pouvez lire aussi les Regards sur l’actualité de la Wikimedia. Pour les commentaires, critiques ou suggestions, voir la page de discussion.

Actualités - Numéro 43 - octobre 2018
Photographie d’un arbre avec des fruits roses.

Ce mois-ci, les illustrations seront prises parmi celles proposées pour le défi photo du mois d’octobre sur le thème du rose. Sur cette photo, un pommier photographié par Jason M. C., Han. Vous pouvez cliquer sur l’image pour voir la photographie en entier !

Brèves

Des chardons, photographiés par Ulke0004.

  • À Strasbourg, la médiathèque André Malraux propose un rendez-vous mensuel pour contribuer aux projets collaboratifs et cette année, le Wiktionnaire s’ajoute à la liste ! La première date était le 13 octobre, la prochaine est le 10 novembre et ensuite ce sera les 8 décembre, 12 janvier, 9 février, 9 mars, 18 mai et 8 juin !
  • Le laboratoire de recherche en informatique pluridisciplinaire du CNRS, le LIMSI, a fait traduire puis enregistrer une fable d’Ésope en 303 variations des langues régionales de France. Toutes ces versions sont rassemblées dans un atlas sonore interactif ajoutant en plus le latin, l’espéranto ou encore la langue des signes française.
  • Les entreprises Quantmetry et DeepL ont annoncé avoir traduit un ouvrage de 800 pages en à peine une dizaine d'heures grâce à un outil de traduction automatisé. C’est sans compter le temps de développement de l’outil, bien sûr. Le livre traduit avait été publié en 2016, et le vocabulaire qu’il contenait était donc facilement identifiable grâce à des corpus récents. Il est probable que l’efficacité de l’outil ne soit pas aussi bonne sur des textes anciens, ou intégrant des champs de vocabulaires plus variés.
  • Le français passe de la sixième à la cinquième position de la langue la plus parlée dans le monde. La francophonie a en effet gagné 10 % de locuteurs depuis 2014, grâce à l’Afrique qui en apporte 90 %. Ce serait aussi la quatrième langue la plus utilisée sur internet et la troisième en termes de trafic. Le français est aussi la deuxième langue étrangère la plus apprise au niveau collège dans l’Union européenne, avec 26 % des élèves.
  • Dans le dernier numéro de la revue Language Documentation & Conservation, un article présente deux outils de visualisations de données sur les langues parlées dans le monde, GlottoScope (par les personnes qui font Glottolog, présenté dans les Actualités en juin 2017) et GlottoVis. Ces deux outils permettent d’observer la diversité linguistique en s’intéressant spécifiquement au risque de voir chaque langue disparaître et à l’état de documentation de ces langues. Selon les données utilisées, à peine 20 % des langues disposent d’une étude grammaticale détaillée et 12 % disposent d’un dictionnaire (davantage qu’une liste de mots).

Un travail de bot

Les bots sont des programmes informatiques exécutant des tâches décrites par les personnes qui les utilisent. Ils permettent de systématiser des tâches rébarbatives, sans être pour autant autonomes. Les consignes et le contenu demeurent rédigés par des êtres humains.

En juillet 2014, une discussion sur les bots avait conduit au développement d’un programme permettant d’identifier toutes les pages faites avec l’aide d’un ou plusieurs bots sans relecture ultérieure directe. À l’époque, 185 454 pages avaient cette caractéristique, en excluant les flexions (pluriels réguliers et conjugaison).

Pour obtenir ce chiffre le programme analyse le fichier d’historique du Wiktionnaire (toutes les versions des différentes pages) qui pèse plus de 50 Gio. Il recherche plus spécifiquement le nom des contributeurs de chaque version. Si le nom de l’utilisateur contient « bot » ou « Bot » alors le programme considère que la contribution a été faite à l’aide d’un bot. Si la page n’a été modifiée que par des bots alors elle est ajoutée à la liste.

Une nouvelle analyse sur les données du Wiktionnaire publiée au début du mois d’octobre 2018 donne un total de 170 389 pages (la liste complète est disponible en plusieurs parties : 1, 2, 3, 4), soit un peu plus de 15 000 pages qui ont été modifiées depuis par au moins un compte « humain ». Si l’on rapporte ce chiffre au nombre total de lemmes, toutes langues confondues, on peut calculer que 14 % des pages sont dans ce cas.

Suite à la discussion de 2014, des bandeaux d’information ont été ajoutés en haut des pages créées par PiedBot et modifiées uniquement par des bots afin d’inviter à leur relecture et à leur « validation » humaine. Ce bot a importé beaucoup de contenu, dans différentes langues, en 2006 mais avec pas mal d’erreurs. Toutes les pages en attente de relecture sont classées par langue dans la catégorie Pages à vérifier car créées automatiquement.

Une autre liste a été générée à partir des entrées provenant d’imports d’anciens dictionnaires – le Dictionnaire de l’Académie française de 1935 et le Littré de 1877 – de listes de noms de villages et de termes recommandés par la commission de terminologie française et publiés sous licence libre dans FranceTerme. Cette liste comprend 95 000 pages en français (1 et 2) qui n’ont pas été modifiées depuis leurs importations, soit 22 % des pages décrivant des mots de français. Certaines pages présentent très probablement des informations suffisantes, voire de bonne qualité selon l’information ajoutée, et ne nécessitent donc pas de vérifications, mais toutes pourraient être enrichies par l’ajout d’attestations d’usage et d’illustrations.
— une chronique par Pamputt et Noé

Statistiques

Du 20 septembre au 20 octobre 2018

  + 18 410 entrées et 146 langues modifiées pour atteindre 3 557 137 entrées et 1 083 langues avec au moins cinq entrées.
  + 2 095 entrées en français pour atteindre 367 168 lemmes et 545 724 définitions.
  + 3 937 citations ou exemples en français pour atteindre 362 472.
  + 2 718 prononciations (dont 1 842 pour le français) pour atteindre, au 27 octobre, 104 168 prononciations audios pour 100 langues (dont 25 202 pour le français).
  + 294 médias d’illustrations (images et vidéos) dans les articles du Wiktionnaire, pour atteindre 39 228.
  + 10 thésaurus pour atteindre 529 thésaurus dans 55 langues dont 353 thésaurus en langue française ! Les nouveaux thésaurus sont sur la rencontre (par Noé, Lyokoï, Cbyd, Jpgibert, Pamputt et Automatik), la vache (par Noé et DaraDaraDara), la grève en italien (par Noé), la pause, le dimanche, le peuple, le neuf, le cube, le six, l’érosion (les sept par Stephane8888).
  + 41 nouvelles langues pour un total de 4 543 langues : le pongu (+3), le lonwolwol (+2), le pini (+2), le kwang (+1), le koiwat (+1), le mae (+1), le kir-balar (+1), le nonuya (+1), le nyigina (+1), le e’ñepa (+1), le pana (Burkina Faso) (+1), le pa’a (+1), le larike-wakasihu (+1), le phai (+1), le poyanáwa (+1), le quechua de Santiago del Estero (+1), le riang (Inde) (+1), le ritarungo (+1), le sos kundi (+1), le seke (Népal) (+1), le simte (+1), le sokoro (+1), le sepa (Indonésie) (+1), le sengo (+1), le sawknah (+1), le tagdal (+1), le tiranige diga (+1), le taruma (+1), le temiar (+1), le tayart tamajeq (+1), le tilung (+1), le boikin (+1), le telefon (+1), le teluti (+1), le temoq (+1), le temuan (+1), le tasawaq (+1), l’usui (+1), le burui (+1), le chimakum (+1), le yoy (+1)
  Les trois langues qui ont le plus avancé après le français sont le suédois (+ 10 141 entrées), le same du Nord (+ 2 579 entrées) et le gallo (+ 519 entrées).

Consultation et contribution

  Les outils de statistiques externes donnent chaque mois la liste des pages les plus consultées et des pages modifiées par le plus de personnes.
  La rubrique Wiktionnaire:Questions sur les mots (WT:QM) a enregistré en octobre 60 questions, contre 40 questions en septembre et en août.
  Le vocabulaire spécialisé de la cartographie est toujours en relecture et 71 % des pages ont été relues ! Votre aide est la bienvenue pour venir à bout de cette tâche !

Consultation des Actualités

L’outil d’analyse des pages vues permet en quelques clics de savoir combien de personnes lisent chaque numéro des Actualités du Wiktionnaire. Sur les 18 derniers mois, la moyenne est à 286 personnes, contre 616 pour les Regards sur l’actualité de la Wikimedia. De belles moyennes pour de la wikipresse qui n’est diffusée que par le bouche à oreille !

 
Consultation par numéro des Actualités du Wiktionnaire et du RAW d’avril 2017 à septembre 2018.
 
 
Le grand amphithéâtre du musée de Grenoble.

Le Wiktionnaire a été bien représenté à la WikiConvention francophone qui était du 5 au 7 octobre 2018 !

Une conférence, un atelier d’initiation, une rencontre et de nombreuses discussions pour parler d’un futur MOOC pour Wiktionnaire, de Lingua Libre, des contenus de Wikipédia qui seraient mieux dans le Wiktionnaire et de la wikipresse (dont les Actualités du Wiktionnaire).

Un long compte-rendu a été proposé par Noé et pour résumer en quelques mots : c’était dense et enrichissant.


LexiSession sur la rencontre

Impulsées par le Fantastique groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions proposent des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion. La LexiSession de septembre était sur le thème de la rencontre qui a donné lieu à la création d’un thésaurus dédié.

Pour le mois de novembre, le thème proposé est celui des jeux traditionnels asiatiques !


En vidéo

Cette rubrique vous propose de faire une revue de vidéos sur la lexicographie, la linguistique et la langue française sorties ou découvertes ce mois-ci.

Consultation des souhaits de la communauté pour 2019

Pour la quatrième année, l’équipe technique de la Wikimedia Foundation propose une grande foire aux idées sous la forme d’une Consultation des souhaits de la communauté. Pendant quinze jours, du 29 octobre au 11 novembre, tout le monde peut suggérer un problème qu’il serait bon de résoudre, et du 16 au 30 novembre, tout le monde peut voter pour soutenir les problèmes qui paraissent les plus urgents à traiter. Le 3 décembre, les dix premiers résultats seront choisis pour constituer la feuille de route pour l’année à venir. Et s’il reste du temps lorsque les dix problèmes sont résolus, l’équipe technique s’engage à s’intéresser aux petits projets.

L’année dernière, les Actualités de décembre avaient rapportés les résultats, et aucune des huit propositions ne figuraient dans le top 10, mais elles avaient bénéficié ainsi d’une bonne diffusion et montré la vitalité du Wiktionnaire. Il est probable que cette année encore, aucune proposition ne soit sélectionnée, mais c’est l'occasion de clarifier nos idées et d’intéresser les développeurs éventuels, salariés ou bénévoles, sur les enjeux et possibilités du Wiktionnaire.

Contraints par ce calendrier, le prochain numéro des Actualités sera peut-être légèrement décalé pour sortir avant la clôture des votes ou bien après l’annonce des résultats, selon le temps dont disposera l’équipe pour boucler le numéro à ce moment là du mois.

Feuilles rosies par l’automne photographiées par Kiyanka.

Colloque Dictionnaires et culture numérique dans l’espace francophone

Les 16 et 17 octobre, un colloque de deux jours s’est tenu à Milan sur le sujet de la lexicographie électronique francophone, sur les nouvelles formes de dictionnaires et notamment sur le Wiktionnaire ! Nos deux reporteurs vedettes, Lyokoï et Noé se sont rendus sur place ! Une occasion en or pour rencontrer des personnes qui s’intéressent au Wiktionnaire, travaillent sur d’autres formes de dictionnaires collaboratifs ou s’interrogent sur les évolutions techniques qui changent la nature même du dictionnaire. C’est un nouveau champ de recherche académique qui s’ouvre et qui ne s’intéresse pas seulement aux aspects électroniques mais aussi à l’impact sur le lectorat et sur la lexicographie, la pratique qui consiste à fabriquer des dictionnaires. Un tournant est en cours avec le changement des usages vers davantage d’écran et une évolution du statut de l’expert vers la contribution horizontale. Si vous voulez en savoir davantage, vous pouvez lire le compte-rendu détaillé du colloque. Nous en reparlerons lors de la publication des actes du colloque, d’ici un an ou deux.

Le lait de loup est un myxomycète dont l’aethalium est rose. Une belle photographie de Ireen Trummer.

Dictionnaire du mois

Les Extraits optimisés par Google ?

Avez-vous déjà recherché une définition dans le moteur de recherche Google ? Vous aurez parfois le plaisir de voir un extrait de la définition donnée dans le Wiktionnaire, parfois un extrait de Wikipédia et parfois des Extraits optimisés par Google. Mais d’où viennent-ils ? À l’occasion du colloque Dictionnaires et culture numérique dans l’espace francophone, Nathalie Gasiglia, de l’Université de Lille 3, a présenté sa recherche afin de découvrir d’où venaient ces informations. Pour cela, elle a tenté d’identifier la structure des entrées, la façon dont étaient données les informations grammaticales et sur l’usage des mots. L’usage des listes numérotées et des listes à point n’est pas uniforme et on sent qu’une simplification a été faite depuis le matériau d’origine. Sa recherche l’a amenée à identifier l’origine comme étant le dictionnaire Dixel édité par Le Robert. Cependant, certaines listes de synonymes proviendraient plutôt du Robert illustré coédité avec Diagonal.

Ces deux ouvrages sont repris mais la numérotation en chiffre romain est gommée, ce qui entraîne des décalages bizarres dans les numérotations et la source n’en est mentionnée nulle part. Ces informations ne font donc pas une très bonne publicité pour un ouvrage dont la consultation en ligne est payante. Situation curieuse donc que celle d’une maison d’édition qui permet à une entreprise de diffuser secrètement au grand public une information qui est par ailleurs vendue. On imagine que l’accord commercial entre les deux entreprises est suffisamment attrayant pour que les éditions Dictionnaires Le Robert s’y retrouvent. — une chronique par Noé

Anciens numéros