Projet:Coopération/Logoscope

Coopération entre le Logoscope et le Wiktionnaire

Description du projet modifier

Ce projet de lexicographie vise à enrichir systématiquement les pages du Wiktionnaire au moyen de la ressource créée par le Logoscope (Université de Strasbourg, Projet-LILPA), veilleur de néologismes axé sur la presse quotidienne française.

Cette collaboration, conçue comme un enrichissement mutuel, comprend pour les bénévoles deux missions :

  1. L'entrée sur le Wiktionnaire de néologismes déjà accessibles en ligne sur le site du Logoscope (ex. microdon) ;
  2. La sélection des vrais néologismes, et leur annotation (grammaticale, notamment), au sein des listes (fichiers .csv) constituées chaque jour par le Logoscope. Par exemple :
Liste brute
(Contient environ 300 termes par jour)
Liste annotée
(Alimente la base de donnée du Logoscope)
"brexiters",0, "brexiters",1,"NOM","EMP",
"Lapins-Morts",0, "Lapins-Morts",0,
"disrupteur",0, "disrupteur",1,"ADJ","MORSEM","EMP"
"dénoteront",0, "dénoteront",0,
"contrathèque",0, "contrathèque",1,"NOM","MORSEM",
"voyoucratique",0, "voyoucratique",1,"ADJ","MORSEM",

Le résultats de cette annotation sont ensuite intégrés à la base du Logoscope et mis en ligne, ce qui doit permettre en retour d'alimenter les pages du Wiktionnaire, sans durée dans le temps.

Indications pour l'annotation des fichiers .csv modifier

Laisser "0" signifie que le mot n'est pas un néologisme (faute d'orthographe, flexion non-reconnue par la machine, pseudonyme, code de page html, mot trop fréquent sur Google, etc.). Mettre "1" signifie que le mot est considéré comme nouveau ou récent et qu'il mérite d'être documenté comme néologisme. Dans ce cas de figure l'annotation comprend, dans cet ordre :

Information 1 Information 2 Information 3
néologisme = 1 Catégorie grammaticale Procédé de formation

Comme l'indique un exemple comme ("contrathèque",1,"NOM","MORSEM",), l'annotation des procédés de formations est simplifiée : on se contente de noter une méta-catégorie qui subsume les procédés de formation des mots traditionnels :

MORSEM = morphosémantique SYNSEM = syntaxico-sémantique MORPH = morphologique EMP = emprunt ONO = onomatopée LOG = logatome
préfixation/suffixation conversion siglaison ---- ---- ----
composition métaphore troncation ---- ---- ----
flexion métonymie imitation sonore ---- ---- ----

Quels néologismes du Logoscope pour le Wiktionnaire ? modifier

Tout ce qui peut être considéré comme un élément du vocabulaire, même si cet élément est très récent ou très rare. Des choses comme bicyclette rouge sont à exclure car ce se sont pas des éléments de vocabulaire, par contre saumon atlantique est à inclure, car c’est un élément du vocabulaire. Quelque chose comme benzema-valbuena (même avec les majuscules rajoutées) est aussi à exclure car ce n’est pas un élément du vocabulaire, seulement la juxtaposition de deux noms de famille (quand on dit ça, on juxtapose deux mots, on n’y pense pas comme un seul mot). Les termes étrangers qui sont seulement mentionnés ne sont pas à inclure (par exemple, le mot anglais door signifie porte n’est pas une utilisation du mot en français) mais ils sont à inclure s'ils sont utilisés (par exemple les highways sont très chargées est une utilisation de highway en français). Lmaltier (discussion) 11 décembre 2016 à 18:33 (UTC)

Listes des néologismes modifier