« Wiktionnaire:Actualités/043-octobre-2018 » : différence entre les versions

Contenu supprimé Contenu ajouté
+1 image
ajout d'une brève et de pourcentages pour les pages créées avec des bots, en reprenant le calcul fait par Unsui en 2014 : nombre / lemmes + locutions + divers
Ligne 16 :
* Le laboratoire de recherche en informatique pluridisciplinaire du CNRS, le LIMSI, a fait traduire puis enregistrer une fable d’{{w|Ésope}} en 303 variations des langues régionales de France. Toutes ces versions sont rassemblées dans un [https://atlas.limsi.fr/ atlas sonore interactif] ajoutant en plus le latin, l’espéranto ou encore la langue des signes française.
 
* Les entreprises Quantmetry et DeepL ont annoncé avoir [https://www.20minutes.fr/arts-stars/livres/2351955-20181010-deep-learning-homme-prend-premiere-grosse-raclee-machine-matiere-traduction traduit un ouvrage de 800 pages en à peine 10 minutes] grâce à un outil de traduction automatisé. C’est sans compter le temps de développement de l’outil, bien sûr. Le livre traduit avait été publié en 2016, et le vocabulaire qu’il contenait était donc facilement identifiable grâce à des corpus récents. Il est probable que l’efficacité de l’outil ne soit pas aussi bonne sur des textes anciens, ou moinsintégrant techniquesdes champs de vocabulaires plus variés.
 
* Le français passe de la sixième à la cinquième position de la [https://www.lemonde.fr/afrique/article/2018/10/11/le-francais-cinquieme-langue-la-plus-parlee-dans-le-monde_5367799_3212.html langue la plus parlée dans le monde]. La francophonie a en effet gagné 10  % de locuteurs depuis 2014, grâce à l’Afrique qui en apporte 90  %. Ce serait aussi la quatrième langue la plus utilisée sur internet et la troisième en termes de trafic. Le français est aussi la deuxième langue étrangère la plus apprise au niveau collège dans l’Union européenne, avec 26  % des élèves.
 
* Le Monde propose un [https://www.lemonde.fr/pixels/article/2018/10/15/quiz-connaissez-vous-le-vocabulaire-internet-recommande-par-l-academie-francaise_5369466_4408996.html quiz sur le vocabulaire de l’informatique] créé par la commission de terminologie française et recommandé par l’Académie française.
 
* Le linguiste Frédéric Landragin et l’astrophysicien {{w|Roland Lehoucq}} étaient les invités de ''[https://www.franceculture.fr/emissions/la-methode-scientifique/la-methode-scientifique-du-vendredi-19-octobre-2018 La Méthode scientifique]'' du 19 octobre pour parler, dans la deuxième partie de l’émission (à partir de 24 min 40 s), de [[xénolinguistique]], ou ''Comment parler à un alien ?''.
 
* Dans le dernier numéro de la revue ''Language Documentation & Conservation'', [<tvar|Hawaii>https://scholarspace.manoa.hawaii.edu/handle/10125/24792</> un article] présente deux outils de visualisations de données sur les langues parlées dans le monde, [<tvar|GlottoScope>https://glottolog.org/langdoc/status</> GlottoScope] (par les personnes qui font Glottolog, présenté dans les Actualités [[<tvar|Glottolog>Wiktionnaire:Actualités/027-juin-2017#Glottolog|en juin 2017]]) et [<tvar|GlottoVis>http://glammap.win.tue.nl/glottovis/</> GlottoVis]. Ces deux outils permettent d’observer la diversité linguistique en s’intéressant spécifiquement au risque de voir chaque langue disparaître et à l’état de documentation de ces langues. Selon les données utilisées, à peine 20&nbsp;% des langues disposent d’une étude grammaticale détaillée et 12&nbsp;% disposent d’un dictionnaire (davantage qu’une liste de mots).
 
== Un travail de bot ==
Ligne 28 ⟶ 30 :
Les bots sont des programmes informatiques exécutant des tâches décrites par les personnes qui les utilisent. Ils permettent de systématiser des tâches rébarbatives, sans être pour autant autonomes. Les consignes et le contenu demeurent rédigés par des êtres humains.
 
En [[<tvar|Juillet2014>Wiktionnaire:Wikidémie/juillet_2014#De_l'usage_des_bots</>|juillet 2014]], une discussion sur les bots avait conduit au développement d’un [[<tvar|programme>Utilisateur:Pamputt/articles sans intervention humaine</>|programme]] permettant d’identifier toustoutes les articlespages faitsfaites avec l’aide d'und’un ou plusieurs bots sans relecture ultérieure directe. À l’époque, {{formatnum:185454}} pages avaient cette caractéristique, en excluant les flexions (pluriels réguliers et conjugaison).
 
Pour obtenir ce chiffre le programme analyse le fichier d’historique du Wiktionnaire (toutes les versions des différentes pages) qui pèse plus de 50 Gio. Il recherche plus spécifiquement le nom des contributeurs de chaque version. Si le nom de l’utilisateur contient «&nbsp;bot&nbsp;» ou «&nbsp;Bot&nbsp;» alors le programme considère que la contribution a été faite à l’aide d’un bot. Si la page n’a été modifiée que par des bots alors elle est ajoutée à la liste.
 
Une nouvelle analyse sur les données du Wiktionnaire publiée au début du mois d’octobre 2018 donne un total de {{formatnum:170389}}} pages (la liste complète est disponible en plusieurs parties : [[Utilisateur:Pamputt/articles sans intervention humaine|1]], [[Utilisateur:Pamputt/articles sans intervention humaine 2|2]], [[Utilisateur:Pamputt/articles sans intervention humaine 3|3]], [[Utilisateur:Pamputt/articles sans intervention humaine 4|4]]), soit un peu plus de {{formatnum:15000}} pages qui ont été modifiées depuis par au moins un compte «&nbsp;humain&nbsp;». Si l’on rapporte ce chiffre au nombre total de lemme, toutes langues confondues, on peut calculer que 14&nbsp;% des pages sont dans ce cas.
 
[[Utilisateur:PamputtBot/cree par PiedBot.cpp|Suite à la discussion de 2014]], des bandeaux d’information ont été ajoutés en haut des pages créées par {{u-|PiedBot}} et modifiées uniquement par des bots afin d’inviter à leur relecture et à leur «&nbsp;validation&nbsp;» humaine. Ce bot a importé beaucoup de contenu, dans différentes langues, en 2006 mais avec pas mal d’erreurs. Toutes les pages en attente de relecture sont classées par langue dans la catégorie [[:Catégorie:Pages à vérifier car créées automatiquement|Pages à vérifier car créées automatiquement]].
 
Une autre liste a été générée à partir des entrées provenant d’imports d’anciens dictionnaires – le Dictionnaire de l’Académie française de 1935 et le Littré de 1877 – de listes de noms de villages et de termes recommandés par la commission de terminologie française et publiés sous licence libre dans FranceTerme. Cette liste comprend {{formatnum:95000}} pages en français ([[Utilisateur:Pamputt/articles_sans_intervention_humaine_en_français|1]] et [[Utilisateur:Pamputt/articles sans intervention humaine en français 2|2]]) qui n’ont pas été modifiées depuis leurs importations, soit 22&nbsp;% des pages décrivant des mots de français. Certaines pages sontprésentent très probablement des informations suffisantes, voir de bonnes qualité selon l’information ajoutée, et ne nécessitent donc pas de vérifications, mais toutes pourraient être enrichies par l’ajout d’attestations d’usage et d’illustrations.</translate><br /> <span style="float:right;"><translate>— une chronique par [[Utilisateur:Pamputt|Pamputt]] et [[Utilisateur:Noé|Noé]]</translate></span>
{{clr}}