Projet:Coopération/Wikisource

Wikisource est un projet de la Wikimedia Foundation : une bibliothèque numérique libre et multilingue. La présentation du projet en détail est disponible sur le site même du projet : Qu’est-ce que Wikisource ?.

Le but de cette page est de discuter entre contributeurs de ces deux projets autour des coopérations que l’on pourrait mettre en place, l’articulation et les apports potentiels d’un projet pour l’autre.


Wikisource vers Wiktionnaire modifier

Comment les données de Wikisource pourraient être exploitées par le Wiktionnaire ? Il s’agit dans cette partie de réfléchir et de mettre en place des outils pour faire évoluer le Wiktionnaire. N’hésitez pas à créer de nouvelles sous-parties dans la page pour lancer vos idées !

Attestations modifier

Les citations d’attestation pourraient être plus systématiques prélevée à partir de Wikisource. Au 25 juin 2016, environ 11 148 pages du Wiktionnaire contiennent des extraits de Wikisource. De la même manière que l’Editeur Visuel va chercher automatiquement des images dans Commons en fonction du titre de la page, on pourrait rêver d’une recherche automatique de phrases contenant le mot, donnant automatiquement les références bien mises en forme.   Noé 28 juin 2016 à 22:31 (UTC)

Je pense aussi à un gadget : on édite une page du WT, on cherche à rajouter une citation, on clique sur le bouton du gadget, un choix de phrases contentant le mot apparaît -là il y a une difficulté pour les formes-, on sélectionne la ou les citations qui nous siéent, et la citation se met en place avec avec mise en gras, modèle source, etc... (on peut rêver...)Hector (discussion) 29 juin 2016 à 07:54 (UTC)
Oui, j’ai l’impression que nous imaginons quelque chose d’assez similaire ! Je pensais plutôt à une évolution de l’Éditeur Visuel, puisque cette fonctionnalité pourrait être utile à d’autres projets également   Noé 29 juin 2016 à 08:09 (UTC)
J'avoue qu'une intégration dans l’éditeur visuel serait une solution vraiment chouette ! — Lyokoï (Parlons  ) 29 juin 2016 à 09:37 (UTC)
ah oui, c'est bien la même chose que ce que tu proposes, à l'éditeur visuel près, désolé. Je ne connais pas bien l'éditeur visuel, n'éditant que très peu sur wikipedia.Hector (discussion) 29 juin 2016 à 23:02 (UTC) Par ailleurs, précisons qu'il peut être intéressant de pouvoir scanner tous les wikisources, en fonction de la langue du mot édité.Hector (discussion) 30 juin 2016 à 00:31 (UTC)
J'ai tenté de synthétiser l’idée que j’ai mis en anglais sur Mediawiki. N’hésitez pas à faire évoluer l’idée, il n’est pas dit qu’une personne puisse développer ça de si tôt   Noé 30 juin 2016 à 13:44 (UTC)
Bon, en tout cas, l’idée a l’air d’avoir plu à la chargée de liaison puisqu’elle a créé un ticket sur phabricator   Noé 1 juillet 2016 à 10:32 (UTC)

L’idée est proposée lors de la sollicitation communautaire de l’équipe technique 2017 !   Noé 18 novembre 2017 à 18:24 (UTC)

un ngramviewer libre modifier

Idée à creuser : pour comparer 2 orthographes d'un même mot au fil du temps, la fréquence d'un prénom, etc. : il serait pas mal d'avoir un outil équivalent à ngrams de google pour disposer de quelques stat & graphes, se servant du corpus de wikisource, pour certains de nos articles. Hector (discussion) 17 juillet 2016 à 19:33 (UTC)

+1 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 — Lyokoï (Parlons  ) 18 juillet 2016 à 10:48 (UTC)
  @Hector et @Lyokoï : excellente idée et sans doute assez facile à mettre en place par contre, il faudrait mettre un gros avertissement sur la complétude et la fiabilité des données (déjà avec Google Ngram, il y a parfois des résultats étranges voir incohérents). Quelques réflexions que je partage à voix haute : faut-il prendre toutes les pages de Wikisource ou bien faire un tri (par exemple selon la qualité en ne prenant que les pages validées, cela améliore la qualité des données mais cela diminue drastiquement le nombre de pages - pour le français on passerait de 1 798 564 à 931 625 ou 278 924 pages - or la taille de l’échantillon est d’une très importante en statistiques, la question est : « vaut-il mieux un échantillon petit mais validé ou large mais non-validé ? »), est-ce que l’on veut juste refaire Ngram ou bien y a-t-il des fonctions qui manquerait ? (je trouve un peu stupide de juste refaire à l’identique quelque chose qui finalement fonctionne assez bien, d’ailleurs : est-ce qu’il existe d’autres outils ou méthodes dont l’on pourrait s’inspirer ?), est-ce qu’il est nécessaire d’avoir les données en temps réel ou les dumps suffisent-ils (les seconds me semblent suffisants et bien que déjà complexes ils restent bien plus simple à utiliser et à gérer). N’hésitez ps à partager vos idées, remarques, commentaires, etc. Cdlt, VIGNERON * discut. 21 juillet 2016 à 11:48 (UTC)
  @VIGNERON : À quel chiffre correspond une recherche d’un mot dans le champ de recherche du projet ? — Lyokoï (Parlons  ) 21 juillet 2016 à 12:16 (UTC)
  @Lyokoï : pardon ? Je n’ai pas compris la question ? Cdlt, VIGNERON * discut. 21 juillet 2016 à 13:00 (UTC)
  @VIGNERON : Quand je fais une recherche d’un mot dans le champs de recherche WS, je cherche dans 1 798 564 ? 931 625 ? 278 924 pages ? — Lyokoï (Parlons  ) 21 juillet 2016 à 14:29 (UTC)
Serait-il possible de laisser le choix dans la taille du corpus à l’utilisateur ? Une autre réflexion me vient à la lecture de ton message encourageant. Comment dater les mots recueillis ? Sera-t-il facile de dater les occurrences ? A voir en fait si on prend une date de publication, une date d’écriture ou - et c’est plus fourbe - une date de traduction en français pour les textes écrits originellement dans une langue étrangère. Il existe pas mal d’autres manières de traiter un corpus textuel, et proposer un premier outil simple pourrait attirer la curiosité de chercheurs dans ce domaine, montrer qu’il est possible de faire des requêtes facilement sur cette base de données. On verra ensuite pour des recherches sur des structures de phrases, là ça devient rigolo   Noé 21 juillet 2016 à 12:23 (UTC)
  @Noé : laissez le choix à l’utilisateur est une idée intéressante mais cela soulève d’autres questions : l’utilisateur saura-t-il faire le bon choix ? (certes c’est de sa responsabilité mais tout de même) et plus pragmatiquement, quelle valeur mettre par défaut ? Pour dater les occurrences c’est une excellente question (et qui du coup, est encore un biais possible d’erreurs et peut-être aussi d’exclusion de livres du corpus), si tu veux aller dans le détail comme tu l’esquisses, cela va être à la limite de l’impossible ; par contre, il devrait être assez facile de récupérer la date d’édition (normalement indiquée dans la page d'index de l’espace Livre: qui porte le même schéma de nom que les pages dudit livre, je vais regarder dès maintenant quelle est l’état de complétude et de cohérence de cette information). Cdlt, VIGNERON * discut. 21 juillet 2016 à 13:00 (UTC)
Pour la date, il est important d’être au plus près de la date de la première édition. — Lyokoï (Parlons  ) 21 juillet 2016 à 14:30 (UTC)

Suite à la question de Vigneron "peut-on faire mieux que ngrams ?", je lance quelques pistes sans être sûr de leur pertinence :

  • sur les graphiques chronologiques à la ngrams :
    • possibilité de fusionner différents mots : je peux vouloir comparer nénufar et nénuphar, mais je peux aussi vouloir comparer nénufar/nénuphar à crocus (exemple stupide).
    • on pourrait vouloir rajouter optionnellement certaines dates clés sous forme de barre verticale (ex: en 1938, DAF38 préconise l'orthographe nénuphar, visualiser les guerres mondiales dans une comparaison fritz/boche facilite l'interprétation, etc.)
    • possibilité d'avoir 2 échelles en ordonnées différentes quand on compare l'évolution de 2 mots , l'un très fréquent, l'autre beaucoup moins.
  • comme autre type de graphique :
    • camembert pour mettre en avant le régionalisme d'un terme (basée sur la ville d'édition ?) :genre, on retrouve tel mot à 95 % dans des ouvrages québecois.
    • graphe type étoile (?) pour mettre en avant les mots qui reviennent le plus souvent autour du mot-cible (10 mots les plus fréquents dans la phrase du mot-cible).

Sur la mise en place , on peut distinguer 2 phases distinctes :

  • création d'une page à la ngrams, en soit utile.
  • comment intégrer ce genre de graphes dans une page du wiktionnaire, à la fois du point de vue :
    • pratique (facilité d'utilisation)
    • technique (quelle techno utiliser, mise à jour dynamique ou mannuelle, etc.)
    • théorique (quelle limite ne faut-il pas franchir pour ne pas faire de travail de recherche)... Hector (discussion) 23 juillet 2016 à 19:25 (UTC)
    Juste un hyperlien vers le nouvel outil qui serait hébergé sur https://tools.wmflabs.org, et créerait ses graphiques à la volée à partir des mots en paramètres dans l'URL. Ainsi, cela ne coûtera pas plus cher d'ajouter un paramètre langue et de piocher dans tous les Wikisources. La techno pour le temps réel c'est MariaDB en BDD, et AJAX pour une fluidité de chargement. Temps estimé : une semaine à temps plein. Mais moi je ne serai pas motivé tant que Ngram sera disponible. JackPotte ($) 10 janvier 2017 à 21:20 (UTC)
  @Hector : Tout le travail de Wikipédia, par exemple, est un travail de recherche et mise en forme d’informations. Il ne faut pas s’interdire ça. Ce qui est interdit sur Wikipédia, c’est des choses inédites, par exemple une page sur un nouveau théorème mathématique qu'on viendrait de démontrer, même si on donne la démonstration. Je ne vois pas où serait le problème de donner la sortie d’un outil dans une page du Wiktionnaire, ce n’est qu'une mise en forme d’informations de façon automatisée. Je pense qu’une mise à jour manuelle s’impose, pour que chaque consultation de la page n’entraîne pas une recherche dans tout Wikisource, il faut rester raisonnable. Par contre, on pourrait indiquer la date de réalisation du graphique, ce serait très utile. Lmaltier (discussion) 10 janvier 2017 à 21:45 (UTC)

Créer des entrées pour les graphies anciennes depuis Wikisource modifier

D’après les wikisourciers et wikisourcières rencontrés à la WikiConférence francophone tenue à Paris en août 2016, il n’est pas rare de rencontrer sur Wikisource des formes graphiques anciennes. On parle ici seulement du français, et principalement des mots dont l’orthographe a évolué à la réforme orthographique de 1835, comme enfans. Les wikisourciers et wikisourcières connaissent tout ces mots mais ne peuvent pas facilement les ajouter sur le Wiktionnaire. Il serait alors intéressant d’envisager un patron pré-rempli qui fonctionne un peu comme GadgetCreerFlexion mais directement à partir de Wikisource. En somme une sorte de GadgetCreerGraphie qui génère une entrée avec Forme graphique ancienne de… et inclue d’emblée la phrase présente sur Wikisource comme attestation. Qu’en dites-vous ? Imaginez-vous des manières d’améliorer cette idée ou de la réaliser ?   Noé 23 août 2016 à 14:23 (UTC)

On peut déjà faire dans une annexe une liste de patron simple à copier-coller dans l’article en question avec un micro-guide d’usage du WT spécialement pour les wikisourciers et wikisourcières. — Lyokoï (Parlons  ) 23 août 2016 à 15:00 (UTC)
Voici une ébauche : Annexe:Patron d’article pour création rapide. — Lyokoï (Discutons  ) 14 décembre 2016 à 17:51 (UTC)
Je renvois plutôt vers la page Aide:Patrons. Une page dédiée pourrait être recréée mais pas dans l’espace de nom Annexe, si c’est une page Aide   Noé 11 mars 2024 à 13:37 (UTC)

Importer les dictionnaires (de langues, etc.) de wikisource vers le wiktionnaire modifier

ça semble évident mais pas si simple en pratique... Néanmoins les dictionnaires ont une typographie particulière pour reconnaître le lemme de la définition.Hector (discussion) 23 septembre 2016 à 20:46 (UTC)

Après cette discussion une proposition intéressante serait de faire un outil qui mettent en face à face la section de Wikisource de l’entrée concernée et une page du Wiktionnaire du même nom. Si la page du WT existe, on peut la modifier, si elle n’existe pas, on peut faire un import des informations dans CréerNouveauMot pour créer ensuite la page. Il faudrait penser à mettre un bouton permettant d’ajouter la référence simplement (à l’instar de celui permettant de citer la source).
Dans une autre étape, avec le même outil, il pourrait être intéressant de pouvoir mettre une annotation sur Wikisource, indiquant pour l’entrée en question son utilisation et/ou sa présence dans le Wiktionnaire. — Lyokoï (Parlons  ) 28 septembre 2016 à 09:26 (UTC)
  @Hector : Nous avons reparlé de ça avec Lyokoï récemment et nous avons essayé de préciser cette idée. Il pourrait s’agir de créer un nouvel espace de nommage Dictionnaires dont les pages apparaîtraient comme des onglets supplémentaires pour toutes les pages de l’espace principal de nommage (celle qui ne commencent pas par un préfixe), à côté de l’onglet Discussion. Ces nouvelles pages pourraient contenir des imports de dictionnaires dans le domaine public, présents sur Wikisource. Il s’agirait du même contenu mais disséminé en plusieurs pages sur le Wiktionnaire en plus d’être centralisé sur une page de Wikisource. Le premier dictionnaire dupliqué initiera de nombreuses pages, les copies suivantes viendront enrichir les pages créées et en ajouter d’autres, dans l’ordre chronologique, ce qui permettra de faire de l’exploration dans les définitions passées, selon les sources. Cela pourrait ressemble à ce que propose le dico d’oc pour l’occitan, mais sur deux pages distinctes (car à terme, ces pages pourraient contenir de très nombreux dictionnaires). En plus des dictionnaire de définitions, nous pourrions envisager d’intégrer par la suite d’autres types d’ouvrages comme des dictionnaires de synonymes, d’étymologie, de traduction. Chacun avec une section de la page en propre. Qu’en pensez-vous ? Pensons-le bien, pour ensuite le proposer sur la Wikidémie   Noé 15 décembre 2016 à 08:19 (UTC)
Cette idée est proposée lors de la sollicitation communautaire de l’équipe technique 2017 !   Noé 18 novembre 2017 à 18:28 (UTC)

Wiktionnaire vers Wikisource modifier

Comment Wikisource pourrait tirer profit du contenu du Wiktionnaire ? N’hésitez pas à créer de nouvelles sous-parties dans la page pour lancer vos idées !

Citer Wikisource modifier

Actuellement, il est possible de chercher manuellement dans Wikisource puis de cliquer sur "Citer le texte" et de sélectionner "Wiktionnaire" pour avoir une mise en forme correspondant à celle utilisée sur le Wiktionnaire francophone   Noé 6 juillet 2016 à 23:17 (UTC)

Merci , bien pratique !Hector (discussion) 17 juillet 2016 à 19:26 (UTC)

Vérifications orthographiques modifier

Si un mot n’est pas sur le Wiktionnaire, c’est que c’est peut-être une erreur. Il est donc peut-être envisageable de développer un détecteur afin d’aider à la saisie dans Wikisource. Aucune idée sur la manière de procéder   Noé 28 juin 2016 à 22:31 (UTC)

  @Noé : Salut. Sur ce point, il faut cependant être délicat sur Wikisource, attendu que le choix éditorial d'un ouvrage peut venir affecter le résultat. Il y a la retranscription stricte, et donc, nous conservons toujours la graphie de la publication, ou encore, la retranscription avec correction des coquilles... Nous devrons mettre en place une règle précise selon le choix éditorial... :) --Ernest-Mtl (discussion) 30 juin 2016 à 15:04 (UTC)
Très juste. Cependant, le fait qu’un mot soit dans le Wiktionnaire n’implique pas qu’il soit correct à l’époque, car le Wiktionnaire intègre des néologismes, mais aussi des mots anciens, et parfois régionaux. Et si vraiment il n’est pas dans le Wiktionnaire, il est probable qu’il soit possible de l’ajouter, car chaque variante orthographique a sa place   Noé 30 juin 2016 à 15:32 (UTC)
(copie depuis le scriptorium de Wikisource) Un outil qui est magique dans la théorie mais un peu cassé dans la pratique est dicompte. Si un développeur pouvait le redévelopper/améliorer/corriger... Cela changerait la vie à la fois des wikisourciers et des wikidémiciens. Cdlt, VIGNERON * discut. 3 juillet 2016 à 15:22 (UTC)
je viens de faire une tentative avec Dicomte - le résultat est .
comme je n'ai aucune idée de comment indiquer la prononciation, ni de ce qu'il faudrait mettre autrement, je pense que ça donne une bonne idée du problème pour un wikisourcien lambda qui voudrait ajouter une variante orthographique. J'espère ne pas m'être trompée sur le sens de flexion :)
PS : j'ai cherché le bouton de signature partout, sans le trouver... il n'y en a pas sur le wiktionnaire ? Hsarrazin (discussion) 23 août 2016 à 19:31 (UTC)
ça existe ça, un bouton de signature ? Sur Wikisource non plus, je n’en ai pas trouvé… Lmaltier (discussion) 23 août 2016 à 19:39 (UTC)
Parmi les mots trouvés par l’outil, il y a penſer, qui est pourtant bien présent sur le Wiktionnaire, mais dans la page penser. Je pense qu’une façon simple d’éliminer ce genre de cas de la liste pour qu’ils ne perturbent plus est de créer ici au coup par coup des redirections du genre penſer vers penser. L’utilité de ces redirections est extrêmement faible, mais ce serait utile au moins pour ça. Lmaltier (discussion) 23 août 2016 à 19:39 (UTC)
Une autre solution, plus simple, est que l’outil fasse la conversion lui-même… Lmaltier (discussion) 23 août 2016 à 19:58 (UTC)
  @Lmaltier : Dicompte est limitée (notamment par son absence de mise à jour) mais il est déjà possible de filtrer des caractères (case « Contient : » en bas et coche « Contient inversé ? » pour faire une exclusion au lieu d'une inclusion). Cdlt, VIGNERON * discut. 8 novembre 2016 à 14:20 (UTC)

A propos de « dicompte », ça peut être une idée pour un futur hackaton   Pamputt [Discuter] 23 août 2016 à 19:49 (UTC)

À noter qu’il semble que dicompte ait été développé par Darkdadaah (d · c · b). On peut sûrement mettre la main sur le code plus facilement. Pamputt [Discuter] 10 janvier 2017 à 21:39 (UTC). Bon en fait en cherchant 2 minutes, le code est déjà disponible sur github et la façon de l’utiliser est indiquer ici. Pamputt [Discuter] 10 janvier 2017 à 21:49 (UTC)


point de vue complémentaire à la discussion ci-dessus :
Les correcteurs orthographiques sont très utilisés pas les wikisourciers (en tout cas c'est mon cas) : vu ma petite expérience, un correcteur "avant réforme 1830" (enfans, enseignemens,...) serait drôlement pratique. Le wiktionnaire pourrait-il en générer un ? le format hunspell semble assez simple... On peut aussi regarder du côté de [www.dicollecte.org dicollecte] qui propose déjà un dictionnaire "réforme 1990" et un "classique". Hector (discussion) 23 septembre 2016 à 21:01 (UTC)
Pour pouvoir proposer une correcteur d’orthographe, il nous faudrait déjà avoir la liste des mots concernés… — Lyokoï (Parlons  ) 28 septembre 2016 à 09:31 (UTC)

  @VIGNERON, @hsarrazin, @Lmaltier et @Pamputt : est-ce que vous pensez qu’il serait judicieux d’écrire une demande de développement dans le cadre de l’enquête sur les souhaits de la communauté 2016 ?   Noé 8 novembre 2016 à 13:42 (UTC)

  @Noé : tout à fait, j’y pensais justement ! En plus cette idée est fortement scalable (d’une version dégradée basique monolingue - un peu ce que l'on a actuellement avec Dicompte - à une version évoluée qui identifierait les mots par langues et par époque, peut-être aussi par genre et par nature, voire qui serait capable de comprendre la grammaire ou tout au moins le contexte). Cdlt, VIGNERON * discut. 8 novembre 2016 à 14:20 (UTC)
PS: je vois qu’il y a une proposition similaire mais plus large du côté Wikisource : m:2016 Community Wishlist Survey/Categories/Wikisource mais ce serait bien de renfoncer le clou du côté Wiktionnaire ;) Cdlt, VIGNERON * discut. 8 novembre 2016 à 14:31 (UTC)

Liens inter-projets modifier

Les deux projets sont actuellement peu connectés, si ce n’est via des liens mis à la main dans {{source}}. Dans un futur proche, le Wiktionnaire sera connecté à Wikidata et les liens pourraient être augmentés. Comment ?

Détection de textes présents sur Wikisource dans les citations du Wiktionnaire modifier

Hey, ça serait pas super beau qu’un bot puisse ajouter des liens vers Wikisource lorsque les textes mentionnés dans les citations du Wiktionnaire y sont ? Je n’ai aucune idée de la faisabilité de l’opération, car ça demande des requêtes de part et d’autre, mais peut-être que si on y réfléchis dès maintenant, ça pourrait être développé un jour, non ?   Noé 10 novembre 2016 à 09:32 (UTC)

Indication des mots utilisant des parties d’une page sur Wikisource modifier

L’outil Pages liées ne donne pas actuellement les liens vers les autres pages des autres projets, mais pourrait-on envisager de savoir un jour en lisant une page de Wikisource que des parties du texte sont citées sur le Wiktionnaire ? Dans un outil technique ou carrément dans un encart d’un côté ou d’un autre de la page. Ce serait utile pour la maintenance et pour montrer l’audience d’un texte. Qu’en dites-vous ? A quel niveau cela pourrait être développé (gadget, Mediawiki,…) ?   Noé 10 novembre 2016 à 09:32 (UTC)

J’ai mentionné la proposition dans l’appel à suggestion pour la communauté technique 2016   Noé 16 novembre 2016 à 15:44 (UTC)