Discussion Projet:Wikibase

(Redirigé depuis Discussion Wiktionnaire:Wikibase)
Dernier commentaire : il y a 2 ans par Psychoslave dans le sujet Discussions lors de la permanence en ligne de la semaine 22

Vers une Wikibase dédiée aux Wiktionnaires modifier

Note
Discussion initiée sur une section dédiée dans la Wikidémie avant migration ici.

Salut,

Le week-end du 22-23 mai j’ai pu participé au Hackathon Wikimédia en ligne. L’un de mes objectifs était d’en apprendre plus sur la possibilité (ou non) de faire héberger une instance dédiée aux besoins des wiktionnaires au sein de Wikimedia Cloud Services (WCS). Pour la faire courte, ça n’a jamais été fait, mais c’est possible et l’expérimentation est bienvenue. Si l’expérimentation donne quelque chose de probant, il sera toujours possible au besoin de migrer l’instance ailleurs si ça s’avère logistiquement plus pertinent.

Maintenant que cet aspect logistique est entériné, il reste deux axes majeurs pour faire avancer cette idée :

  1. déployer effectivement une instance ;
  2. définir une ontologie qui convienne aux besoin des wiktionnaires.

Le point 1 est évidemment, est de loin, le plus simple. Je peux m’en charger. A priori, ça n’est pas forcément non plus une simple formalité, une des sessions que j’ai suivi lors du hackathon était spécifiquement dédié à ce sujet semble-t-il semé d’embûches, mais du coup d’autres ont déjà défriché le terrain.

Le second point nécessitera assurément pas mal de discussions au long court. J’ai commencé à en parler avec   @Lyokoï : par téléphone peu avant le hackathon. Il me corrigera si je restitue erronément son propos, mais il me semble que lui voyait plutôt une instance par version linguistique du wiktionnaire. Ce pour que chaque communauté puisse transcrire directement ses choix éditoriaux (langues distingués, classes et terminologie grammaticale…) en une ontologie spécifique.

Pour ma part je serais plutôt partisan d’une unique instance, où les choix éditoriaux sont eux même explicités dans l’ontologie. C’est à dire une ontologie où il faudra d’abord créer explicitement des grammaires, qui seront par exemple associable à une langue et à des classes grammaticales. Et c’est seulement ensuite que des entités lexicographiques pourront se voir associés des attribues à travers une grammaire spécifique. Par exemple à travers une grammaire associé à la langue anglaise et comprenant le type grammatical adjectif etc. Il pourra donc bien être exprimé que tremendous est un adjectif en anglais sous le prisme de cette grammaire. Mais cette grammaire ne sera pas forcément adaptée à toutes les langues. Par exemple en mandarin il n’est pas évident que des attributs comme le temps, le genre et le nombre constituent des grilles d’analyse appropriées.

D’autres approches sont probablement possibles, et cette discussion vise notamment à initier le débat sur ce point.

Dans l’intervalle, je propose dans les semaines à venir de commencer à mettre en place une instance Wikibase sur WCS, et de commencer à y incorporer quelques échantillons de citations de texte que nous utilisons pour illustrer les attestations. Cela permet de commencer à mettre quelque chose en branle, sans avoir à gérer d’emblée l’intégration d’ontologies grammaticales. Cela dit, même sur ce sous ensemble restreint, pour faire cela proprement il faudrait quand même être en mesure d’associer une référence. Il y a déjà des choses qui ont été lancé à ce sujet, voir notamment WikiCite. Donc a priori ça ne sera pas indispensable de réinventer la roue, au moins sur le plan ontologique. Par contre je suppose que Wikicite va partir sur du CC-0, ce qui n’est pas compatible avec une feuille de route de wiktionnaire si on veut pouvoir à terme intégrer des éléments originaux des wiktionnaires dans des proportions significatives.

Voilà, au plaisir de lire vos retours donc, Psychoslave (discussion) 31 mai 2021 à 08:34 (UTC)Répondre

Intéressant, gros chantier en perspective. Jpgibert (discussion) 31 mai 2021 à 09:50 (UTC)Répondre
Salut, ça parait plutôt cool. Je suis par contre un peu sceptique concernant l'ontologie grammaticale… Hormis ça, quelques points : la base sera-t-elle requêtable depuis le Wikt ? Comment contribuera-t-on à la base ?
Je serai plus d'avis d'avoir une base par projet. J'ai pas envie de devoir expliquer à d'autres projets pourquoi on fait comme ça. Ce qu'il est possible de faire est de concevoir une base/ontologie par projet et de travailler plus tard sur de l'alignement ontologique pour permettre de transférer les infos du base vers l'autre, tout en restant chacun de son côté. Lepticed7 (À l’immortalité !) 31 mai 2021 à 11:23 (UTC)Répondre
la base sera-t-elle requêtable depuis le Wikt ?
Je l’ignore. Je souhaiterais effectivement que cela débouche sur une telle possibilité. Donc sur le long terme, ça sera à ajouter à la feuille de route comme objectif souhaité, mais dans l’immédiat, ça ne sera pas le cas.
Je serai plus d'avis d'avoir une base par projet. J'ai pas envie de devoir expliquer à d'autres projets pourquoi on fait comme ça.
Pourquoi on fait quoi comment ? L’idée d’expliciter les grammaires dans l’ontologie, c’est précisément que chacun puisse construire sa propre grammaire et l’utiliser pour développer des analyses grammaticales multiples.
Par ailleurs, je trouve que généralement expliquer aux autres et écouter les explications des autres c’est plutôt quelque chose de souhaitable qu’une situation à fuir.
Ce qu'il est possible de faire est de concevoir une base/ontologie par projet et de travailler plus tard sur de l'alignement ontologique pour permettre de transférer les infos du base vers l'autre, tout en restant chacun de son côté.
Je ne saisie pas en quoi la multiplication des instances apporte quoi que ce soit sur ce point, tout au moins par rapport à une ontologie explicitant les grammaires utilisés comme je l’ai proposé. Si ça te parle plus, ce que je propose c’est une métaontologie, donc si tu préfères construire une ontologie tout seul dans ton coin, c’est tout à fait possible dans cette perspective, au sein de la même instance Wikibase qui abrite également d’autres ontologies de deuxième ordre.
Ceci étant, le débat reste ouvert et pour l’instant côté implémentation je vise sciemment une partie plus restreinte (stocker les citations) pour que ce débat puisse se faire tranquillement en parallèle d’un début de mise en œuvre. Psychoslave (discussion) 31 mai 2021 à 20:50 (UTC)Répondre
Yo, tant que la base n’est pas requêtable, elle n’aura pas grand intérêt sauf contenter nos humeurs de geek (moi, ça me va :D). En fait, quelque chose me fait tiquer : on sait que chaque langue y va de sa tradition descriptive pour aborder les autres langues. Le but d’une ontologie, c’est pas que chacun construise sa propre grammaire. Le but de l’ontologie est de fournir un cadre commun de description des langues. De plus, il va falloir être plus prolixe, parce que je vois pas ce que tu veux faire. Ça veut dire quoi "construire sa propre grammaire" dans une ontologie ? Que chacun puisse jouer avec le modèle ? Lepticed7 (À l’immortalité !) 1 juin 2021 à 06:45 (UTC)Répondre
Ok, je fournirai prochainement plus de détail sur l’approche que j’ai en tête. Psychoslave (discussion) 1 juin 2021 à 11:52 (UTC)Répondre
Pour information :
- meta:Project/in situ fait maintenant un état des lieux de ce projet
- meta:Structured Wikiquote correspond à quelque chose de similaire à ce qui est prévu pour la maquette Psychoslave (discussion) 31 mai 2021 à 16:05 (UTC)Répondre
Comme déjà dit au téléphone, je ne vois pas l’intérêt de tenter une énième fois de faire une base commune. Je ne participerai qu’à l’élaboration d’une Wikibase pour le Wiktionnaire francophone qui pourra être un exemple pour les Wiktionnaires frères. Lyokoï (Discutez sur le péril mortel) 31 mai 2021 à 22:57 (UTC)Répondre
Si par l’élaboration d’une Wikibase pour le Wiktionnaire francophone tu entends qui permette de modéliser les besoins spécifiques de fr.wikitionary, éventuellement incompatibles avec des besoins spécifiques des autres versions linguistiques du Wiktionnary, ça n’est en aucun cas incompatible avec une instance de Wikibase commune.
En tous les cas je veux bien aider sur la partie mise en place de l’instance, mais pour le moment je n’aurai logistiquement pas le temps de plancher sur un modèle de données spécifique à fr.wikitionary. Donc là si il y a un intérêt de la part de la communauté à disposer d’une telle solution, je serai ravis de la voir proposée.   Psychoslave (discussion) 2 juin 2021 à 04:59 (UTC)Répondre
J’ai passé plusieurs mois à élaborer l’ontologie du Dictionnaire des francophones (DDF) pour qu’elle permette la modélisation des données du Wiktionnaire et des autres dictionnaires inclus, et il a été nécessaire de faire des choix dans les concepts, dans les relations et dans les vocabulaires contrôlés. Cette ontologie a été bâtie sur Ontolex, une ontologie qui sert à décrire des langues, sur le module lexicographique d’Ontolex qui sert à décrire des entrées de dictionnaire et sur Lexinfo, une ontologie cherchant à établir une nomenclature de termes techniques (notamment les noms des genres, des registres, etc.). Les choix faits pour le DDF ne seront pas forcément ceux fait par la communauté du Wiktionnaire et il faudra donc prévoir un chantier de plusieurs mois pour la mise en place de cette ontologie pour le français. Cela peut être fait en même temps que le remplissage de la base, à la manière de Wikidata Lexeme. Mais ensuite, il faudra ouvrir à d’autres langues, et ça devient compliqué. Comme l’a rappelé Lepticed, les termes et relations que l’on pourrait proposer pour décrire l’allemand à des francophones ne sont pas ceux qu’utilisent des anglophones pour enseigner cette langue, ni ceux qu’utilisent les germanophones eux-mêmes. Il existe des traditions de description des langues, des traditions d’enseignement des langues et des possibilités terminologiques selon les concepts disponibles. Les langues latines expliquent différemment les concepts des autres langues latines que lorsque la langue d’explication est très distincte, parce que les concepts similaires n’y sont pas. Un exemple : l’accusatif, c’est un concept clair pour un germanique, mais en fait, il regroupe plusieurs valeurs et ce sera expliqué avec des listes de concepts plus spécifiques dans certaines langues que dans d’autres. Difficile de bâtir tout cela. Aujourd’hui, on a pas ce genre de modélisation et de description du métalangage pour beaucoup de langue, donc difficile de décrire un système global et d’intégrer dans la discussion des gens qui partent de points de départ très différents. Il me paraît bien plus raisonnable de bâtir des ontologies spécifiques pour chaque langues et de travailler à des alignements entre les ontologies avec les personnes qui pourront le faire (ce qui demande des connaissances avancées quand même). Bon courage en tout cas. Je suivrai de très loin cette discussion, je n’ai pas la disponibilité ni l’intérêt aujourd’hui à m’y impliquer, j’ai déjà trop de casquettes   Noé 1 juin 2021 à 08:26 (UTC)Répondre
Merci pour ce retour informatif.
Comme dit, pour ma part je suis tout à fait disposé à aider à mettre en place une instance avec un modèle de donnée lexicographique spécifique si quelqu’un la fournie.

De prime abord, il me semble que l’idée que j’ai en tête est aux antipodes de l’approche que tu décrits. Pour moi il ne s’agit pas de fournir un modèle qui prenne en compte d’emblée toutes les grammaires existantes avec des relations et un vocabulaire normalisé préétabli, mais une plateforme qui permette de modéliser communautairement des grammaires, avant de les employer au sein de la même plateforme pour segmenter des énoncés attestés et proposer une analyse spécifique de ces segments. Je viens de jeter un œil à en:OntoLex, et ça me paraît déjà beaucoup trop spécifique par rapport à ce que je souhaite proposer. À la limite ça pourrait être un modèle grammatical implémentable dans le modèle de données que je vise.

Toujours est-il que c'est une proposition que je souhaite porter. Ça n’empêche strictement pas la communauté de fournir d’autres propositions de modèles beaucoup plus spécifiques que je serai ravis d’aider à mettre en place dans une Wikibase dédiée. Psychoslave (discussion) 2 juin 2021 à 05:23 (UTC)Répondre

Je pense qu'il faut qu'on se base sur ce qu'on sait faire et ne pas voir trop gros. Et puis on est déjà pas certains de voir un jour une Wikibase dédiée à nos besoins alors ne parlons même pas d'une Wikibase commune ! C'est beaucoup plus abordable de faire de petits paliers que de prendre de grands virages dont on ne voit pas l'extrémité et qui peuvent décourager à la mise en place. Otourly (discussion) 2 juin 2021 à 05:31 (UTC)Répondre

  @Psychoslave : Salut, j’attends de voir ta proposition de modélisation avant de juger, parce que j’ai vraiment pas compris. Je sais pas si tu as des connaissances en ontologie ou pas, mais il y a quelque chose qui me dérange dans le modèle que tu décris partiellement, sans que je ne puisse l’expliquer. Donc, j’attends. Mais dès que ton modèle est là, tu peux compter sur un retour de ma part :) Lepticed7 (À l’immortalité !) 2 juin 2021 à 08:09 (UTC)Répondre
Génial, merci. J’en prends bonne note et te notifierai sur la page correspondante quand j’aurai publié quelque chose de suffisamment ébauché pour qu’une demande de retours soit pertinente. Psychoslave (discussion) 2 juin 2021 à 09:36 (UTC)Répondre
En fait je suis totalement d’accord avec tout ce que tu dis, et j’en tire une conclusion toute différente.
Ça me paraît beaucoup plus ambitieux de tenter de modéliser d’emblée un système suffisamment complet pour accueillir toutes les données et relations de même une seule instance linguistique de Wiktionnaire que de fournir des outils pour exprimer des relations grammaticales au fil de l’eau et laisser au soin à la communauté de créer les modèles grammaticaux qui lui paraisse utile et pertinent. Psychoslave (discussion) 2 juin 2021 à 09:43 (UTC)Répondre

Présentation des sous projets per situ et trans situ modifier

Salut, J’ai un peu avancé côté structuration de la page projet principale de in situ sur Méta, et j’ai notamment ajouté des sous-pages dédiées pour discuter des modélisations possibles avec :

  • per situ pour les modèles axés « une instance Wikibase par communauté linguistique », comme l’appel de leur vœux plusieurs personnes ci-dessus, et qui n’attends donc plus que des volontaires pour s’atteler à ces formalisations distincts ;
  • trans situ pour les modèles axés « une seule instance où des modèles grammaticaux distincts peuvent cohabiter même pour une même langue », sur lequel je pense pour ma part privilégier mes efforts, et où tout à chacun est bien sûr tout aussi bienvenue pour aider.

Psychoslave (discussion) 2 juin 2021 à 09:33 (UTC)Répondre

Discussions lors de la permanence en ligne de la semaine 22 modifier

Le projet à été abordé pendant la permanence en ligne de cette semaine, confer Projet:Permanences hebdomadaires en ligne/2021-semaine 22 pour plus d’informations. Psychoslave (discussion) 3 juin 2021 à 08:31 (UTC)Répondre

Revenir à la page « Wikibase ».