Utilisateur:VIGNERON/Lexèmes

Les données lexicographiques de Wikidata (dans l’espace de nom Lexeme:) existent depuis fin mai 2018. Voici un rapide état des lieux à 5 ans.

Pour tout les détails de fonctionnement et d’organisation, voir la page Wikidata:Données lexicographiques. Le point important à retenir est que les informations sont structurées différemment, une entrée du Wiktionnaire (basée sur une chaîne de caractères) peut correspondre à plusieurs entrées Lexèmes (basée sur l’unité lexicale) et vice-versa. Par exemple :

<à faire: créer un schéma visuellement parlant ?>

Quelques chiffres clés au 1er septembre 2023 :

Je ne sais pas compter le nombre de sous-parties distinctes côtés Wiktionnaire (je sais juste que le nombre est strictement supérieur à 1 Clin d’œil et sans doute inférieur à 2, si on fait l’hypothèse que la majorité des pages - typiquement les flexions - n’ont qu’une seule partie).

Côté Lexèmes, les 1 130 623 pages (https://w.wiki/7NdU) contiennent 12 536 537 de formes (https://w.wiki/7Ndc) et 384 826 sens (https://w.wiki/7Ndf).

  • Plusieurs formes pouvant être représenter par la même chaine de caractères, il faut compter les chaînes distinctes (qui serait donc une seule et même page côté Wiktionnaire), on tombe à 9 282 807 (https://qlever.cs.uni-freiburg.de/wikidata/C1EKEl). Ce qui fait en théorie et au minimum, 4,5 millions de pages à créer côte Wiktionnaire.
  • Par contre, les sens sont clairement le point faible des Lexèmes (en théorie chaque lexème devrait avoir au moins un sens, or il n’y en a qu’un tiers environ actuellement), surtout qu'il y a une forte disparité entre langues (l’estonien a plus de 83000 lexèmes et quasiment aucun sens ! même situation pour le grec moderne avec 43 000 lexèmes presque tout sans sens ; inversement le bokmål, le basque ou l’anglais font partie des rares langues avec plus de 10 000 de lexèmes et avec plus de sens que de lexèmes).

Voir https://ordia.toolforge.org/language/ pour une comparaison détaillée entre nombres de lexèmes, de sens et de formes.

En se concentrant uniquement sur le français :

<à faire : ces 249 244 chaînes ont-elles toutes une page dans le Wix ? une exploration manuelle montre que le nombre semble assez faible et pour des variations comme Afrique sub-saharienne (d:L30625#F2) au lieu de Afrique subsaharienne. Voir aussi un essai un peu brut sur Utilisateur:VIGNERON/Lexèmes/a >

En se concentrant uniquement sur le basque :

<à faire : même question mais là, la majorité est absente du Wix ; sans doute majoritairement des flexions>