Discussion Convention:arabe/Diacritiques

(Redirigé depuis Discussion Wiktionnaire:Conventions/arabe/Diacritiques)
Dernier commentaire : il y a 2 ans par Micheletb dans le sujet Mise en page?

Variante par contrainte typographique ?

modifier
Déplacé depuis Discussion utilisateur:Micheletb

Je suis surpris de voir ça dans ماكل… D’abord, ce n’est pas du tout la classe grammaticale du mot. Par ailleurs, pour moi, c’étaient deux systèmes d’écriture normaux. Je sais qu’en persan, la seule écriture standard est celle sans diacritiques, et je pensais que c’était aussi l’écriture la plus normale de l’arabe. L’article Wikipédia dédié à l’écriture de l’arabe semble d’ailleurs le confirmer, car elle parle de l’écriture avec diacritiques comme de l’écriture didactique (donc pas l’écriture normale). Lmaltier (discussion) 10 février 2021 à 10:50 (UTC)Répondre

Bonjour   @Lmaltier : le point est que l'entrée de base (pour l'arabe, après analyse des alternatives) est celle avec diacritiques, du coup l'orthographe "sans" est donnée comme une variante par contrainte typographique. Ça n'empêche pas d'avoir une autre approche pour le persan.
Effectivement, l'écriture standard est sans (presque) diacritiques (c'est plus compliqué que ça), mais pour un dictionnaire devant pouvoir servir de référence pour des débutants, la norme est avec diacritiques - un dictionnaire sans diacritiques est illisible et inexploitable si on ne connaît pas déjà la langue.
On pourrait se contenter d'indiquer la forme avec diacritique sur la page de référence, mais ça conduit rapidement à des pages inextricable sur les formes de base (voir les correspondants sur :en où ils ont pris l'approche inverse, c'est illisible).
?classe grammaticale??
Cordialement, Micheletb (discussion) 10 février 2021 à 10:59 (UTC)Répondre
Quand je parlais de classe grammaticale, je voulais dire nom commun, nom propre, verbe, etc. Il faudrait au minimum changer ça, remplacer Variante par contrainte typographique (qui suggère que l’écriture est théoriquement mauvaise) par la bonne nature grammaticale du mot… Lmaltier (discussion) 10 février 2021 à 11:56 (UTC)Répondre
Bonjour   @Lmaltier : sans les diacritiques le squelette peut souvent avoir différentes lectures, donc il n'a pas à proprement parler de nature grammaticale. Suivant la lecture qu'on en fait (avec diacritiques), un graphisme comme ماكل peut aussi bien être un verbe, un participe passé, un nom...
Le mot proprement dit, de référence, que l'on trouve comme entrée dans un dictionnaire, est le mot avec diacritiques, dont on omet généralement tout ou partie dans l'écriture courante. Donc, oui, la forme « normale » (au sens de la norme) en arabe est avec diacritiques, et la forme « habituelle » s'en dispense plus ou moins. Ce ne sont pas des formes « théoriquement bonnes » donc ce n'est pas incohérent de dire qu'elles sont « théoriquement mauvaises », même si quiconque a une pratique minimale de l'arabe sait que l'écriture courante est sans diacritiques (ou presque).
Pour un dictionnaire, ce sont bien des « variantes » graphiques, qui renvoient vers la forme « normale » pour trouver la définition, l'étymologie, etc. Il reste important de les marquer comme entrées, ne serait-ce que pour récupérer les liens interwiki vers les autres wiktionnaires ayant des conventions différentes. Ces pages fonctionnent tantôt comme des pages de désambiguïsation, tantôt comme des redirections. Pour la cohérence de la rédaction collective, il est important que la forme de référence soit bien celle avec diacritique, sinon on peut se retrouver à mettre n'importe quoi n'importe où sans pouvoir recoller les morceaux (exemple,  أَكَلَ  et أكل avant que je n'homogénéise).
Micheletb (discussion) 10 février 2021 à 13:15 (UTC)Répondre
En fait, le traitement est le même que pour moeurs qui renvoie sur mœurs même si la première orthographe se rencontre. La différence est qu'en arabe, ça arrive tout le temps. Micheletb (discussion) 10 février 2021 à 13:41 (UTC)Répondre
Il y a une différence énorme : l’orthographe moeurs n’est pas normale en français, la seule considérée comme correcte actuellement (ça changera peut-être) est mœurs. Alors qu’en arabe, la graphie ماكل est correcte et normale. Lmaltier (discussion) 10 février 2021 à 16:04 (UTC)Répondre
Sur l’autre point soulevé, si la graphie peut correspondre à un nom, à un verbe, etc., il suffit de créer une section par possibilité, avec des liens variés vers les sections avec diacritiques. On fait ça tout le temps. Et on peut mettre dans ces sections des citations et autres informations. Rien ne l’empêche. Je ne demande pas la suppression des pages avec diacritiques, simplement que les pages sans les diacritiques soient normales pour que les lecteurs qui les lisent puissent s’y retrouver. Lmaltier (discussion) 10 février 2021 à 16:10 (UTC)Répondre
Non,   @Lmaltier : c'est une source de confusion. La notation sans diacritique n'est pas « correcte » parce qu'elle est incomplète (c'est une abréviation), ni « normale » parce que ce n'est pas ce que l'on doit trouver dans un dictionnaire (ce n'est pas la référence), mais elle est « usuelle » - c'est différent. Dans ton exemple, les mots arabes réels (lexèmes) sont مَأْكَلٌ ou مَأْكِلٌ, et la notation ماكل (qui est un glyphe) peut désigner l'un ou l'autre (voire d'autres formes d'autres racines), mais n'est pas par elle-même un mot (lexème).
On n'est pas en train d'écrire en arabe, mais d'écrire en français sur des mots arabes. Les mots arabes (lexèmes) sont bien définis avec diacritiques dans tous les bons dictionnaires, ne serait-ce que parce que sinon il est impossible de lire un mot inconnu, même si l'écriture courante (textes) s'en passe dans la quasi totalité des cas. Le dictionnaire donne le sens des lexèmes ; et par ailleurs, mentionne les glyphes (sans diacritiques) qui sont renvoyés vers les lexèmes auxquels ils peuvent correspondre. (Sachant de plus que si on commence à accepter tous les glyphes on n'est pas sortis de l'auberge, parce qu'en réalité on peut omettre n'importe lequel des diacritiques, donc toute combinaison d'omission est théoriquement valide (!)). Sur la page sans diacritiques le lecteur peut s'orienter avec des définitions courtes, et peut cliquer sur le mot qui l'intéresse une fois qu'il l'a identifié avec ses diacritiques.
N'essaye pas de plaquer des concepts adaptés aux langue européenne sur la bonne manière de gérer les entrées arabes, la bonne approche est celle adaptée à la langue. Adopter une logique étrangère au génie de la langue ne ferait qu'introduire de la confusion. Micheletb (discussion) 10 février 2021 à 16:30 (UTC)Répondre
Ici, nous décrivons les écritures usuelles (et aussi les moins usuelles). Pour moi, décrire l’écriture la plus usuelle exclut de la décrire comme Variante par contrainte typographique. "Sur la page sans diacritiques le lecteur peut s'orienter avec des définitions courtes, et peut cliquer sur le mot qui l'intéresse une fois qu'il l'a identifié avec ses diacritiques" : ça me semble une approche correcte, encore faut-il mettre les bonnes natures de mot pour aider les lecteurs. Lmaltier (discussion) 10 février 2021 à 17:37 (UTC)Répondre
  @Lmaltier : Je n'ai rien contre, le point étant de distinguer (en arabe) une graphie traduisant en réalité un glyphe, d'une graphie correspondant effectivement à un lexème. Si on confond les deux, c'est la porte ouverte à toute sorte d'abus et d'approximations (et c'est contraire au génie de la langue, et c'est le bordel dans les définitions et exemples d'un dictionnaire, parce que la graphie dont on parle -en arabe, du moins- devient instable).
Un exemple d'emploi porte sur un lexème, pas sur un glyphe. Et en règle générale, en arabe, un glyphe ne correspond pas à un lexème unique : le glyphe est en réalité une page d'indirection.
Le problème que tu as est de croire que glyphes et lexèmes sont la même chose, c'est (à peu près) le cas dans les écritures latines, mais pas en arabe. Imagine d'avoir à gérer un Wiktionnaire texto où toutes les voyelles sont systématiquement supprimées, conduisant à des homonymies systématiques, il faudrait faire une traduction texto-français avant de pouvoir donner la définition d'un mot.
Les écritures usuelles en arabe sont (le plus souvent) des glyphes, non des lexèmes, ce qui justifie de donner dans le wiktionaire la définition en deux temps : (1) Le glyphe a pour « sens » de désigner une liste de mots de même « squelette », et n'a pas d'autre sens ; et (2) le mot a pour sens ce qu'en donne le dictionnaire.
Je n'ai aucune objection à décrire « les écritures usuelles », mais le point est que en arabe, ces écritures usuelles sont des glyphes, pas des lexèmes. Si on ne différencie pas le traitement des deux, on introduit de la confusion dans le système, parce que « mal nommer les choses, c'est ajouter au malheur du monde ».
Après, si le problème est l'intitulé « Variante par contrainte typographique » on peut en changer, mais c'est une autre question.
Micheletb (discussion) 10 février 2021 à 18:35 (UTC)Répondre
C’était uniquement ça le problème que j’ai soulevé. Lmaltier (discussion) 10 février 2021 à 18:37 (UTC) Enfin, disons plutôt que c’est ça qui m’avait choqué. Lmaltier (discussion) 10 février 2021 à 18:40 (UTC)Répondre

Suite sur Discussion:امار.

Mise en page?

modifier
(transféré depuis Discussion:امار )

Bonjour   @Lmaltier :

Puisqu'on en discutait l'autre jour : je fais ici une première tentative de mise en page sur un « glyphe » arabe, امار, qui peut correspondre à deux racines différentes (l'une s'apparentant à "émir", avec trois mots identifiés, et l'autre à la notion d'agitation). Est-ce que le résultat te paraît lisible, ou as-tu des suggestions d'amélioration?

D'avance merci, Micheletb (discussion) 16 février 2021 à 14:54 (UTC)Répondre

  @Micheletb : Il y a deux problèmes : la page contrevient aux conventions du projet sur deux points essentiels :
  • contrairement au wiktionnaire anglophone, nous n’avons qu’une seule section Étymologie par page, qui peut regrouper plusieurs étymologies. Les descriptions des mots ne sont donc pas groupés par étymologie. On met, par contre, quand il y a plusieurs étymologies, les différents adjectifs à la suite les uns des autres, ou les différents noms communs aussi, etc. sauf pour les flexions, qui sont regroupées à la din de la section de langue.
  • toujours le même problème : le Wiktionnaire a pour convention de mettre une section différente (et il y a plusieurs mots s’il y a plusieurs natures grammaticales). Et mettre Variante par contrainte typographique, c’est de toute façon faux : si c’est écrit comme ça, ce n’est certainement pas par contrainte, c’est un choix de l’éditeur, et s’il voulait mettre les diacritiques, il le pourrait sans problème, c’est son métier.
Pourrais-tu essayer de voir ce que la page donnerait en la retouchant pour qu’elle applique ces conventions de base du Wiktionnaire ? L’homogénéité du projet, c’est important. Lmaltier (discussion) 16 février 2021 à 15:12 (UTC)Répondre
Re-bonjour
Est-ce que cette seconde approche paraît plus acceptable?
En fait, si on peut supprimer comme ça la ligne litigieuse on peut le faire sur toutes les pages.
Micheletb (discussion) 16 février 2021 à 15:19 (UTC)Répondre
  @Micheletb :Non, on ne comprend pas bien, on ne peut pas bien comprendre si les conventions du projet ne sont pas respectées. Les mots cités dans les liens sont bien des mots, ils méritent leurs propres sections de mot dans la présente page (avec la section grammaticale indiquée en titre de section), même si le contenu de la section est essentiellement un renvoi vers le mot avec diacritiques. Cela donnerait une page plus longue, certes, mais beaucoup plus claire. Lmaltier (discussion) 16 février 2021 à 15:27 (UTC)Répondre
  @Lmaltier : : OK, avec une numérotation et une indentation plus franche ça devrait être plus lisible. En tout cas ça permet d'éliminer la « contrainte typographique » qui te heurtait.
Une fois encore, répéter les définitions sur chaque possibilité d'entrée sans diacritique est ingérable, parce que l'alternative n'est pas « avec ou sans diacritique » : suivant le contexte, un mot très simple comme أَمَارٌ peut s'écrire d'une douzaine de manière différentes, l'option « sans » n'est que la pointe émergée de l'iceberg : on peut mettre le a ou la hamza sur le premier alif (trois voire quatre versions), mettre ou pas le a devant le deuxième alif (x2), et préciser ou pas la terminaison (x2). S'il faut potentiellement surveiller et garder en phase douze pages pour assurer la cohérence du wiktionnaire, et ce sur chaque entrée arabe, on n'a pas fini de s'arracher les cheveux.
S'agissant de préciser pour chaque forme sa nature grammaticale, c'est un peu l'esprit de ce qui suit le mot entre parenthèses, mais ce n'est pas vraiment possible de transformer ça en section. Ça pourrait probablement être fait (et même automatisé) pour les verbes, mais c'est ingérable pour les noms/adjectifs parce qu'une même forme peut être les deux, parfois simultanément.
Je préfère très nettement l'approche "le lexème est avec diacritique, le glyphe désambiguise", avec une structure différenciée entre lexème et glyphe (quitte à ce que la description du glyphe ne soit pas tout à fait conforme au standard Wiktionnaire pour les pages de lexèmes).
Bon, bref, est-ce plus lisible? Micheletb (discussion) 16 février 2021 à 15:50 (UTC)Répondre
C’est un peu plus lisible, mais le problème est le même. Ce n’est pas ici qu’il faudrait en discuter, il faudrait plutôt lancer une discussion générale, mais je redis que l’homogénéité du projet est une chose importante. Ce que je proposais ne change pas grand chose, mais ça assure la cohérence du projet. Je ne dis absolument pas qu'il faut s’imposer d’inclure toutes les formes possibles, juste qu’il faut une structure correcte pour la page sans diacritiques : même s’il n’y a aucune définition mais seulement des renvois vers d’autres pages, au moins, on s’y retrouverait. Lmaltier (discussion) 16 février 2021 à 16:58 (UTC)Répondre
  @Lmaltier : À tête reposée, la mise en page actuelle me paraît défendable en l'état pour ce qui est de définir un glyphe, par rapport à ce que dit Wiktionnaire:Structure des pages, et si on fait la distinction d'avec les lexèmes.
On a bien une section de langue ar, qui commence normalement par une section étymologie expliquant d'où vient le glyphe. Pour décrire cette origine on indique correctement que c'est à l'origine issu de telle racine, et de manière plus immédiate, que le glyphe vient de la suppression des diacritiques sur tel ou tel mot. Jusque là c'est factuel, c'est l'origine du glyphe et il n'est pas nécessaire d'en mettre plus dans cette section.
Après la structure normale est de trouver « Une ou plusieurs sections de type de mot, contenant la description du mot, ses formes, ses définitions [...] ». Mais la question de la catégorie et du sens ne se pose que pour un lexème, « qui appartient à une liste non finie des mots de la langue », et sauf homographie que l'on espère rare, on s'attend a avoir dans le Wiktionnaire une page par lexème.
Pour l'arabe, la forme de référence d'un mot -celle attendue d'un dictionnaire- est une forme avec diacritiques (même si la forme la plus fréquente dans l'écriture s'en dispense). Donc on a bien ce type de section pour une entrée comme أَمَّارٌ qui est un lexème : catégorie grammaticale, sens, prononciation, renvoi vers une page de conjugaison pour les verbes, etc. Et l'entrée indique même quelle est la forme sans diacritique - c'est souvent le lien qui permet de récupérer les interwikis.
Mais il n'y a pas lieu d'en attendre une pour un glyphe comme امار qui par lui-même n'a ni sens ni catégorie grammaticale, et encore moins de prononciation. La définition réelle du glyphe s'arrête à être la forme sans diacritique d'un ou (généralement) plusieurs lexèmes. Si on reste à ce niveau et que l'on ne confond pas glyphe et lexème, une fois qu'on a dit ça il n'y a pas grand chose d'autre à dire sur le glyphe stricto sensu - le reste se rattachera à un lexème. Et en fait, une fois qu'on a donné l'étymologie du glyphe, il ne sert à rien de lui chercher un sens autre que d'être la forme sans diacritique de différents lexèmes, donc la section de langue peut se limiter à l'étymologie en restant cohérente avec la structure générale.
Je vais laisser la poussière retomber sur cette question, les bonnes idées mettent du temps à mûrir. Avant de demander un 'bot pour modifier les quelques mille pages affichant « Variante par contrainte typographique » autant être serein sur l'approche la plus sage de la question pour ce qui est de la mise en page, et donner des directives précises au 'bot. Ceci étant, le reste de la ligne affichant chaque lexème sur ce type de page est donné par un modèle, donc ce que l'on y mettra est facile à modifier de manière standardisée (et si tu as des suggestions sur la chose, je suis preneur).
Bonnes réflexions, Micheletb (discussion) 17 février 2021 à 14:04 (UTC)Répondre
  @Micheletb : Je ne comprends pas bien. Déjà, je corrige quelque chose : non, on n’a pas une page par lexème, on a une page par forme écrite, page qui peut regrouper des choses qui n’ont rien à voir entre elles, et éventuellement différentes langues très différentes. Si on voit rue dans un texte en français, c’est bien une façon d’écrire un mot, correspondant à un mot bien précis dans l’esprit de celui qui l’a écrite. Mais cette écriture peut correspondre à plusieurs mots, à plusieurs lexèmes : un premier nom commun, un deuxième nom commun (qui n’a absolument rien à voir avec le premier), une forme conjuguée de verbe, qui n’a rien à voir avec les noms communs. Pour s’y retrouver, on fait donc 3 sections, la dernière (forme conjuguée) ayant des liens vers la page ruer, celle du lemme. Notre idée est de prendre une forme telle qu’elle est écrite, et de dire à quoi cette forme écrite peut correspondre, en faisant plusieurs sections et en triant par nature grammaticale. Dans le cas de امار aussi, c’est la même chose, c’est bien une forme écrite, correspondant à un mot bien précis dans l’esprit de celui qui l’a écrite, mais qui peut correspondre à différents mots. Rien n’empêche d’avoir une section pour chaque cas. Je rappelle qu'on ne redonne pas le sens pour toutes les flexions, puisqu’il peut y avoir plusieurs sens pour un même mot, et qu’on ne s’en sortirait pas. Comme je ne parle pas arabe, je vais seulement prendre comme exemple la dernière section, qui pourrait être du style :
Note au passage : il n'y a pas de critique sur le traitement de rue, mais prétendre que c'est la même chose pour les mots arabes sans diacritiques est en revanche abusif. La forme arabe écrite sans diacritique ne correspond pas à un mot précis, c'est juste une écriture abrégée, une sténographie. Si un jour on s'amuse à retranscrire le vocabulaire français dans l'écriture sténographique (fort honorable projet) le regroupement sur une même page des homonymes et de leurs définitions, et de leurs exemples, etc... serait une construction artificielle, illisible et inutile. Et, en arabe, les homographes quand on passe en écriture « sans diacritiques » sont la règle générale, pas juste un cas marginal à supporter. Micheletb (discussion) 4 novembre 2021 à 18:15 (UTC)Répondre

Forme de verbe

modifier

امار \Prononciation ?\

  1. Forme sans diacritique de أَمَارَ, qui est une forme de la racine م و ر

Je suppose là qu’il n’y a qu’une seule forme conjuguée de verbe. S’il y avait plusieurs formes conjuguées pour des verbes différents, il faudrait rajouter num=1, num=2, etc. au titre de section pour chacun des verbes différents.

Qu’est-ce qu’il y a de gênant à procéder comme ça ? On donne un peu moins d’information d’un certain côté, certes, mais on donne la prononciation en plus, et on a une structure identique à celle des autres pages, et c’est vraiment très important.

Je te suggère, après y avoir réfléchi, de lancer une discussion générale sur la question.

Cela n’a rien à voir, mais la page utilise le code ar. Est-ce que la prononciation est toujours la même pour toutes les langues arabes, qui ont chacune leur code ISO (arq pour l’arabe algérien, par exemple) ? J’ai tendance à supposer que non, mais je me trompe peut-être. De toute façon, il ne faut pas hésiter à créer des sections séparées pour plusieurs langues arabes, je crois qu’on n’en a pas beaucoup pour l’instant (115 pages seulement pour l’arabe algérien, par exemple). Lmaltier (discussion) 17 février 2021 à 15:06 (UTC)Répondre

Bonsoir,   @Lmaltier : (les gras sont une mise en évidence et pas un signe d'énervement) :
1/ Je sais bien qu'il y a une page par forme écrite et pas une page par lexème. Mon point est que ça marche bien dans les cas occidentaux, parce que (1) il n'y a généralement qu'un lexème par forme écrite, sinon peu (cheval n'en a qu'un, rue n'en a que trois) ; et (2) de toute manière il n'y a pas réellement d'alternative.
Dans le cas de l'arabe, (1) le nombre de lexèmes concernés peut être très grand pour les formes simples (trilitères). Pour la même racine que ci-dessus, امر compte douze interprétations possibles sans forcer, sans même compter les formes conjuguées ou déclinées. Je veux bien concéder que les formes plus complexes peuvent n'avoir qu'une interprétation, mais précisément parce qu'elles sont plus complexes, elles sont généralement plus rares.
D'autre part, (2) il y a une alternative simple, puisqu'une forme sans diacritiques correspond toujours à un lexème avec diacritiques. Qui plus est, ce lexème avec diacritiques est la norme, dans le sens où c'est cette forme qui tranchera d'éventuelles querelles linguistiques.
Il reste bien sûr important de documenter des formes sans diacritiques, mais il est tout aussi important d'avoir comme entrées des formes « normales ».
Cette question a déjà fait l'objet de discussions communautaires, voir Portail:Arabe#Références des discussions communautaires.
Cerise sur le gâteau : si on applique sérieusement les instructions de Wiktionnaire:Structure des pages dans le cas de l'arabe sans diacritique, on en arrivera à rejeter en section finale la prononciation. Manque de pot, la prononciation varie d'un lexème à l'autre, et il n'y a pas moyen pour un débutant de savoir ce qui se rattache à quoi (!)
Donc, définitivement, on ne peut pas dire que l'arabe c'est la même chose : le contexte et les solutions sont très différents. Si on applique mécaniquement une norme inadaptée, ce sera le meilleur moyen de faire fuir les lecteurs.
2/ Comme dit ci-dessus, les lignes renvoyant aux formes avec diacritiques sont générées par des modèles. Techniquement, il est possible de générer aussi des sous-sections par modèle, ça se fait en quelques clics. Donc, « Qu’est-ce qu’il y a de gênant à procéder comme ça ? » = rien ne l'empêche, et l'option est fluide. Le point est surtout que le résultat serait esthétiquement très laid, sans plus-value par rapport à la proposition actuelle, et de toute manière ne comprendrait que les résumés inclus dans la « définition courte » (comme actuellement).
Mon appel à idée sur ce qui serait la meilleure mise en page dans ce cas reste ouvert.
3/ Sur la prononciation, il y a effectivement (me dit-on) de très grosses différences de prononciation entre les différents dialectes arabe (marocain, égyptien, libanais, ...). En revanche, l'arabe littéraire standard est partout appris à l'école, et (en principe) lu et prononcé de manière homogène (j'ai quelques doutes pour la prononciation du j, mais passons). C'est celui de la méthode assimil, s'il faut une référence, qui dit très exactement ça. Cette prononciation est la « norme » pour lire le coran, ce qui en fait une référence sérieuse dans le monde arabo-musulman. C'est l'arabe littéraire, appris à l'école, par opposition au dialectal, appris dans la rue.
Ne connaissant rien aux différents dialectes arabes je me garderai bien de faire quoi que ce soi sur les sections correspondantes ; mais clairement les fichiers de prononciation ne seront pas les mêmes. J'ai rapatrié dans les sections ar les fichiers qui correspondaient à la prononciation littéraire (en dehors du tanwin final, qui n'est généralement pas pratiqué et n'a guère d'intérêt si ce n'est grammatical.
4/ J'espère que les trois points précédents ont été traités de manière satisfaisante et peuvent être considérés comme clos (sinon ça va être une discussion compliqué à gérer).
Je pense réellement que réduire ces entrées à une simple section « étymologie » peut être une solution à la fois conforme à la structure du Wiktionnaire et satisfaisante sur le plan sémantique (quitte à faire des modifications sur la mise en page de cette solution). Je t'invite à la contempler avec un esprit ouvert.
Ouvrir une consultation générale sur la chose tant qu'on n'a pas épuisé le cœur du sujet ne sera probablement pas constructif. Comme le dit le dicton, « un dromadaire est un cheval de course spécifié par un comité », je préfère réfléchir en tête-à-tête avant de faire valider une solution viable.
Bonnes réflexions, Micheletb (discussion) 17 février 2021 à 18:01 (UTC)Répondre
  @Micheletb : Tout d’abord, j’essaie toujours de discuter avec un esprit ouvert (et j’attends toujours la même chose des autres). J’ai dans ma page utilisateur une citation de Daninos à ce propos, c’est vrai que c’est très important.
Il faut mettre quelque chose au point : la place normale de la prononciation d’un mot est sur la ligne de forme, dans la section consacré à un mot précis, et elle peut être différentes entre plusieurs mots écrits pareil, ce n’est pas du tout propre à l’arabe. On ne rejette jamais la prononciation dans la section prononciation en fin de section langue : cette section est présente seulement quand elle est utile, quand il y a des choses particulières un peu longues à expliquer, ou des enregistrements, ou des homophones, etc. Il n’y a pas de raison de faire différemment pour l’arabe.
Le résultat serait très laid ? Alors, il doit être très laid pour toutes les langues…
le nombre de lexèmes concernés peut être très grand pour les formes simples (trilitères) : il me semble justement que, plus il est grand, plus c’est utile, pour s’y retrouver, de classer les différents mots par nature grammaticale (dans la mesure où on peut souvent, j’imagine, avoir une première idée de la nature grammaticale d’un mot utilisé dans une phrase lue, même sans connaître le mot). Et c’est pour les débutants en arabe que ce serait le plus utile.
de toute manière ne comprendrait que les résumés inclus dans la « définition courte » (comme actuellement). : je ne comprends pas. Pour les flexions, nous n’avons jamais de définition donnant le sens, même courte (je m’y étais essayé pour le bulgare, il y a longtemps, et j’ai très vite renoncé, ça ne pouvait pas aller). Pour les autres mots, on peut mettre des définitions courtes, oui, avec un renvoi vers le mot écrit avec diacritiques pour un traitement complet du mot. Je ne comprends toujours pas où serait le problème en créant une section par mot, comme pour toutes les autres langues.
PS : tu parles de dialectes pour les grandes variétés de l’arabe, c’est certainement le terme consacré. On classe ici les mots par langue, pas par dialecte, mais l’ISO distingue bien 30 langues arabes différentes (dont l’arabe standard), et je suppose qu’il ont raison : quelqu’un qui parle arabe à Rabat aura probablement du mal à comprendre l’arabe parlé à Sanaa. La liste est ici : https://iso639-3.sil.org/code/arb Lmaltier (discussion) 17 février 2021 à 20:05 (UTC)Répondre
Je ne croyais pas prendre un exemple aussi pertinent avec Sanaa : w:en:Sanʽani Arabic cite l’exemple d’une intervention d’un parlementaire de Sanaa, parlant sa langue, et pour laquelle il a fallu faire appel à un traducteur pour que ce soit compris ailleurs dans le monde arabe… Lmaltier (discussion) 18 février 2021 à 11:44 (UTC)Répondre

  @Micheletb : Quelques remarques pour aider à la réflexion :

  • pour لعبة, il y a 8 liens interwikis, y compris l’arabe. Si on va afficher les formes avec diacritiques, il n’y a absolument aucun lien interwiki. Et c’est vrai pour toutes les formes avec diacritiques, même quand elles sont présentes dans le wiktionnaire en arabe. Il y a certainement une question technique là-dessous, mais c’est important à noter : se concentrer avant tout sur ces formes fait qu’on perd les liens interwikis.
  • un point général : les formes données dans les dictionnaires ne sont pas toujours les formes normales. Par exemple, dans mon Pocket Oxford Dictionary, les mots sont agrémentés de diacritiques et autres caractères pour aider à prononcer. Il est vrai que la pratique est propre à ce dictionnaire. Un autre exemple, plus pertinent : dans les dictionnaires de latin, il est classique de mentionner par des diacritiques la longueur des voyelles (brèves ou longues), ce qui permet de déterminer en prime la place de l’accent tonique. C’est classique, pour aider les apprenants, mais ça n’en fait pas pour autant les formes normales (et nous n’avons bien sûr pas ces diacritiques dans nos titres de pages). Pour l’arabe, je comprends que c’est un peu différent, et que les deux versions sont utiles, mais on ne peut pas dire pour autant que la forme normale est la forme avec diacritiques, alors que ce n’est pas la forme la plus habituelle…
  • chaque wiktionnaire a ses normes de présentation. Ce n’est pas parce qu’un contributeur travaille sur une langue qu’il faut qu’il adopte ici les normes de présentation du wiktionnaire dans cette langue… Plus personne ne pourrait s’y retrouver. D’autant plus, dans le cas présent, que la meilleure présentation pour les mots arabes n’est pas forcément la même quand on s’adresse aux lecteurs arabophones, familiers avec la langue, ou quand on s’adresse aux autres.
  • j’ai été voir le wiktionnaire anglophone. Il faut noter que, là-bas, chaque ligne de forme a bien les diacritiques pour aider les lecteurs. Il y a des pages un peu pénibles, c’est vrai, mais elles sont faites pour aider le lecteur présumé ignorant, et je crois qu’elles remplissent correctement leur rôle.

Lmaltier (discussion) 18 février 2021 à 11:44 (UTC)Répondre

Bonjour, (NB quand je parlais de prononciation ci-dessus, il s'agit du fichier sonore, pas de l'écriture API)
  • Liens interwiki : la situation est de toute manière inextricable, les conventions varient d'un wiki à l'autre, et dans le cas des alif-hamza c'est encore pire, on a parfois le alif avec hamza et parfois sans (et parfois les deux dans le même wiki). Si on veut être sûr de retrouver tous les interwikis, il faut systématiquement explorer trois ou quatre formes : avec diacritiques complets, diacritiques sans tenuin (la finale), sans diacritiques mais avec hamza, et sans rien. Et pour un même wiki on n'est même pas sûr que la convention est stable d'un mot à l'autre, et/ou qu'il n'y a pas de doublons. C'est pour ça qu'il est utile d'avoir au moins deux de ces formes.
  • Ne confond pas « normal » et « fréquent ». Personne ne conteste que la forme fréquente est sans diacritique, ça n'en fait pas pour autant une référence lexicographique. L'orthographe complète du mot comprend bien ces diacritiques.
  • Présentation ? pas compris l'argument. J'essaye en tout cas de suivre les recommandations sur les structures d'articles, et présentation des ligne de forme. J'avoue avoir tendance à mettre la traduction des exemples sur la même ligne que l'exemple, mais je ne pense pas que ça perturbera fondamentalement le lecteur. Et l'argument se retourne ; ce n'est pas parce que :en adopte une structure pour l'arabe (et AMHA ils vont s'en mordre les doigts quand leur dictionnaire se développera) qu'il faut adopter cette même structure.
  • Il y a effectivement sur :en des pages illisibles quand on empile les formes, d'autant qu'ils ont pris comme option de mettre dans la section les conjugaisons et déclinaisons. Ils n'en sont probablement pas conscients parce que manifestement ils ne rentrent pas systématiquement tous les mots possibles et que leurs définitions sont très succinctes, contrairement à mes essais de traitement. Quand on voit qu'un glyphe comme امر peut correspondre à douze mots différents (et ce n'est certainement pas un record), et que les définitions sont très souvent multiples, s'il faut à chaque fois donner le mot, sa prononciation, ses définitions, sa conjugaison, et quelques exemples...
C'est fondamentalement pour ce problème de lisibilité que l'option que j'ai prise a été de faire une page par lexème, et de limiter le glyphe à une page d'orientation vers ceux-ci. Vite vu : tu peux regrouper sur une seule page les douze sections des lexèmes cités par امر, tu auras une idée du résultat.
L'autre problème, qui deviendra évident avec cet exercice, est qu'avec l'option « tout sur une page » il n'est plus possible de faire une étymologie spécifique au lexème sous forme « application de tel schème à telle racine », comme actuellement, parce que chaque lexème correspond à un schème différent. Donc soit on répète une section étymologie dans chaque section de lexème, et on ne respecte pas la convention Wiktionnaire, soit on met tout en vrac au début, et le résultat est inexploitable parce qu'il faut naviguer entre les sections pour trouver quelle étymologie se rattache à quelle forme... Or, c'est une donnée forte de la langue, qu'il est important de documenter en particulier pour les racines faibles.
Crois-moi, les options prises ont été mûrement réfléchies, en fonction des structures respectives de la langue et du Wiktionnaire. Micheletb (discussion) 18 février 2021 à 13:03 (UTC)Répondre
Pour la présentation des pages, je voulais en fait avant tout parler de leur structure : des sections de langue, et une section étymologie + une section par mot dans chaque section de langue. C’est ça qu'il est important de respecter. Lmaltier (discussion) 18 février 2021 à 13:07 (UTC)Répondre

Spécificité de l'arabe

modifier

...En bref, je ne vois pas ce qui distingue tant l’arabe des autres langues sémitiques qu'on arrive bien à traiter dans le Wiktionnaire. Treehill (discussion) 3 novembre 2021 à 19:26 (UTC)Répondre

Bonsoir   @Treehill :, c'est ici le lieu d'en discuter.
Ce qui distingue le cas de l'arabe, c'est avant tout que je travaille sur de quoi faire une étude lexicologique sur les schèmes, pas sur un dialecte ou une pratique quotidienne. Pour ça, j'ai besoin d'examiner le plus de dérivations possible, sur un échantillon représentatif de racine (actuellement ~ 120 sur les ~ 6000 que l'on peut compter en arabe). Du coup, quand je traite une racine, je recopie tous les mots qui peuvent en dériver dans un dictionnaire le plus complet possible, et pas juste les courants, pour pouvoir en faire l'analyse. Et, tant qu'à faire, je recopie l'intégralité des sens qui sont donnés. De plus, il s'agit de l'arabe standard, donc tous les sens classiques, plus tous ceux portés dans le monde arabophone : les autres langues sémitiques n'ont pas une telle extension. Et autre spécificité de l'arabe, l'articulation entre schèmes et racines est particulièrement tranchée et systématique, ce qui n'est pas nécessairement le cas des autres langues sémitiques.
De ce fait, le lexique actuellement traité sur le Wiktionnaire est très atypique, tant par rapport aux autres Wik que par rapport aux autres langues sémitiques. Sur des mots à trois consonnes (les plus fréquents), pour une racine prolifique, je récupère typiquement de l'ordre d'une petite dizaine de forme, totalisant au global de l'ordre d'une cinquantaine de définitions - une à deux pages recopiées du dictionnaire de Biberstein-Kazimirski, un des plus complets francophone (bien que assez désuet).
S'il faut regrouper ce paquet sur une page unique du « mot sans diacritique », ce sera illisible. C'est l'option prise par le Wikt anglophone, et ils sont en train de s'y noyer. Essaye de regrouper sur une même page tous les termes décrits sous قرب (q_r_b_) et tu visualiseras rapidement le problème (ce n'est pas nécessairement le pire exemple).
Sans compter les incohérences multiples qui en découleront par rapport aux conventions actuelles : s'il faut marquer des étymologies, de quel terme parle--t-on? Et associer un fichier .ogg de prononciation? Et indiquer des variantes orthographiques? Etc...
D’où l'option de s'en tenir ferme au principe « la forme de référence est avec diacritiques, la forme sans diacritique sert d'indirection douce vers ces références ». C'est l'option prise par le Wikt arabophone, au fait, et on peut leur faire crédit de ce qu'ils savent ce qu'ils font...
L'approche résulte d'une analyse détaillée, d'une réflexion mûrie, et de l'examen objectif des alternatives : si on veut un jour avoir un grand dictionnaire arabe exploitable, c'est la seule voie. Toute autre approche condamnerait le Wikt à être en pratique inexploitable parce que s'étouffant sous son propre volume, donc zéro pages vues, donc votre travail n'a servi à rien.
La structure que je propose marche bien, et surtout, résistera au fait d'être un dictionnaire exhaustif de la langue (ce qu'on lui souhaite).
Alors, pour en revenir aux « autres langues sémitiques qu'on arrive bien à traiter dans le Wiktionnaire »? Une première réponse est bien sûr que je ne m'en préoccupe pas : je ne traite que de l'arabe standard, et laisse inchangé y compris les entrées dialectales. Plus généralement, je dirais que tant que le vocabulaire concerné reste limité à quelques centaines ou milliers de termes, la méthode employée est en pratique indifférente : on n'aura jamais de page remplies au point d'être illisibles. Mais pour des langues actives susceptibles d'avoir un jour un dictionnaire complet, il faut se poser sérieusement la question. Je n'ai pas de compétence en hébreux, mais si sa structure linguistique et lexicale est similaire à l'arabe, il aura le même problème, et nécessitera les mêmes solutions.
Revenir à la page « arabe/Diacritiques ».