Wiktionnaire:Entraide/mars 2023


Page mensuelle des appels à l’aide en mars 2023. Page précédente : février 2023Page suivante : avril 2023Modifier ce cadre




extraire automatiquement les prononciations modifier

Bonjour,

Je repose presque la même question que Pjouv le mois dernier (dans un but différent). Je souhaite extraire la prononciation d’un grand nombre de mots (français) du wiktionnaire. Je crois comprendre qu’il vaut mieux que je télécharge un dump de tout le wiktionnaire puis travailler hors-ligne, plutôt que de lancer 150 000 requêtes individuelles. Ça d’accord, mais après, je dois me dépatouiller avec le code source wikicode pour extraire des prononciations avec des heuristiques. C’est un peu de boulot, c’est approximatif, ça va sûrement échouer dans plein de cas… Quelqu’un a déjà fait un truc semblable ? Existe-t-il déjà des outils, du code, voire des résultats tout faits (  @Pjouv : ?) dont je pourrais partir ou du moins m’inspirer ?

J’ai également le projet beaucoup plus hasardeux d’extraire automatiquement des racines étymologiques, quelqu’un a des suggestions là-dessus ?

Merci pour votre aide ! :-)

Maëlan (discussion) 2 mars 2023 à 16:59 (UTC)[répondre]

Personnellement je ne pourrai pas vous aider. J'ai d'ailleurs renoncé à ce projet de créer un outil de rimes à l'intérieur de Word, à cause du poids des données. Le dump que j'avais téléchargé pesait plus de 4 go, et mon petit ordinateur n'était pas à la hauteur... ;-) Il n'arrivait même pas à ouvrir tout le fichier. Même si j'avais réussi à extraire seulement le mot et sa prononciation, je crois que cela serait resté encore trop lourd. Pjouv (discussion) 2 mars 2023 à 17:13 (UTC)[répondre]