Utilisateur:Darkdadaah/Anagrimes

Anagrimes est une suite de scripts qui permettent d’extraire spécifiquement des informations des dumps du Wiktionnaire (création de listes ou de tables d’informations). Il s’agit de scripts en Perl qui s’utilisent en ligne de commande.

Code modifier

Le code d’anagrimes est disponible sur GitHub.

Vous devez avoir git (et perl) sur votre système. Pour récupérer le code, allez dans une répertoire et tapez simplement :

git clone https://github.com/Darkdadaah/anagrimes.git

Utilisation modifier

Notes :

Chaque script dispose de sa propre documentation en le lançant avec l’option -h (perl articles_list.pl -h).
La plupart des scripts et leur doc sont en anglais.
Les dumps n'ont pas besoin d'être décompressés.

Différence entre les mots de deux Wiktionnaires modifier

Pour créer des listes de diff, entre les mots d'une langue entre deux Wiktionnaires, par exemple les mots français décrits dans en.wiktionary absents de fr.wiktionary.

Nécessite : 2 dumps, un pour chacun des deux Wiktionaires à comparer.

scripts/wikt_dumps_diff.pl -c en -l fr -L en -i frwikt.xml.bz2 -I enwikt.xml.bz2 -o en_frwikt_only.txt -O en_enwikt_only.txt

Explication :

-c en : rechercher les mots de la langue anglaise
-l fr : langue du premier wiki comparé = fr
-L en : langue du premier wiki comparé = en
-i frwikt.xml.bz2 : chemin vers le fichier dump du premier wiki comparé
-I enwikt.xml.bz2 : chemin vers le fichier dump du second wiki comparé
-o en_frwikt_only.txt : fichier créé contenant la liste des mots anglais définis dans le Wiktionnaire fr, et pas dans le Wiktionary en
-O en_enwikt_only.txt : fichier créé contenant la liste des mots anglais définis dans le Wiktionary en, et pas dans le Wiktionnaire fr

Commentaires

Le script reconnaît les entrées dans une langue donnée à partir de la structure connue codée en dur dans le script lui-même... Pour le français le modèle est du type {{langue|xxx}} donc facile à parser, mais pour d'autres langues comme l'anglais, il faut une table de correspondance (e.g. 'English' => 'en'). Si le Wiktionnaire à comparer n'est pas pré-codé, vous pouvez l'ajouter au script lui-même.

Liste de mots d'un projet Wikimédia modifier

Pour créer une liste des mots utilisés dans un wiki, ordonnés par nombre d'occurrence décroissant. Peut être utilisé pour créer des listes du type Wiktionnaire:10000-wp-fr. Wikis recommandés : Wikipédia (énormément d'articles, mais biais de rédaction encyclopédique), Wikisource (beaucoup de sources diverses, mais beaucoup de textes avec scanilles).

Nécessite : 1 dump d'un projet Wikimédia quelconque en n'importe quelle langue.

scripts/get_words_from_dump.pl -i frwiki.xml.bz2 -o frwiki_mots.txt

Explication :

-i frwiki.xml.bz2 : chemin vers le fichier dump du wiki à balayer
-o frwiki_mots.txt : chemin vers le fichier où sont sauvegardés les mots trouvés

Les mots de la liste sont ordonnées par ordre décroissant de nombre. Par défaut, la casse est prise en compte, donc la liste peut contenir des « Le » et autres mots avec majuscule. Pour avoir une liste fusionnant les mots de casse identique, utiliser -O plutôt que -o (ou en plus de).

Options supplémentaires :

-L <nombre> : ne parser que ce nombre d'articles (pour ne pas avoir à parser des millions d'articles)
-n <chemin> : liste noire : fichier contenant des mots connus à ignorer (utile pour mettre en évidence des mots inconnus)
-C : en conjonction avec -n, permet d'ignorer la casse lors de la comparaison avec la liste de mots

Liste de mots inconnus d'un projet Wikimédia modifier

Similaire à la liste de mots créée par get_words_from_dump.pl ci-dessus, ce script permet d'extraire plus finement des mots inconnus d'un wiki en comparant avec une liste de mots fournie. Ce script circonvient en particulier au problème de Wikisource en précisant la qualité des pages à lire. Cela permet deux choses :

trouver des mots inconnus dans les pages de grande qualité (relues)
trouver des scanilles dans les pages non relues

Voir un résultat sous forme de page web : Dicompte (contenant notamment les listes de mots inconnus par livres et pages de Wikisource).

Nécessite : 1 dump de wiki (Wikisource surtout)

scripts/list_vs_dump.pl -i frwikisource.xml -o frwikisource.xml -I mots_connus.txt

Bogues modifier

Si vous trouvez des bogues flagrants, vous pouvez m’en faire part directement (à défaut d’utiliser bugzilla pour l’instant).

Données modifier

Les scripts d’Anagrimes utilisent les dumps xml de Wikimedia :

Trouvez le projet et la date qui vous intéresse : ici pour le Wiktionnaire
Téléchargez le dump frwiktionary-DATE-pages-articles.xml.bz2 (sans le décompresser)

Voir aussi modifier

Recherche avancée avec Anagrimes
Page d’Anagrimes sur le Tools Labs, pour explorer les données du Wiktionnaire