Utilisateur:Jona/README

Pour décompresser le fichier :

(plus nécessaire, maintenant il est possible de mettre le fichier compressé directement comme argument de xml_extract)

bunzip2 -dv frwiktionary-xxx-pages-articles.xml.bz2

Pour faire la liste des mots les plus demandés :

lancer le script xml_extract.py avec le bon argument (si pas xml_articles.xml; faire "-i frwi" <tab> etc ), par exemple: ./xml_extract.py -i frwiktionary-xxx-pages-articles.xml (Pour plus d'info, vous pouvez lancer ./xml_extract.py -h)

lancer le script process_missing_links.py (python process_missing_links.py)

éditer le fichier final (commencer par un 'head -n 1000 final > finalShort')

Pour faire le tableau des stats :

quand le script xml_extract est fait, exécuter process_occ qui crée "listOcc" et "dictOcc"

lancer generate_table qui va lire "listOcc", "dictOcc", "listOcc.old", "dictOcc.old" et générer langsTableCol et une sortie dans le terminal.

ATTENTION : Pour que la table puisse affichée le nombre calculé précédemment, il faut que les fichiers *.old existe

copier le résultat dans la table du wiktionnaire (il se trouve dans langsTableCol)