Utilisateur:Jona/README
Pour décompresser le fichier :
(plus nécessaire, maintenant il est possible de mettre le fichier compressé directement comme argument de xml_extract)
bunzip2 -dv frwiktionary-xxx-pages-articles.xml.bz2
Pour faire la liste des mots les plus demandés :
lancer le script xml_extract.py avec le bon argument (si pas xml_articles.xml; faire "-i frwi" <tab> etc ), par exemple: ./xml_extract.py -i frwiktionary-xxx-pages-articles.xml (Pour plus d'info, vous pouvez lancer ./xml_extract.py -h)
lancer le script process_missing_links.py (python process_missing_links.py)
éditer le fichier final (commencer par un 'head -n 1000 final > finalShort')
Pour faire le tableau des stats :
quand le script xml_extract est fait, exécuter process_occ qui crée "listOcc" et "dictOcc"
lancer generate_table qui va lire "listOcc", "dictOcc", "listOcc.old", "dictOcc.old" et générer langsTableCol et une sortie dans le terminal.
ATTENTION : Pour que la table puisse affichée le nombre calculé précédemment, il faut que les fichiers *.old existe
copier le résultat dans la table du wiktionnaire (il se trouve dans langsTableCol)