Différences entre versions de « Discussion utilisateur:Jona »

→‎Mots les plus demandés : nouvelle section
(→‎Mots les plus demandés : nouvelle section)
: merci
: [[User:Cdang|Cdang]] 29 novembre 2007 à 14:15 (UTC)
 
== Mots les plus demandés ==
 
J'avais noté les étapes suivantes pour obtenir la liste des mots les plus demandés. Si tu as des questions sur certains points, n'hésite pas :
 
<pre>
0/ preprocesser le dump (a recuperer sur http://download.wikimedia.org/frwiktionary/latest/ , c'est le fichier frwiktionary-latest-pages-articles.xml.bz2 )
i.e. le couper pour ne garder que la partie utile
./xml_extract_ns0.pl frwiktionary-latest-pages-articles.xml > frns0
 
1/ faire une liste des titres
./xml_extract_title.pl frns0 > /tmp/alltitle
 
2/ faire une liste des liens
./xml_extract_wikilien.pl ../wiktio/frns0 > /tmp/liens
 
3/ tries les listes
cat /tmp/alltitle | sort | uniq > /tmp/alltitle-tri
cat /tmp/liens | sort | uniq > /tmp/liens-tri
// cat liens | sort | uniq -c > liens-compte (fait plus bas)
 
4/ faire la différence, ne garder que les nouveaux dans liens-tri
c'est a dire les liens qui ne sont pas des titres.
comm /tmp/alltitle-tri /tmp/liens-tri -1 -3 > /tmp/ladiff
 
ici : changer le tri de ladiff
msort -l -w /tmp/liens | uniq -c > /tmp/liens-compte
msort -l -w /tmp/ladiff > /tmp/ladiff2
 
5/ préprocesser pour avoir tout
./demander-format.pl /tmp/ladiff2 | sort -nr > /tmp/nbnb
 
6/ wikification
./demander-post.pl /tmp/nbnb > /tmp/nbok
</pre>
 
Liens vers les scripts utilisés :
* [[Utilisateur:Kipmaster/xml_extract_ns0.pl]]
* [[Utilisateur:Kipmaster/xml_extract_title.pl]]
* [[Utilisateur:Kipmaster/xml_extract_wikilien.pl]]
* [[Utilisateur:Kipmaster/demander-format.pl]]
* [[Utilisateur:Kipmaster/demander-post.pl]]
 
PS: si le format du dump ou qqch d'autre a changé depuis que j'ai lancé le script, il peut avoir besoin d'un peu d'adaptation.
 
[[Utilisateur:Kipmaster|Kipmaster]] [[Discussion_Utilisateur:Kipmaster|☯]] 7 juillet 2008 à 20:22 (UTC)