Utilisateur:Snawei/Dumps
(Redirigé depuis Utilisateur:Snawei/Divers)
Dump incrémental modifier
Dump complet modifier
- https://dumps.wikimedia.org/frwiktionary/
- Articles, templates, media/file descriptions, and primary meta-pages.
- Exemple : frwiktionary-20221101-pages-articles.xml.bz2 484.6 MB (compressé), 4.9 GB (décompressé).
- Téléchargement : wget https://dumps.wikimedia.org/frwiktionary/20221101/frwiktionary-20221101-pages-articles.xml.bz2
- Extraction : bzip2 -dk *pages-articles.xml.bz2
- -d --decompress
- -k --keep (conserver le fichier compressé)
- Articles, templates, media/file descriptions, and primary meta-pages.
Grammalecte modifier
- Interface en ligne de commande grammalecte-cli, testé avec une distribution Linux.
- https://grammalecte.net/index.html
- Téléchargement section CLI & Serveur
- python3 grammalecte-cli.py -owe -ff 20221103-def.txt
- -owe, --only_when_errors ; Afficher seulement les résultats avec des erreurs.
- -ff (Fichier entrant, 20221103-def.txt, UTF-8 requis) et crée un fichier de résultats (*.res.txt)
- 20221103-def.txt ; Extraction des définitions du Wiktionnaire (dump incrémental).
- Pour l'instant, recherche Accord de genre erroné dans *.res.txt.
Dumps complets - tests modifier
2023-11-14 modifier
Genre en double modifier
{{m}} {{m}} 2023-11-14 ; 3 corrections 2021-11-01 ; 1 correction
{{f}} {{f}} 2023-11-14 ; 5 corrections 2021-11-01 ; 1 correction
Wikilien vers flexion modifier
- Habituellement vers le lemme
- Corrections : (plusieurs autres restent à faire)
- Exemple d'erreurs corrigées :
- achromatiques
- acronymes
- adversaires ; (2)
- atomes
- comédiens
- convulsions
- électrons ; (2)
- [[empreintes]] [[digitales]] > [[empreinte digitale|empreintes digitales]] ; (2)
- gonades ; (2)
- lentilles
- pulsations
Ligne avec [Catégorie: ne terminant pas par "]]" modifier
grep "^\[\[Catégorie:" *.xml | sed 's#</text>$##g' | grep -v "]] *" | grep -v "]]$" | grep -v "</noinclude>$" 2023-11-14 ; 7 corrections (il en reste) 2021-11-01 ; 5 corrections
Ajout de la [[Catégorie:Noms multigenres en français]] modifier
- Catégorie:Noms multigenres en français
- Résumé de modification : Ajout de la [[:Catégorie:Noms multigenres en français]]
- Exemple d'ajouts :
- acétate
- adi
- arénaire
- armadille
- brandebourg
- brie
- cagna
- camme
- câpre
- carnasse
- carnauba
- catin
- caustique
- chalcide
- champagne
- charleston
- chitte
- chlorite
- chnek
- transat
- tétragone
- vulnéraire
Parenthèses modifier
Traductions avec des parenthèses (autres que relativement à la chimie) Nombre de résultats = Nombre d'entrées en français Total = 45
catalan (12 résultats) |
Dump du 2021-10-20
|
espagnol (2 résultats) |
Dump du 2021-10-20 |
italien (1 résultat) |
Dump du 2021-10-20 |
Pluriels 1 modifier
grep "\[\[[a-z][a-z]*s]]s " *.xml
2024-03-16 ; 1 correction
2021-10-20 ; erreurs corrigées 4/4
# [[adverbes]]s
# [[français]]s
# [[locutions]]s
# [[moyens]]s
Pluriels 2 modifier
grep -o "\[\[[a-z][a-z]*s]]s[a-z]*" *.xml | sort | uniq -c | sort -nr
2023-11-14 ; 0 résultat
2022-11-01
446 [[gras]]se
100 [[bas]]se
82 [[épais]]se
63 [[gros]]se
48 [[gros]]ses
20 [[épais]]ses
18 [[bas]]ses
8 [[gras]]ses
1 [[multimédias]]s = corrigé
1 [[métis]]ses
1 [[métis]]se
1 [[gros]]sière
1 [[bros]]ser -> Wiktionnaire:Questions_sur_les_mots ; exclure ces sections prochain dump
1 [[adjectifs]]s = déjà corrigé
Dates modifier
grep -io "[0-9]* janvier [0-9]*" *.xml | sed 's/^ //g' | sort | uniq -c | sort -nr
20221101 ; 1 erreur corrigée
Erreurs corrigées après vérification de la source (anciens dumps) :
# janvier 19912
# 252 janvier 2017
# 4 avril 202
# 10 avril 20120
# 10 mai 20035
# 7 juin 20212
* (plusieurs dates restent à revoir)
Mots inconnus modifier
Corrections : duffixe = suffixe
Dump incrémental - tests modifier
Mots en français absents du Wiktionnaire ; à ajouter peut-être modifier
- acanthoptère
- anti-braconnage
- antibraconnage
- apraclonidine
- bouteillée
- bronchopneumopathie chronique obstructive
- clonidine ; clonidine sur l’encyclopédie Wikipédia
- costiforme
- dicophile
- diosmétine ; diosmétine sur l’encyclopédie Wikipédia
- diplobacille
- embarroqué
- énergiculture
- galette pacaude
- inaniméité
- magnétoception
- mycobionte
- naphtolate
- pailletage
- pansémite
- radioélectronique
insource:// + dumps modifier
3 apostrophes modifier
insource:/’’’/ [1] 2021-10-30 ; 5 erreurs corrigées
aaa modifier
bbb insource:/bbb/ [2] 2022-11-04 ; 14 résultats (tous faux positifs) 2021-11-01 ; 11 résultats (tous faux positifs)
ccc insource:/ccc/ -insource:/cccccc/ -insource:/\|ccc/ [3] 2021-11-01 ; 26 résultats (dont plusieurs faux positifs) * Corrigées : # acccessibilitat (catalan) # Acccusatif (x 4) # Bocccace # Éd. de Bocccard # racccordement # tocccata
ddd insource:/ddd/ -insource:/\|ddd/ -insource:/www.dddllf.com/ -insource:/\/ddd\// [4] 2022-11-04 ; 14 résultats (0 erreur) 2021-11-01 ; 22 résultats (dont plusieurs faux positifs) * Corrigées : # middden (néerlandais)
ggg insource:/ggg/ [5] 2022-11-04 ; 6 résultats (0 erreur) 2021-11-01 ; 7 résultats (1 erreur)
jjj insource:/jjj/ [6] 2022-11-04 ; 2 résultats (0 erreur) 2021-11-01 ; 3 résultats (1 erreur) * Corrigées : # hjjj (vandalisme)
kkk insource:/kkk/ -insource:/\|kkk/ [7] 2021-11-01 ; 7 résultats (à revoir - contient quelques erreurs)
nnn insource:/nnn/ [8] 2022-11-04 ; 77 résultats (5 corrections) (à revoir - contient quelques erreurs) 2021-11-01 ; 113 résultats
Orthographe modifier
paage insource:/paage/ -insource:/paage\#fro/ -insource:/paage]]/ - insource:/ne paage/ 2024-03-16 ; 0
édtion insource:/édtion/ 2024-03-16 ; 0 résultat 2021-11-01 ; 41 résultats
mnt insource:/mnt/ -insource:/\|umnt/ [9] 2022-11-04 ; 34 résultats (à revoir - contient quelques erreurs) 2021-11-01 * Résultats : 37 * Corrections : 2 # maquerellemnt # Probableemnt
Genre (M/F) modifier
un personne insource:/un personne/ -insource:/un personnel/ [10] 2022-11-04 ; 14 résultats (12 corrections, 1 à faire, 1 faux positif)
une homme insource:/ une homme/ [11] 2021-11-01 * Résultats : 2 * Corrections : 1
- À revoir :
- encombrant ; Avoir une homme dans les pieds (citation à vérifier)
Pluriels avec 'les' modifier
Rechercher d'abord dans un dump puis avec insource:// Exemples d'erreurs trouvées : 1 résultat ; 1 correction insource:/ les câblage / insource:/ les combinaison / insource:/ les construction / insource:/ les croyance / insource:/ les dictionnaire / insource:/ les distance / insource:/ les district / insource:/ les établissement / insource:/ les zone /
Plus d'une correction : insource:/ les main / ; (2) insource:/ les service / ; (2)
Pluriels avec 'des' modifier
Rechercher d'abord dans un dump puis avec insource:// Exemples d'erreurs trouvées : 1 résultat ; 1 correction insource:/ des adjectif / insource:/ des approvisionnement / insource:/ des armature / insource:/ des bosse / insource:/ des chariot / insource:/ des charrue / insource:/ des chorégraphie / insource:/ des mur /
Plus d'une correction : insource:/ des membre / ; (2)
Pluriels (autres) modifier
Accents manquants modifier
Corrections : n'etait
Accents en trop modifier
Accents (autres) modifier
Étymologie modifier
insource:/latin \{\{étyl\|la/ du latin latin Du bas latin latin bas-latin latin 2023-11-14 ; 1 résultat ; 1 correction 2022-11-04 ; 2 résultats ; 2 corrections 2021-11-02 ; 6 résultats ; 6 corrections
insource:/français \{\{étyl\|fr/ français français Résumé de modification : {{S|étymologie}} ; correction orthographique ; français français > français 2022-11-04 ; 2 résultats (1 correction, 1 à corriger) 2021-11-03 ; 3 résultats ; 3 corrections
insource:/anglais \{\{étyl\|en/ anglais anglais Résumé de modification : {{S|étymologie}} ; correction orthographique ; anglais anglais > anglais 2021-11-03 ; 2 résultats ; 2 corrections
insource:/de l'\{\{étyl\|ang\|/ Résumé de modification : de l'vieil anglais > du vieil anglais 2022-11-04 ; 0 résultat
insource:/l'\{\{étyl\|enm\|/ Résumé de modification : de l'moyen anglais > du moyen anglais 2022-11-04 ; 0 résultat * À faire : autres langues
Apostrophe typo vers apostrophe droite ]]’' --> ]]'' modifier
insource:/]]’'/ -intitle:tester Résumé de modification : Apostrophe typo vers apostrophe droite ]]’' --> ]] 2024-03-16 ; 4 corrections 2022-11-04 * Résultats : 5, 4 corrigés, 1 faux positif 2022-07-21 * Résultats : 5, 4 corrigés, 1 faux positif 2021-11-04 * Résultats : 10
Titre de niveau 2 vers Titre de niveau 3 modifier
anagrammes
insource:/== \{\{S\|anagrammes}} ==/ -insource:/=== \{\{S\|anagrammes}} ===/ Résumé de modification : == {{S|anagrammes}} == -> === {{S|anagrammes}} === 2022-11-04 ; 1 résultat (1 corrigé) Note : Erreur = trop long 2021-11-06 ; 2 résultats (2 corrections)
==== ==== > ==== modifier
insource:/==== ====/ Résumé de modification : ==== (x 2) en fin de ligne 2023-11-14 ; 0 résultat 2021-11-06 ; 2 résultats (2 corrections)
insource:/=== ===/ modifier
insource:/=== ===/ 2023-11-14 ; 0 résultat 2022-07-21 ; 1 résultat (1 correction)
Erreur modèle exemple |source| plutôt que |source= modifier
-intitle:source insource:/\|source\|/ -insource:/\{\{lien\|source\|/ -insource/{{composé de\|source\|/ 2023-11-14 ; 21 corrections
']' de trop modifier
insource:/]]]/ -insource:/]]]]/ 2024-03-16 ; 1 correction 2023-11-14 ; 28 corrections
'[' de trop modifier
insource:/\[\[\[/ -insource:/\[\[\[\[/ 2023-11-14 ; 9 corrections
checkwiki modifier
2023-11-01 modifier
Petscan modifier
Fréquence des caractères dans les entrées en italien modifier
italien.txt Catégorie : italien sur petscan. 126 389 entrées (2023-05-11) petscan 126 048 entrées (2023-04-20) https://fr.wiktionary.org/wiki/Wiktionnaire:Statistiques
Ébauche du Module:anagrammes/it modifier
-- List of characters to keep unchanged, empty for Italian keep = {}, -- Table of character transformations, meant for characters without diacritics (ligatures, etc.) mappings = { ["ʿ"] = "", ["ª"] = "a", ["α"] = "a", -- Alpha grec ["æ"] = "ae", ["β"] = "b", -- Bêta grec ["ə"] = "e", -- schwa, e culbuté ["ɜ"] = "e", ["γ"] = "g", -- Gamma grec ["ħ"] = "h", -- Lettre minuscule latine h barré horizontalement. ["º"] = "o", ["ø"] = "o", ["œ"] = "oe",
Avec notes (à conserver sur la page utilisateur) ["ʿ"] = "", (7 entrées) aš-Šammāʿiyah, al-ʿAyūn Sidi Mallūk... ["ª"] = "a", (2 entrées) 1ª, 2ª ["α"] = "a", -- Alpha grec (10 entrées) acido α-linolenico, raggio α ["æ"] = "ae", (4 entrées) Fær Øer, Ægir... ["β"] = "b", -- Bêta grec (10 entrées) decadimenti β, radiazioni β... ["ə"] = "e", -- e culbuté (10 entrées) ləi, benvenutə... ["ɜ"] = "e", (2 entrées) benvenutɜ, -ɜ... ["γ"] = "g", -- Gamma grec (13 entrées) particella γ, fotone γ... ["ħ"] = "h", -- h barré (2 entrées) għana, fil-Għoli (Catégorie:ħ_en_italien) ["º"] = "o", (10 entrées) 1º, 9º ["ø"] = "o" (3 entrées) Isole Fær Øer, Fær Øer ["œ"] = "oe", (1 entrée) trompe-l’œil
Caractères non convertis par le module en français : ª, ð, ħ, ə, ɜ, α
Cas à revoir : ["ð"] (Lettre minuscule latine ed) ; 1 entrée Angrboða
Avec A-Z a-z modifier
grep -o . italien.txt | sort | uniq -c | sort -nr 160630 a 157566 i 132171 e 125680 o 106705 t 93895 r 88306 n 70203 s 65884 c 58578 l 42489 m 32889 p 31981 d 29571 g 28086 u 23848 b 22125 z 20484 17583 f 16622 v 8512 h 2024 à 1871 q 1809 S 1575 C 1339 A 1310 - 1203 M 1110 B 1082 k 984 P 877 ò 796 L 785 T 778 ’ 681 y 674 G 627 R 613 V 466 F 418 E 402 O 376 x 372 D 364 I 359 N 346 w 292 j 242 é 183 Z 166 è 159 K 150 H 116 U 107 J 87 ì 75 Q 73 ù 50 Y 47 ī 47 , 44 ā 43 W 43 1 25 ū 23 2 22 ï 19 š 18 É 18 â 18 0 15 Ò 14 4 13 γ 13 9 12 6 11 3 10 β 10 α 10 ö 10 º 10 č 10 5 9 ç 9 & 8 ü 8 á 7 ʿ 7 X 7 í 7 8 7 7 7 ̨ 6 ë 6 ä 6 ) 6 ( 5 û 5 ş 5 ô 5 ê 4 ţ 4 Š 4 ó 4 î 3 ú 3 ṣ 3 Ş 3 Ø 3 ñ 3 È 3 æ 3 / 3 . 2 ž 2 ṭ 2 Î 2 ẖ 2 ħ 2 ġ 2 ɜ 2 ə 2 ã 2  2 ª 2 ! 1 ż 1 Ţ 1 ř 1 œ 1 ō 1 ḥ 1 Ḥ 1 ḩ 1 ð 1 Č 1 ć 1 Æ 1 Ā 1 Á 1 ̱ 1 » 1 « 1 * 1 '
Sans A-Z a-z et 0-9 ; (incomplet - brouillon) modifier
grep -o . italien | tr A-Z a-z | sed -e 's/[a-z0-9]//g' | sort | uniq -c | sort -nr 1336701 Lettres et chiffres 20484 Espaces 1310 - 778 ’ 47 , 18 É 15 Ò 13 γ 10 β 10 α 9 & 7 ʿ 7 ̨ 6 ) 6 ( 4 Š 3 Ş 3 Ø 3 È 3 / 3 . 2 ž 2 Î 2 Â 2 ! 1 ż 1 Ţ 1 Ḥ 1 Č 1 Æ 1 Ā 1 Á 1 ̱ 1 » 1 « 1 * 1 '