Présentation d'Ergane modifier

Ergane v1.01 est un programme de traduction utilisant l'espéranto comme langue pivot.

La version de base comprend un petit programme à installer et une base lexicale en espéranto très vaste. On ajoute ensuite des bases de données supplémentaires qui sont seront immédiatemment prises en compte.

Licence modifier

Le logiciel est distribué avec une licence libre explicite sur le site d'Ergane et confirmé par mail par le contact du site pour les dictionnaires à télécharger:

Re: majstro: License [edit]   30/11/05 13:39        
from: Gerard van Wilgen <xxxantispamxxx@planet.nl> 
to: xxx-moi-antispamxxx@walla.com , 
The copyright sign on the site applies only to the content of the site. 
The dictionaries are in the public domain, so you can do with them 
whatever you like.

Gerard van Wilgen

xxx-moi-antispamxxx@walla.com wrote:

>Nomo: Laurent Bouvier
>Preferata lingvo: eng
>
>Dear master,
>
>I have noticed the small copyright sign at the bottom of the site but there is
 no precision on which usage license applies on your site.
>
>Indeed, I am working on the the word book part of wikipedia and I would
 like to know if I could use your material. I am especially interested in the
 rare languages (Zulu etc.)
>
>Of course, this would mean that the information will become available under GNU
 GPL license.
>
>Best regards, groetjes,
>
>Laurent Bouvier,

Technique de transfert modifier

Il est réalisé à partir d'un petit programme en Python qui réalise le script suivant:

  • Connexion aux bases lexicales en langue source, en espéranto, en français
  • Constitution d'une liste de lemmes en langue source pour lesquels il existe une traduction en français
  • Suppression des noms propres, expressions, et mot de moins de trois lettres.
  • Suppression de certaines catégories grammaticales: préfixes, suffixes, ...
  • Ajoute de la prononciation si la langue est suffisamment régulière et que des ressources (documentaires et validateurs) sont disponibles.
  • Contrôle des caractères ( les caractères sont stockés dans un encodage particulier sous forme de caractères spéciaux )
  • Publication des articles produits sur le site avec la classe wikipedia du paquetage wikipedia.py

Langues disponibles modifier

Langue Nombre total de mots Statut Remarque
néerlandais 56006 Partiel Autres sources à privilégier → locuteurs, wiktionnaire
allemand 15317 Gelé Autres sources à privilégier → locuteurs, wiktionnaire
grec 1833 Gelé Problème de diacritiques
Kurde 560 Gelé Problème avec le contenu du dictionnaire, 3 kurdes répertoriés sur ethnologue.com ckb, kmr, sdh format le groupe kur ou ku.
Serbo-croate 444 Gelé Le lexique n'est disponible avec une seule police (latine) comme utilisés par les Croates. Le Wiktionnaire n'a pour l'instant qu'une langue serbe. Ethnologue.com mentionne serbo-croate (hbs,sh), (hrv,hr) croate et (srp,sr) serbe.
portugais 18372 Réalisé
anglais 15812 Partiel Autres sources privilégiées → locuteurs, wiktionnaire
afrikaans 6360 Réalisé
suédois 6055 Réalisé
féroïen 5552 Réalisé
espagnol 5420 Réalisé
papiamento 4910 Réalisé
danois 4620 Réalisé
frison 4492 Réalisé
italien 3793 Réalisé
hongrois 2796 Réalisé
polonais 2470 Réalisé
latin 2389 Réalisé
turc 1966 Réalisé
norvégien 1961 Réalisé
finnois 1887 Réalisé
islandais 1632 Réalisé
russe 1504 Réalisé
roumain 1323 Réalisé
sranan 1117 Réalisé
vieil anglais 945 Réalisé
tagalog 940 Réalisé
catalan 881 Réalisé
gaélique écossais 876 Réalisé
zoulou 835 Réalisé
swahili 665 Réalisé
maya yucatèque 662 Réalisé
albanais 597 Réalisé
malais 519 Réalisé
brahui 432 Exclus Données non publiques Code langue à créer (brh?) - Nom de la langue en français
thaï 1658 Exclus Nombreux diacritiques que je ne maîtrise pas
japonais 1656 Exclus Dictionnaire romanisé
gaélique irlandais 1347 Exclus Données non publiques
tchèque 1905 Exclus Problème avec l'alphabet utilisé
chinois (Mandarin) 1379 Exclus Dictionnaire romanisé
laotien 1084 Exclus Données non publiques
slovaque 949 Exclus Problème avec l'alphabet utilisé
indonésien 801 Exclus Données non publiques
gallois 780 Exclus Données non publiques
lombard 345 Exclus Données non publiques - Code langue à créer (lmo)
grec ancien 338 Exclus Données non publiques - Problème de diacritiques
maori 280 Exclus Données non publiques
hébreu 237 Exclus problème de script
maltais 235 Exclus Données non publiques
hawaïen 239 Exclus Données non publiques - Code langue à créer (haw)
bavarois 217 Exclus Données non publiques - Code langue à créer (bar)
tswana 186 Exclus Données non publiques - Code langue à créer (tn)
yoruba 161 Exclus Données non publiques
tahitien 35 Exclus Données non publiques
letton 8 Exclus Pas assez de mots
estonien 2 Exclus Pas assez de mots
lituanien 2 Exclus Pas assez de mots

Compte tenu des différents filtrages et contraintes de création d'articles un tiers des lemmes deviennent des articles.