Dictionnaire français amélioré pour Firefox 2.0 et plus

Modérateur: Modérateurs et Modératrices

Messagede Félix le Chat » 25 Juin 2007, 11:50

et le laisser mener à bien son travail d'utilité publique comme il l'entend
Félix le Chat
Avatar de l’utilisateur
Félix le Chat
 
Messages: 824
Inscription: 20 Aoû 2004, 08:29

Messagede Vazkor » 25 Juin 2007, 12:18

Salut,
J'espère que ça ne te gène pas, et que tu ne vas pas nous faire un Pythou-bis après la livraison initiale.


Pythoud (avec "d") a créé son dictionnaire comme travail de fin d'études linguistiques à l'Université de Lausanne.
C'était un boulot dingue.
Mais j'ai constaté tout de suite quelques problèmes:
- des erreurs, principalement dans les drapeaux. Erreurs inévitables quand il y a 90000 lignes dans le dictionnaire global.
- certaines erreurs viennent de la fusion de dictionnaires partiels où le même mot était repris comme non-verbe et comme verbe d'où des incompatibilités de drapeaux et des répétitions.
- le choix des mots retenus :
-- beaucoup trop de "mots à soixante-quinze" (comme nous disons en Belgique), rares (très techniques), vieillis, voire inexistants dans le TLFi. Certains pouvaient être utiles pour le projet GUTenberg, parce que utilisés quelques fois au 17me siècle par des écrivains célèbres. Mais nous, nous les rencontrerons probablement jamais de toute notre vie.
-- des mots maintenant courants mais absents du dico (exemple typique : télécharger).

Pour ce qui est de la maintenance du fichier fr-FR.dic :
- il est facile d'ajouter de nouveaux mots surtout pour ceux qui n'ont pas une voyelle initiale ou un h aspiré (problème d'élision des articles, pronoms, conjonctions, ... à gèrer pour les autres)
- les verbes les plus compliqués sont ceux du troisième groupe mais il ne devrait plus être nécessaire d'en ajouter. Leur liste est déjà plus que complète.
- pour les verbes des premier et deuxième groupes, il suffit de recopier les drapeaux d'un verbe similaire en faisant la distinction entre verbes à voyelle initiale et les autres.

Prenons charger comme exemple, il suffit de copier télé devant tous les lemmes de charger pour créer les lemmes de télécharger.
Quand un préfixe est défini dans les règles d'affixes, c'est presqu'aussi simple quand il n'y a pas d'élision à prendre en compte
charger/y
charger/Ty -> charger et surcharger
charger/RTy -> charger, recharger et surcharger.

Ce qu'il faudrait préciser aux utilisateur des vérificateurs d'orthographe pour le français, c'est que l'élision et le trait d'union posent toujours problème et que si un mot est souligné, mettre une espace après l'apostrophe ou le trait d'union permet de vérifier si les mot isolés sont corrects avant de penser à ajouter des entrées dans le dictionnaire personnel puis dans le dictionnaire principal.
Dans ce texte, le dictionnaire souligne "presqu'aussi". C'est normal !

A ce stade, mon dictionnaire me donne très peu d'alertes quand je corrige entre autres des articles sur Wikipédia. Il ne connaît pas des mots comme Pangée, Pinatubo et il les souligne. Ce comportement est normal et attire l'attention du rédacteur ou du correcteur.
Il n'y a aucun intérêt à vouloir être absolument complet. Au contraire, la présence dans le dictionnaire de mots rares mais proches de mots courants peut masquer des fautes de frappe. (organsiner et organiser)

travail/SX est correct mais dangereux : "travails" existe uniquement comme pluriel de travail, un appareil servant à maintenir les grands animaux domestiques pendant qu'on les ferre ou qu'on les soigne, dixit le Larousse.
Logiquement je ne devrais garder que travail/X

Il y a donc des choix à faire et il faut bien s'arrêter quelque part.

Autre point auquel il faut être très attentif. S'il y a deux lemmes identiques aux drapeaux près, seul le premier rencontré est pris en compte par le vérificateur.
Donc, "de/S" précédé d'un "de" peu importe où dans le fichier sera ignoré avec pour conséquence que "des" sera souligné contre toute attente.

Je ne passerai pas le reste de ma vie à modifier ce dictionnaire, mais je pense avoir encore quelque temps devant moi et n'importe qui peut s'y mettre, après avoir compris comment fonctionnent les affixes.

Pour les corrections/modifications, il faudrait effectivement créer un forum où les utilisateurs pourraient remonter leurs constatations.

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede Vazkor » 25 Juin 2007, 14:09

Salut,
Ce n'est pas l'approche windows et je dois dire que reprendre des applis qui ont été réalisées dans l'optique « fire and forget » est la plaie la plus totale (fichiers copiés d'on ne sais où, non-respect des licenses, auteurs aux abonnés absents, etc).

Ce n'est pourtant pas l'impression que me donne l'open source que je connais bien, c'est-à-dire OpenOffice et Mozilla.
Des applis écrites sous Linux et portées sous Windows avec une foultitude de fichiers et d'extensions dont on ne sait pas à quoi cela sert (documentation uniquement en anglais et pas facile à découvrir, quand elle existe).
Je me serais bien porté volontaire pour aider à traduire des programmes et des fichiers d'aide, mais pour cela il faut pour bien faire être sous Linux et surtout comprendre le jargon des manchots. Deux choses dans lesquelles je n'ai pas trop envie de m'investir.

Pour les dictionnaires français, chez OpenOffice, on en parle beaucoup mais cela ne bouge guère. Chez Mozilla, c'était mal foutu et maintenant cela régresse. Auparavant les dictionnaires étaient repris dans les extensions et on pouvait accéder au site de l'auteur, laisser des commentaires. Maintenant tout a été regroupé sur une page sans un mot d'explication. Pour l'auteur, il faut regarder dans les fichiers txt en espérant qu'il soit cité et que l'on puisse encore le joindre.
Leur localisation est ridicule. Il faut installer le dictionnaire dans le profil personnel de chaque utilisateur pour chaque application. Personne n'a pensé qu'il serait plus intelligent de les mettre dans un seul dossier réservé et d'adopter la même convention que OOo pour les noms de fichiers. Pourquoi avoir fr-FR.dic dans Mozilla et fr_FR.dans OOo?

OOo m'a installé une vingtaine de dictionnaires y compris le thai sans me demander mon avis mais, à cause d'une bête licence, il me faut télécharger séparément un dictionnaire français. Je sais que les disques durs sont de plus en plus gros mais ce n'est pas une raison pour les bourrer de choses inutiles.

J'arrête ici sinon je m'en vais écrire un roman...

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede Vazkor » 25 Juin 2007, 14:37

Salut,
Pierre a écrit:Pour mémoire, Vazkor est arrivé le premier sur ce site (et son forum), il y a très longtemps, pour justement corriger mes fautes d'orthographe et de grammaire.


Je t'ai effectivement proposé mon aide pour corriger ton site en 2002, mais on s'était déjà croisé sur "Méméclic".
Maintenant que tu rédiges plus vite que ton ombre, espérer corriger ton site s'avère impossible.

Amitiés,
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede nim-nim » 25 Juin 2007, 15:23

Vazkor a écrit:Salut,
Ce n'est pas l'approche windows et je dois dire que reprendre des applis qui ont été réalisées dans l'optique « fire and forget » est la plaie la plus totale (fichiers copiés d'on ne sais où, non-respect des licenses, auteurs aux abonnés absents, etc).

Ce n'est pourtant pas l'impression que me donne l'open source que je connais bien, c'est-à-dire OpenOffice et Mozilla.


OpenOffice et Mozilla sont assez représentatifs de logiciels écrits initialement par des boites propriétaires (Netscape et Star Division) principalement pour Windows, dont le code a été ouvert à posteriori et dont on est encore en train de nettoyer les verrues.

Vazkor a écrit:Personne n'a pensé qu'il serait plus intelligent de les mettre dans un seul dossier réservé et d'adopter la même convention que OOo pour les noms de fichiers. Pourquoi avoir fr-FR.dic dans Mozilla et fr_FR.dans OOo?


C'est comme ça sous Fedora Linux mais le développeur/Utilisateur windows type n'en a rien à foutre.

(En passant mon message précédant n'était pas une critique, juste une précision sur ma vision d'un écosystème informatique sain, puisque j'ai pu constater que le concept de mise à jour incrémentale choquait souvent des utilisateurs venu du monde windows)
Avatar de l’utilisateur
nim-nim
 
Messages: 9
Inscription: 21 Juin 2007, 18:27

Messagede Vazkor » 25 Juin 2007, 16:25

Félix le chat a écrit:et le laisser mener à bien son travail d'utilité publique comme il l'entend

Il se termine, heureusement. Je ne vois plus trop quoi modifier sauf à corriger quelques erreurs qui m'auraient échappé.
Disons que je suis maintenant en pleine phase de tests.

Je pourrais utiliser mieux les affixes pour encore réduire la taille du dictionnaire, mais ce serait au détriment de la facilité de contrôle et de maintenance.
Il serait plus utile de penser à sortir du dictionnaire actuel les mots rares pour les mettre dans des dictionnaires réservés aux littéraires et aux techniciens.
Pour la plupart des utilisateurs, un dictionnaire reprenant une grosse partie du Petit Larousse ou du Petit Robert, c'est plus que suffisant.
Une autre approche serait de se baser sur la fréquence d'utilisation des mots dans le corpus Frantext (14.7 millions de mots recensés dans des textes littéraires parus entre 1950 et 2000). J'ai cela dans mes archives et c'est édifiant. Sur 129000 mots, seulement 6532 items (graphies distinctes) ont une fréquence supérieure à 1 par million et 684 ont une fréquence supérieure à 100.

Je proposerais bien à "La Cadémie Française" * d'aller bien plus loin que cette timide réforme 1990 et d'adopter une fois pour toute une notation phonétique tellement plus simple avec un peu d'habitude :
abandon ab@d§
abandonna ab@dOna
abandonnai ab@dOnE
abandonnaient ab@dOnE
abandonnais ab@dOnE
abandonnait ab@dOnE
abandonnant ab@dOn@
abandonnas ab@dOna
abandonnassent ab@dOnas
abandonne ab@dOn
abandonnement ab@dOnm@
abandonnent ab@dOn
abandonner ab@dOne
abandonnera ab@dOnRa
abandonnerai ab@dOnRE
abandonneraient ab@dOnRE
abandonnerais ab@dOnRE
...

@+

* "Ils voudraient que je sois membre de la Cadémie Française, cela m'irait comme des gants à un chat", osait écrire un Maréchal de France.
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede nim-nim » 25 Juin 2007, 22:27

En passant Vazkor as-tu essayé U+2010 pour les mots composés ? C'est le caractère unicode correct, et je ne suis pas sûr qu'il soit filtré
Avatar de l’utilisateur
nim-nim
 
Messages: 9
Inscription: 21 Juin 2007, 18:27

Messagede Vazkor » 26 Juin 2007, 06:54

Salut,

J'ai essayé de remplacer le trait d'union normal 0x2D ou Alt+0045 par tous les tirets disponibles dans le jeu de caractères ASCII étendu :
0x96 (Alt+0150)
0x97 (Alt+0151)
0xAD (Alt+0173)
Rien à faire.

Pour le caractère Unicode U+2010, je ne le trouve pas dans les caractères spéciaux d'OpenOffice.
J'ai uniquement les possibilité suivantes, pour abaisse-langue pris comme cobaye.
abaisse-langue (U+002D) tiret normal
abaisse–langue (U+2013)
abaisse−langue (U+2212)
U+00AD est un tiret conditionnel "0xC2AD" qui ne s'affiche qu'en cas de césure en fin de ligne.
Ici il ne s'affiche pas :
abaisse­langue ((U+00AD)

Je ne vois pas l'intérêt de remplacer tous les traits d'union des mots composés par un caractère Unicode. Si les utilisateurs continuent eux à taper le caractère disponible au clavier 0x2D, les mots composés ne seront quand même pas reconnus.

J'ai par curiosité jeté un méchant œil sur les dicos et règles d'affixes des dictionnaires US et GB.
Ils utilisent bien le - dans leur dicos mais ils n'ont pas ces f**** problèmes d'élision que nous connaissons avec le
français.

Je constate quand même quelques différences notables entre les fichiers aff des différentes langues :
fr_FR.aff
SET ISO8859-15
TRY eiarsntolucéÉmpdgbhfvqjyxèÈz âÂkêÊçÇîÎïÏwûÛôÔàÀëËüÜœöÖóÓíÍùÙæáÁäÄ

en_US.aff
SET ISO8859-1
TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ'
NOSUGGEST !


en_GB.aff
SET ISO8859-1
TRY esiaénrtolcdugmfphbyvkw-'.zqjxSNRTLCGDMFPHBEAUYOIVKWóöâôZQJXÅçèîêàïüäñ
NOSUGGEST !


Au cours de mes essais j'ai aussi essayé quelques autres TRY dans fr_FR.aff, mais sans succès.
TRY eiarsntolucéÉmpdgbhfvqjyxèÈzâÂkêÊçÇîÎïÏwûÛôÔàÀëËüÜöÖóÓíÍùÙáÁäÄœŒæÆ-

Dans le fichier fr_FR.aff officiel du 28/07/2006 correspondant au français classique
SET ISO8859-15
TRY eiarsntolucéÉmpdgbhfvqjyxèÈzâÂkêÊçÇîÎïÏwûÛôÔàÀëËüÜöÖóÓíÍùÙáÁäÄ

Dans le fichier fr.aff officiel du 25/09/2006 correspondant au français réforme1990
SET ISO8859-15
TRY eiarsntolucéÉmpdgbhfvqjyYxèÈzâÂkêÊçÇîÎïÏwûÛôÔ½àÀëËüÜöÖóÓíÍùÙáÁäÄ
Note la présence du "½" au lieu du "œ" que l'on attendrait.

Là-dedans j'avoue que j'y perds mon latin.

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede Félix le Chat » 26 Juin 2007, 07:40

Bonjour,

Si le maître a perdu son latin, nous sommes tous dans la m...
Félix le Chat
Avatar de l’utilisateur
Félix le Chat
 
Messages: 824
Inscription: 20 Aoû 2004, 08:29

Messagede Vazkor » 26 Juin 2007, 09:32

Bonjour,

A l'heure actuelle, je lis plus facilement les œuvres de Nicolai Ceaucescu (le Génie des Carpates) dans le texte que la Guerre des Gaules de Caius Julius Caesar !
Mon étude du roumain est nettement plus récente (entre 1990 et 1995)... et j'étais nettement plus motivé qu'entre 12 et 18 ans, puisqu'il s'agissait de comprendre ce m'écrivait une jeune roumaine que je parrainais.
Maintenant je commence sérieusement à oublier par manque de pratique : Manuela est mariée et mère d'une petite Diana aux dernières nouvelles datant de 1996.

Limba romana nu e difficil.

La revedere !
Avatar de l’utilisateur
Vazkor
 
Messages: 9808
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

PrécédenteSuivante

Retourner vers Firefox

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 5 invités