Dictionnaire français amélioré pour Firefox 2.0 et plus

Modérateur: Modérateurs et Modératrices

Messagede Vazkor » 21 Avr 2007, 23:34

pierre a écrit:Tiens, Vazkor

Le passé de "relire" dans le dico actuel. Plouf.
Il ne veut pas de "relu" ( <- l'est souligné en rouge, là, chez moi, avec le dico d'origine)

Regarde si tu a corrigé dans le tien.

@+
Rien n'est souligné dans ton message, pendant que je rédige ma réponse.
Lire et relire sont donc mieux reconnus. C'est une partie du dico qui m'a longtemps occupé : la dérivation des mots avec les préfixes ad-, de/des-, re/res-, sur- con/com/cor-, contre/contr, etc.
C'est le dico de base qui a dû être complètement vérifié pour ne pas dire refait.

Je teste mon dico fr-FR.dic avec tous les messages que je rédige et que je corrige là où je suis encore modérateur. Je peux dire qu'il est rarement pris en défaut, tant qu'il n'y a pas de œ ou æ et d'apostrophe exotique.

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede pierre » 24 Avr 2007, 08:56

Re,

Fâché avec les accents circonflexes - à regarder aussi.

Un truc : où sont les mots que l'on ajoute au dictionnaire (notre dico perso ?) Ce sont des choses que l'on pourrait t'envoyer.

A+
Image
__________________
Pierre (aka Terdef)
Appel à donation - Le site a besoin de votre aide

Comment je me fais avoir/infecter ? - Protéger navigateur, navigation et vie privée - Bloquer publicité et surveillance sur le Web
Accélérer Windows - Accélérer Internet - Décontamination - Installer Malwarebytes - Forums d'entraide

Il ne sera répondu à aucune demande de dépannage posée en MP (Messagerie Privée). Les demandes doivent être publiques et les réponses doivent profiter au public.
Image
Avatar de l’utilisateur
pierre
 
Messages: 25046
Inscription: 20 Mai 2002, 23:01
Localisation: Ici et maintenant

Messagede jpj » 24 Avr 2007, 17:58

Bonsoir,

OOo
C:\Documents and Settings\<Session_Windows>\Application Data\OpenOffice.org2\user\wordbook\standard.dic
ou un autre dictionnaire/fichier selon le choix retenu au moment de l'ajout.

Firefox
C:\Documents and Settings\<Session_Windows>\Application Data\Mozilla\Firefox\Profiles\xxxxxxxx.default\persdict.dat
ou autre nom de profil à la place de default.

Thunderbird
C:\Documents and Settings\<Session_Windows>\Application Data\Thunderbird\Profiles\xxxxxxxx.default\persdict.dat
ou autre nom de profil à la place de default.

A+
Quand tout le reste a échoué, lisez le mode d'emploi.
Mes configs
Avatar de l’utilisateur
jpj
 
Messages: 1338
Inscription: 30 Juil 2005, 21:28
Localisation: France

Messagede Vazkor » 24 Avr 2007, 20:37

pierre a écrit:Re,

Fâché avec les accents circonflexes - à regarder aussi.

Et avec beaucoup d'autres choses, sinon je ne me serais pas penché sur le problème de la construction de ces dicos.

Je vais mettre aujourd'hui encore ma version des fichiers fr-FR.dic et fr-FR.aff sur le site de Rocky2, comme cela vous en profiterez et je ne serai plus le seul couillon à me taper les tests.

En gros, j'ai repris les dicos partiels * de 1999, faisant partie du dico créé par Christophe Pythoud lors d'un travail de fin d'études à l'université de Lausanne (corrigé). J'ai vérifié ces dicos un par un et je les ai fusionnés.
J'ai comparé cela aux dicos fr.dic et fr-FR.dic que l'on nous propose.

J'y ai retrouvé les même erreurs que dans les dico partiels, plus un tas d'autres ajoutées au fil des ans, dont des dérivations de mots aberrantes (-> mots qui n'existent pas en français), mots à soixante-quinze présents alors que des mots comme "télécharger" sont absents.
J'ai donc corrigé tout cela, amélioré l'utilisation des règles d'affixes (certaines n'étaient pas du tout utilisées).

Finalement, j'obtiens un dictionnaire plus puissant, plus correct et pourtant moins volumineux.

Je pense que je vais réserver provisoirement ce dico amélioré à mon cercle de connaissances. Pourquoi ? Parce que je suis les discussions sur Geckozone à propos de ces dicos et que c'est un vrai foutoir. Je n'ai même plus envie de participer.
Tout le monde se plaint des dicos pour Thunderbird mais personne ne songe à coordonner le travail des "développeurs" des dictionnaires. Les dicos de TB s'installent difficilement et maintenant leur emplacement a encore changé sans que cela ne soit signalé. Bref, chacun crée des fichiers xpi d'installation à sa manière (ce qui n'est pas difficile) sans veiller à une certaine standardisation.

Maintenant quand on cherche les dicos de langues on arrive sur une seule page où tous sont repris sans un mot d'explication. Là on régresse franchement par rapport à la situation de l'année dernière.

Comme je l'ai déjà dit , c'est une honte que des dicos pratiquement identiques se retrouvent à quatre emplacements différents au minimum si on les utilise dans OOo, FF, TB et Nvu. Mettre ces dictionnaires dans un dossier unique utilisé par ces quatre applications, cela serait tellement simple que personne parmi ces brillants développeurs n'y a songé.

Dans OOo, ce sont fr_FR.dic et fr_FR.aff placés dans un sous-dossier du programme (pas facile à dégotter mais c'est un moindre mal) :
"L:\Program Files\OpenOffice.org 2.2\share\dict\ooo"

Dans Firefox, fr-FR.dic et fr-FR.aff sont dans mon profil Mozilla
"L:\Documents and Settings\Anonyme\Application Data\Mozilla\Firefox\Profiles\lq1w5ix4.default\extensions\fr-FR@dictionaries.addons.mozilla.org\dictionaries"

Dans Thunderbird, ils étaient dans le programme
"L:\Program Files\Mozilla Thunderbird\components\myspell"
Maintenant, depuis le passage à la version 2.0.0.0 ils sont aussi dans mon profil Thunderbird
"L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\extensions\fr-FR@dictionaries.addons.mozilla.org"
On a calqué l'installation sur celle pour FF, alors qu'il aurait été plus intelligent de faire l'inverse c.à.d sortir le dico principal du profil de FF pour le mettre dans le programme!

Dans Nvu, ils sont dans un sous-dossier du programme :
"L:\Program Files\Nvu\components\myspell"

* Ces dicos partiels sont encore disponibles dans une archive Francais-GUTenberg-v1.0.tar.gz, que j'ai conservée précieusement comme pièce à conviction. Tous ces fichiers sont datés de 1998 à 1999.

Un truc : où sont les mots que l'on ajoute au dictionnaire (notre dico perso ?) Ce sont des choses que l'on pourrait t'envoyer.

Je pense que je devrais plutôt vous envoyer un extrait du mien reprenant 330 mots courants contenant œ, une ligature que je n'arrive pas à faire prendre en compte (alors que æ est accepté. Problème de code ASCII/ANSI/ISO8859-15 ???)

Dans Firefox, Thunderbird et Nvu, les dicos personnels sont des fichiers persdict.dat cachés dans le profil de chaque utilisateur. Ça c'est logique, puisque chaque utilisateur n'a pas besoin des mêmes personnalisations.
"L:\Documents and Settings\Anonyme\Application Data\Mozilla\Firefox\Profiles\lq1w5ix4.default\persdict.dat"
"L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\persdict.dat"
"L:\Documents and Settings\Anonyme\Application Data\Nvu\Profiles\t4tzw6l7.default\persdict.dat"
Ce sont des fichiers texte que vous pouvez éditer avec le bête bloc-notes à défaut de mieux.

Pour OOo c'est un peu plus compliqué, mais plus intelligent :
vos dicos personnels sont regroupés dans un dossier user\wordbook du profil utilisateur.

L:\Documents and Settings\Anonyme\Application Data\OpenOffice.org2\user\wordbook
standard.dic est le dico personnel par défaut, mais vous pouvez en créer d'autres (j'en ai 7 en tout) et les activer/désactiver dans les options linguistiques. C'est là aussi que vous pouvez les modifier, parce que ce sont des fichiers non éditables directement (ces fichiers contiennent WBSWG6 tout au début).

Je n'avais pas encore épluché les fichiers prefs.js et les fichiers ini de toutes les applications concernées !

L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\extensions.ini
L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\prefs.js
Là, une seule mention de dictionnaire dans la ligne : user_pref("spellchecker.dictionary", "fr-FR");

C'est dans extensions.ini que l'on trouve les chemins des dicos utilisés par TB :
L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\extensions.ini

[ExtensionDirs]
Extension0=L:\Documents and Settings\Anonyme\Application Data\Thunderbird\Profiles\7gjhmpm2.default\extensions\fr-FR@dictionaries.addons.mozilla.org

Idem pour FF, les chemins des dicos sont dans
L:\Documents and Settings\Anonyme\Application Data\Mozilla\Firefox\Profiles\lq1w5ix4.default\extensions.ini

Tiens, j'ai encore appris quelque chose d'intéressant aujourd'hui. :wink:

J'ai aussi constaté et ça c'est moins beau, que les fichiers prefs.js contiennent pas mal d'entrées obsolètes (des lignes concernant des extensions que j'ai testées et désinstallées aussitôt). :evil:

Libre et open source seraient-ils synonymes de große pagaille ? Je commence à le penser sérieusement, puisqu'il n'y a pas qu'un seul pilote à bord. Cela me fait penser aux voitures dans les carrousels où chaque bambin a son volant, pour ne pas faire de jaloux.

@+
Dernière édition par Vazkor le 28 Juin 2007, 21:16, édité 4 fois.
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede Vazkor » 25 Avr 2007, 02:20

Salut,

Chose promise, chose due.
C'est fait, mon dico fr-FR.dic version 1.0.2 est disponible sur le site de Rocky.
Dernière mise à jour le 25/05/2007.


Cette archive contient :
- un fichier fr-FR.xpi pour installation "automatique" dans Firefox et Thunderbird.
- les fichiers fr-FR.dic et fr-FR.aff pour une copie manuelle là et dans Nvu et OpenOffice.org.
- un fichier Installation.txt qui vous explique tout cela avec plus de détails et vous invite à me contacter pour me faire part de vos suggestions.
- un fichier persdict_oe.txt à éventuellement fusionner avec vos dicos personnels de FF et TB, afin que les formes fréquentes des mots contenant la ligature "œ" ne soient plus soulignées.

Fichier ajouté le 25/05/2007, pour les curieux, Francais-GUTenberg-v1.0.zip, contenant les dictionnaires qui ont servi à créer le premier dictionnaire ISpell pour le projet GUTenberg. Il est à noter que ces dicos contiennent des erreurs flagrantes, que l'on retrouve encore après 8 ans dans les derniers dicos officiels pour OOo et Mozilla !

@+

Rédigé en écoutant "Petite fleur" de Sidney Bechet, musique du site, dont je ne me lasse pas
Dernière édition par Vazkor le 28 Juin 2007, 21:19, édité 2 fois.
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede pierre » 25 Avr 2007, 09:48

Bonjour,

Dans son "lisez-moi", de son dico français Vazkor fait une remarque à propos de l'original de ce dictionnaire qui date de 1999 :

Vazkor a écrit:"La première version du dictionnaire MySpell pour OpenOffice.org à (sic) été crée (sic)
automatiquement à partir de la convertion (sic) du fichier affix et des listes
de mots créés par Christophe Pythoud pour Ispell."

Avec ces trois fautes dans deux lignes, vous noterez que même ce texte n'a pas été écrit par quelqu'un qui possède l'orthographe française. Bien vu pour un travail linguistique.

J'ajoute qu'il faut aussi s’inquiéter lorsque l’on voit la manière d’écrire une URL pour le dico français en ce qui concerne la contribution actuelle (par je ne sais qui) sur le site de Mozilla : d'ailleurs il y a 2 dico français !
https://addons.mozilla.org/fr/firefox/d ... +zm+tb.xpi
https://addons.mozilla.org/fr/firefox/d ... +zm+tb.xpi

Aie ! aie ! aie !

Salut
Image
__________________
Pierre (aka Terdef)
Appel à donation - Le site a besoin de votre aide

Comment je me fais avoir/infecter ? - Protéger navigateur, navigation et vie privée - Bloquer publicité et surveillance sur le Web
Accélérer Windows - Accélérer Internet - Décontamination - Installer Malwarebytes - Forums d'entraide

Il ne sera répondu à aucune demande de dépannage posée en MP (Messagerie Privée). Les demandes doivent être publiques et les réponses doivent profiter au public.
Image
Avatar de l’utilisateur
pierre
 
Messages: 25046
Inscription: 20 Mai 2002, 23:01
Localisation: Ici et maintenant

Messagede Vazkor » 25 Avr 2007, 11:39

Salut,

Pierre, c'est pas bien de mettre des liens au kilomètre qui bousille l'affichage !

Attention ! le second lien télécharge le dico français (réforme 1990), une orthographe que pratiquement
personne n'applique alors qu'il y a 16 ans déjà que cette réforme est parue au JO, le jour de la
Saint-Nicolas 1990.
Du point du vue du contenu, on retrouve les mêmes erreurs que dans le premier avec quelques autres en plus.

Toujours pour la petite histoire, je viens de faire une recherche dans la liste de 350.000 mots français du projet
GUTenberg, qui a servi à créer la liste de lemmes pour les dicos de ISpell > ASpell > MySpell et enfin Hunspell.
Il n'y a que 5000 mots composés avec un trait d'union alors que celui-ci n'est pris en compte ni par MySpell de
FF, TB et NVu, ni par HunSpell d'OpenOffice.

Un exemple parmi tant d'autres:
Ho-Chi-Minh-Ville était dans les deux dicos officiels. Vous pouvez le taper dans un texte, il est souligné sauf
ville, tant que les quatre mots qui le composent ne figurent pas dans la liste des lemmes. Vous pouvez taper
ces mots dans le désordre, rien ne change. Ville-Minh-Chi-Ho, tout est souligné sauf Ville. Le trait d'union est un
séparateur, tout comme l'espace et plusieurs caractères spéciaux.

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede pierre » 25 Avr 2007, 11:54

Re,

Il y aurait 700.000 mots dans la langue française (information que j'ai eu il y a une quarantaine d'années - cela a dû augmenter depuis). Le français lambda utilise 700 mots en moyenne (autre vieille information - cela a dû baisser depuis).

@+
Image
__________________
Pierre (aka Terdef)
Appel à donation - Le site a besoin de votre aide

Comment je me fais avoir/infecter ? - Protéger navigateur, navigation et vie privée - Bloquer publicité et surveillance sur le Web
Accélérer Windows - Accélérer Internet - Décontamination - Installer Malwarebytes - Forums d'entraide

Il ne sera répondu à aucune demande de dépannage posée en MP (Messagerie Privée). Les demandes doivent être publiques et les réponses doivent profiter au public.
Image
Avatar de l’utilisateur
pierre
 
Messages: 25046
Inscription: 20 Mai 2002, 23:01
Localisation: Ici et maintenant

Messagede Vazkor » 25 Avr 2007, 12:28

Salut,

Dans le Corpatext102 composés de 2407 textes de 665 auteurs il y a des mots que l'on rencontre quelques fois sur un million.
Taille du fichier corpatext.txt : 211 Mo
plus de 2 800 000 lignes
36 883 115 mots
178 113 517 caractères (espaces exceptés)
221 506 088 caractères (espaces inclus)

Ce texte de référence est utilisé par les linguistes pour calculer les fréquences des lettres, des syllabes, établir des listes de mots voisins, etc.
Il est disponible sur Lexique.org
http://www.lexique.org/public/corpatext102.zip (attention ! Il ne pèse que 76.53 Mo)

Je l'ouvre avec UltraEdit, je n'oserais pas essayer avec Wordpad ou Notepad.

@+
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

Messagede Vazkor » 26 Avr 2007, 02:16

Salut,
Dans le premier message, Vazkor a écrit:Je vous dis tout de suite que MySpell ne gère par l' "e dans l'o" : œ et Œ et qu'il a encore des problèmes avec les majuscules accentuées et certaines élisions.

Pour le problème des ligatures œ et Œ, j'ai trouvé par hasard l'explication en cherchant tout autre chose !

C'est encore la faute à Microsoft qui a adapté le code ISO 8859-1 (et donc l' ISO 8859-15) à sa sauce

ASCII - ISO8859-1 Table with HTML Entity Names
http://www.bbsinc.com/iso8859.html (cette page est maintenant inaccessible - 28/06/2007)
où l'on peut lire :
Characters whose entries are shown in green are only in the Microsoft® Windows Latin-1 character set additions to ASCII / ISO 8859-1 and are recognized by programs such as Word for Windows and Internet Explorer 2.0.

Cela apparaît clairement dans le tableau ci-dessous (visible sur la même page) :

ASCII - ISO 8859-1 (Latin-1) Entities with Microsoft® Windows Latin-1 Added Characters in Green
Image

Œ et œ ont les codes hexa 8C et 9C qui ne sont pas standards !
Et l'on ne peut passer de la majuscule à la minuscule en ajoutant 32 dec ou 20 hex à leur code, comme c'est le cas pour toutes les autres lettres.

Sous Windows, ce n'est donc plus la peine de chercher à faire reconnaître ces ligatures par MySpell.
Il faudrait modifier le code du programme.

@+
Dernière édition par Vazkor le 28 Juin 2007, 21:22, édité 1 fois.
Avatar de l’utilisateur
Vazkor
 
Messages: 9797
Inscription: 05 Nov 2002, 23:39
Localisation: Ans, BE

PrécédenteSuivante

Retourner vers Firefox (Open Source)

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité