Analysis - Description technique du programme. Formats des lexiques. Maintenance.

Analysis — Description technique du programme. Formats des lexiques. Maintenance.

Analysis existe en deux versions. L'une, pour le système Windows 3.x, écrite en Delphi 1 de Borland, et l'autre, pour Windows 95, écrite en Delphi 3. Les deux versions ne sont pas fondamentalement différentes, et cette aide s'applique aux deux systèmes.
Limites.Les derniers essais indiquent que les lexiques les plus importants (plus de 150 entrées) occupent à peu près 6 Ko. On peut donc envisager de les augmenter jusqu'à 900 entrées ou un peu plus, avant d'arriver à saturation. J'ignore combien d'entrées on compte dans la langue pour le paradigme le plus productif. Ce qui est sûr, c'est que dans le cadre de l'enseignement secondaire, une telle capacité est suffisante. J'ai toutefois réfléchi à ces limites, et suis prêt à développer une solution de rechange en cas de saturation.
Formats des lexiques Les principes retenus sont :
- un fichier .txt par modèle. format : forme canonique, données morphologiqes + données sémantiques
  Ce qui suit la virgule n'a aucune influence sur la recherche, sauf dans le cas cité dans l'expert d'augmentation.
  forme canonique fictive, cf. forme canonique réelle
  Ces fichiers ont chacun son numéro, qu'il faut connaître L'absence de l'un de ces fichier entraîne des dysfonctionnements. Liste de ces fichiers, précédés de leurs numéros :
  1. rosa.txt
  2. amicus.txt
  3. puer.txt
  4. ager.txt
  5. templum.txt
  6. ciuis.txt
  7. miles.txt
  8. mare.txt
  9. corpus.txt
  10. manus.txt
  11. res.txt
  12. bonus.txt
  13. miser.txt
  14. pulcher.txt
  15. fortis.txt
  16. uetus.txt
  17. acer.txt
  18. amo.txt
  19. moneo.txt
  20. lego.txt
  21. capio.txt
  22. audio.txt
  23. sum.txt
  24. eo.txt
  25. imitor.txt
  26. uereor.txt
  27. sequor.txt
  28. patior.txt
  29. potior
    Quelques fichiers ne sont pas exactement des fichiers lexiques. Les voici, avec leurs numéros et leur emploi. Il est impératif de respecter le format, à l'espace et à la virgule près :
  30. irreg.txt : pour les formes irrégulières. Le format est forme, forme canonique
  31. invar.txt : pour les invariables. A le même format qu'un fichier lexique ;
  32. parfaits.txt : pour les radicaux de parfaits (donc sans le -i de la désinence). format : radical parfait, forme canonique
  33. supins.txt : pour les radicaux de supins (donc sans le -um de la désinence). format : radical supin, forme canonique
  34. pronoms.txt : a le même format qu'un fichier lexique. Les formes des pronoms sont automatiquement considérées comme des formes irrégulières, donc ajoutées au fichier irreg.txt.

Il reste un dernier fichier, dont l'importance est capitale, puisqu'il est appelé plusieurs fois par mot : desin.txt. C'est le fichier des désinences. Format :

désinence, numéro du modèle

Pratiquement, voici, résumée, la démarche de l'algorithme :

Prendre la dernière lettre de la forme, la chercher dans desin.txt ;
Echec : aller chercher dans invar.txt ;
Pour chaque Réussite : synthétiser un canon hypothétique, le chercher dans le fichier dont le numéro est indiqué en face de la désinence ; Réussite : ajout de l'entrée correspondante.
Prendre les deux dernières lettres de la forme, revenir à 1. jusqu'à 3. ; Prendre les 3 dernières lettres... jusqu'à épuisement du mot.
aucune solution trouvée : surgissement de l'expert ; réussite : ajout de l'invariable ;

Cette démarche n'est pas sans faille. Si une forme a plusieurs origines (esse de sum et esse de edo ; ius, "jus" et ius "droit"), si Analysis n'a pas encore trouvé un moyen de le savoir, il affichera candidement un résultat incomplet, voire faux. Aussi faut-il savoir augmenter un lexique manuellement, en le chargeant avec , et en ajoutant l'entrée à sa place alphabétique, en respectant le format du lexique. Heureusement, on aura rarement besoin de toucher à des fichiers comme desin.txt.

Enfin, il est bon de jeter un coup d'śil régulier aux lexiques. Analysis est bien jeune encore, et il est possible qu'elle fasse quelquefois des bêtises, comme de mettre un verbe dans un pronom, ou quelque autre folie.