Analysis — Description technique du programme. Formats des lexiques. Maintenance.

sommaire

  1. Analysis existe en deux versions. L'une, pour le système Windows 3.x, écrite en Delphi 1 de Borland, et l'autre, pour Windows 95, écrite en Delphi 3. Les deux versions ne sont pas fondamentalement différentes, et cette aide s'applique aux deux systèmes.
  2. Limites.Les derniers essais indiquent que les lexiques les plus importants (plus de 150 entrées) occupent à peu près 6 Ko. On peut donc envisager de les augmenter jusqu'à 900 entrées ou un peu plus, avant d'arriver à saturation. J'ignore combien d'entrées on compte dans la langue pour le paradigme le plus productif. Ce qui est sûr, c'est que dans le cadre de l'enseignement secondaire, une telle capacité est suffisante. J'ai toutefois réfléchi à ces limites, et suis prêt à développer une solution de rechange en cas de saturation.
  3. Formats des lexiques Les principes retenus sont :
    • un fichier .txt par modèle. format :
      forme canonique, données morphologiqes + données sémantiques

      Ce qui suit la virgule n'a aucune influence sur la recherche, sauf dans le cas cité dans l'expert d'augmentation.

      forme canonique fictive, cf. forme canonique réelle

      Ces fichiers ont chacun son numéro, qu'il faut connaître L'absence de l'un de ces fichier entraîne des dysfonctionnements. Liste de ces fichiers, précédés de leurs numéros :

      1. rosa.txt
      2. amicus.txt
      3. puer.txt
      4. ager.txt
      5. templum.txt
      6. ciuis.txt
      7. miles.txt
      8. mare.txt
      9. corpus.txt
      10. manus.txt
      11. res.txt
      12. bonus.txt
      13. miser.txt
      14. pulcher.txt
      15. fortis.txt
      16. uetus.txt
      17. acer.txt
      18. amo.txt
      19. moneo.txt
      20. lego.txt
      21. capio.txt
      22. audio.txt
      23. sum.txt
      24. eo.txt
      25. imitor.txt
      26. uereor.txt
      27. sequor.txt
      28. patior.txt
      29. potior

        Quelques fichiers ne sont pas exactement des fichiers lexiques. Les voici, avec leurs numéros et leur emploi. Il est impératif de respecter le format, à l'espace et à la virgule près :

      30. irreg.txt : pour les formes irrégulières. Le format est
        forme, forme canonique
      31. invar.txt : pour les invariables. A le même format qu'un fichier lexique ;
      32. parfaits.txt : pour les radicaux de parfaits (donc sans le -i de la désinence). format :
        radical parfait, forme canonique
      33. supins.txt : pour les radicaux de supins (donc sans le -um de la désinence). format :
        radical supin, forme canonique
      34. pronoms.txt : a le même format qu'un fichier lexique. Les formes des pronoms sont automatiquement considérées comme des formes irrégulières, donc ajoutées au fichier irreg.txt.

Il reste un dernier fichier, dont l'importance est capitale, puisqu'il est appelé plusieurs fois par mot : desin.txt. C'est le fichier des désinences. Format :

désinence, numéro du modèle

Pratiquement, voici, résumée, la démarche de l'algorithme :

  1. Prendre la dernière lettre de la forme, la chercher dans desin.txt ;
  2. Echec : aller chercher dans invar.txt ;
  3. Pour chaque Réussite : synthétiser un canon hypothétique, le chercher dans le fichier dont le numéro est indiqué en face de la désinence ; Réussite : ajout de l'entrée correspondante.
  4. Prendre les deux dernières lettres de la forme, revenir à 1. jusqu'à 3. ; Prendre les 3 dernières lettres... jusqu'à épuisement du mot.
  5. aucune solution trouvée : surgissement de l'expert ; réussite : ajout de l'invariable ;

Cette démarche n'est pas sans faille. Si une forme a plusieurs origines (esse de sum et esse de edo ; ius, "jus" et ius "droit"), si Analysis n'a pas encore trouvé un moyen de le savoir, il affichera candidement un résultat incomplet, voire faux. Aussi faut-il savoir augmenter un lexique manuellement, en le chargeant avec , et en ajoutant l'entrée à sa place alphabétique, en respectant le format du lexique. Heureusement, on aura rarement besoin de toucher à des fichiers comme desin.txt.

Enfin, il est bon de jeter un coup d'œil régulier aux lexiques. Analysis est bien jeune encore, et il est possible qu'elle fasse quelquefois des bêtises, comme de mettre un verbe dans un pronom, ou quelque autre folie.