Patrice Pognan Inalco, Paris* Jarmila Panevová Université Charles (Prague)** UDK 811.16(1-15):81'322 GÉNÉRATION AUTOMATIQUE DE LEXÈMES SLAVES À PARTIR DE LEURS RACINES HISTORIQUES : UNE DES BASES DE L'ENSEIGNEMENT MULTILINGUE DES LANGUES SLAVES DE L'OUEST (NORD ET SUD) L'article que nous offrons en l'honneur de notre collègue Vladimir Pogačnik concerne le système linguistique du groupe de langues slaves du Nord-Ouest (bas-sorabe, haut-sorabe, tchèque, slovaque, polonais) étendu au groupe slave du Sud-Ouest (slovène, croate), système confronté avec celui du russe, témoin des langues slaves de l'Est. PROLEGOMENES Les travaux que nous présentons sont motivés par une série de recherches qui, cumulées les unes aux autres, nous ont menés petit à petit vers une meilleure compréhension du système linguistique slave dans ses dimensions cumulées diachronique et synchronique. C'est dans un premier temps l'expérience de l'analyse automatique de la langue tchèque (textes médicaux, scientifiques et techniques actuels) par des techniques heuristiques déterministes basées sur une reconnaissance de formes linguistiques (analyse sans dictionnaire) qui fait apparaître la calculabilité du tchèque. Ensuite, l'enseignement de la grammaire historique du tchèque, essentiellement de son évolution phonologique, a conduit à considérer l'évolution des langues slaves du Nord-Ouest et les traits qui les distinguent au fur et à mesure les unes des autres. Sur cette base, c'est la comparaison entre elles, au niveau synchronique, qui permet d'élaborer une calculabilité relative de chacune de ces langues pour un certain nombre de phénomènes. Dès lors, nous avions suffisamment d'éléments pour aborder une définition extensive du système linguistique slave. La diversité des phénomènes au sein des langues slaves du Nord-Ouest, grâce notamment aux sorabes qui apportent un duel complet et les temps simples du passé (imparfait et aoriste), fait que le slovène, pris en considération ultérieurement, s'est « glissé » dans la matrice systémique élaborée (et dans les interfaces homme - machine afférents, par exemple dans nos bases de données) sans le * Adresse de l'auteur : INALCO, 65, rue des Grands Moulins, 75013 Paris, France. Mél : patrice. pognan@gmail.com ; ** Adresse de l'auteur : UFAL MFF UK, Malostranské nâmésti 25, CZ-11800, Prague, République tchèque. Mél : panevova@ufal.mff.cuni.cz moindre aménagement de cette dernière. Seule la forme d'un futur périphrastique sur la base du participe passé actif (ppa) [bom potoval je voyagerai] a été renforcée à côté du polonais où cette forme apparaît en parallèle avec la forme munie d'un infinitif, la forme avec ppa ayant depuis longtemps disparu en tchèque et en slovaque. Ayant introduit le slovène dans nos travaux, la prise en compte du croate est venue naturellement. Cet ensemble de langues que nous dénommons, à la suite de Starostin, langues slaves de l'Ouest a la caractéristique d'être - par hasard - l'ensemble des langues slaves écrites en caractères latins et appartenant désormais toutes à l'Union européenne. FINALITÉ DE CETTE RECHERCHE La génération automatique de lexèmes pour chacune des langues slaves de l'Ouest considérées à partir d'une racine commune vieux-slave ou supposée proto-slave permet de vérifier la calculabilité du système diachronique slave de l'Ouest, c'est-à-dire de vérifier la calculabilité de chacun des phénomènes connus de la grammaire historique et d'en apprécier les conditions de déclenchement. Nous débutons seulement l'appréciation de l'extension des phénomènes, absolue (nombre de racines concernées) et relative (pourcentage d'exception). Par contre, nous avons déjà vérifié par le calcul de l'ensemble des phénomènes phonologiques mis en jeu l'absolue nécessité de respecter scrupuleusement l'ordre chronologique dans lequel ces phénomènes sont donnés par les spécialistes de la grammaire historique. Dans le cas contraire, le programme de génération produit des erreurs ou des résultats aberrants. Ce programme permet donc de vérifier la validité des lois phonologiques slaves et par conséquent de rendre plus précises les caractéristiques de la calculabilité. Ces résultats en diachronie permettent, par leur prise en compte en synchronie, d'améliorer l'efficacité des analyses automatiques. Ces résultats permettent aussi une appropriation plus facile d'une langue ou du groupe de langues par la compréhension intime du système linguistique slave. Nous en usons largement dans nos cours de licence et de master de langue et de grammaire tchèques à l'INALCO et à la Sorbonne. C'est pourquoi nous insisterons dans le présent article sur l'utilisation pédagogique des résultats de cette recherche qui viennent en plus d'autres modes de présentation du multilinguisme slave basés, eux-aussi, sur le système linguistique. LE SYSTÈME LINGUISTIQUE SLAVE Nous donnerons ici les caractéristiques principales des langues slaves, tant dans la diachronie que la synchronie. Il s'agit, en quelque sorte, de l'écrasement de l'espace-temps en une présentation maximale de tous les phénomènes, historiques ou contemporains. En d'autres termes, c'est la dimension la plus large du système qu'il convient d'enseigner et d'offrir à l'aide de divers outils dont des outils de présentation. Les langues slaves sont des langues indo-européennes marquées par une flexion externe, c'est-à-dire avec des désinences en fin de mot qui donnent la fonction (sauf en ce qui concerne le bulgare et le macédonien, devenues des langues isolantes). Elles possèdent trois genres, masculin, féminin et neutre, ainsi que trois sous-genres masculins qui se sont développés dans le temps: masculin humain, masculin animal et masculin inanimé. On peut trouver également des compromis avec deux sous-genres où le masculin humain et le masculin animal sont regroupés en un seul masculin animé (comme en tchèque) face à un masculin inanimé. Depuis des temps immémoriaux, les langues slaves ont trois nombres (singulier, duel et pluriel) et sept cas (nominatif, génitif, datif, accusatif, vocatif, locatif et instrumental). En dehors de l'aspect, quasiment définitoire des langues slaves, celles-ci possèdent des temps simples du passé (imparfait et aoriste) et des temps composés (passé composé, plus que parfait, conditionnel, futur à base de passé,...). Le duel reste vivant en slovène et dans les langues sorabes. Dans des langues comme le tchèque, la présence du duel permet d'appréhender globalement les quelques termes qui l'utilisent encore et qui possèdent en plus un pluriel appliqué à d'autres significations que celles afférentes à des organes ou parties du corps. Le haut et le bas-sorabe conservent encore les temps simples du passé, aoriste et imparfait. a. expression du système linguistique par des interfaces homme-machine Nos bases de données pour les langues slaves reflètent l'intégralité du système linguistique et chaque langue vient s'inscrire dans ce cadre général. Nous donnerons ci-dessous l'exemple du lexème verbal pour la formation du passé composé, du conditionnel,. en ce qui concerne le tchèque, le slovaque et le slovène. On remarque pour le tchèque l'absence de duel et l'opposition masculin animé / masculin inanimé. Les formes de pluriel possèdent des désinences (formes courtes) qui distinguent les genres (« i » pour le masculin animé, « a » pour le neutre et « y » pour le féminin et le masculin inanimé. Par contre, le slovène possède le duel, mais ne présente qu'un masculin unique. Les désinences sont plus ambiguës qu'en tchèque du fait de la présence du duel. En tchèque, il existe une ambiguïté naturelle entre féminin singulier et neutre pluriel (désinence en « a »). Cette ambiguïté demeure en slovène, mais il faut y rajouter le masculin du duel. Le féminin et le neutre du duel apportent en plus une ambiguïté avec le masculin pluriel (désinence en « i »). Le slovaque s'inscrit dans le même cadre que le tchèque, mais il ne différencie plus les formes de pluriel où « i » est la désinence des masculins animé et inanimé, du féminin et du neutre. présent i imparfait [ aoriste 11 participe passé actif passé composé | plus que parfait conditionnel | impératif | formes impersom ( participe passé actif singulier pluriel m. anime zarucoval m. animal m. inanimé zarucoval féminin zarucovala neutre zarucovalo m. humain m. animal m. inanimé féminin neutre m. animé zarucovalï m. animal m. inanimé zarucovalï féminin zarucovalï neutre zarucovalï Les extraits présentés ci-dessus montrent l'usage pédagogique que l'on peut faire de l'interface des bases de données. b. présentations (powerpoint) du système linguistique De la même manière, nous présenterons ci-dessous l'exemple de la comparaison de substantifs à déclinaison consonantique avec un augment. Nous prenons le modèle actif en tchèque, le modèle des « petits d'animaux » (kure, poulet) qui développe un augment en « t », autrefois en « nt ». Nous avons choisi le mot tchèque « tele » (veau), « celo » en haut-sorabe et « cielç » en polonais. L'ordonnancement des fiches en Powerpoint est totalement conservé dans l'interface des bases de données. La comparaison des différentes langues apportera des connaissances historiques supplémentaires. Ainsi, l'examen des trois langues permet-il de supposer que l'augment du pluriel a vraisemblablement toujours été dur « t ». Par contre, on apprend, grâce au haut-sorabe, que l'augment du duel est le même que celui du singulier. Par la comparaison avec le haut-sorabe et le polonais qui possèdent un segment mouillé au singulier et au duel, respectivement « ec » et « eci », on peut supposer - le tchèque étant une langue qui a beaucoup dépalatalisé - que le segment tchèque « et » est un segment originellement mouillé en « et' ». Enfin, la forme du mot en haut-sorabe et en polonais doit nous faire envisager une forme primitive tchèque où le « t » de « tele » était également mou. Déclinaison d'un substantif tchèque neutre à flexion consonantique tele (veau) singulier duel pluriel nominatif tel e tel at a génitif tel et e tel at datif tel et i tel at um accusatif tel e tel at a vocatif tel e tel at a locatif tel et i tel at ech instrumental tel et on tel at y Déclinaison du même substantif en haut-sorabe celo (veau) singulier duel pluriel nominatif cel o cel ec i cel at a génitif eel ec a cel ec ow cel at ow datif cel ec u cel ec omaj cel at am accusatif cel o cel ec i cel at a vocatif locatif cel ec u cel ec omaj cel at ach instrumental cel ec om cel ec omaj cel at ami Nous apprenons aussi par le polonais que le support vocalique de l'augment était à l'origine une nasale, demeurée en polonais. Déclinaison du même substantif en polonais cielç (veau) singulier duel pluriel nominatif ciel ç ciel çt a génitif ciel çci a ciel ^t datif ciel çci u ciel çt om accusatif ciel ç ciel çt a vocatif ciel ç ciel çt a locatif ciel çci u ciel çt ach instrumental ciel çci em ciel çt ami GÉNÉRATION AUTOMATIQUE DE LEXÈMES SLAVES À PARTIR DE LEURS RACINES HISTORIQUES a. l'évolution phonologique Nous avons abordé l'évolution phonologique des langues slaves de l'Ouest par l'intermédiaire de l'évolution du tchèque que nous connaissions le mieux et qui est divisée en trois périodes. La première d'entre elles concerne des phénomènes très importants communs à l'ensemble des langues slaves de l'Ouest. Plus on remonte les deuxième et troisième périodes, plus on se situe dans la différentiation de langues proches. Ainsi, la distance entre le tchèque et le slovaque est-elle donnée par les 7 derniers phénomènes. • Du protoslave à la fin du 10ème siècle : • Métathèse des liquides (évolution de: tort, tolt, tert, telt) • Contraction • Evolution des nasales • Disparition et vocalisation des jers • De la fin du 10ème siècle à la fin du 14ème siècle : • Passage g ^ h • Evolution du r mouillé en r • Transformations 'a ^ ë + 'u ^ i • Dépalatalisation • De la fin du 14ème siècle à la fin du 16ème siècle : • Transformation du « u long » en diphtongue: ù ^ ou • Contraction ie ^ i • Contraction uo ^ u • Changement aj ^ ej b. organisation du programme Le programme lit des racines, actuellement proposées sur liste, à terme par une interaction avec l'usager. Ces racines, extraites principalement du dictionnaire de Derksen, sont écrites en majuscules pour le cadre consonantique, en minuscules pour les voyelles. Avant de commencer ses traitements, le programme exécute quelques préparatifs : • les signes diacritiques non nécessaires, notamment sur la désinence, sont supprimés. • le programme compte le nombre de jers, vérifie leur rang pair ou impair et les marque en tant que jer dur ou jer mou. • il fournit la racine aménagée en caractères minuscules et réalise une première impression de contrôle. De même, après le traitement de la phonologie, le programme réalise encore quelques aménagements, dont la correspondance « w » (bas-sorabe, haut-sorabe, polonais) et « v » (tchèque, slovaque, slovène, croate) et la réécriture en cyrillique du russe et du serbe (cyrilliques différents). Le traitement lui-même suit scrupuleusement, comme nous l'avons souligné plus haut, l'enchaînement des phénomènes, mais doit les traiter de manière plus fine et plus structurée. En première période (jusqu'à la fin du 10ème siècle), ce sont les phénomènes les plus marquants et les plus décisifs qui sont traités : Après les métathèses en « e » et les métathèses en « o », c'est la contraction qui est étudiée. Le traitement des nasales est beaucoup plus délicat. Il montre, pour la nasale « q », la nécessité de prendre en compte dans les calculs les tons/accents du vieux slave : ton ascendant long, ton descendant long, voyelle non accentuée longue, ton ascendant bref, ton descendant bref, voyelle non accentuée brève, pour pouvoir obtenir une génération structurée et cohérente de la vocalisation de la nasale (cf. c2). Pour la nasale « ç » (cf. c3), c'est le contexte qui est déterminant. Le traitement des jers doit être catégorisé en suppression des jers impairs durs, vocalisation des jers pairs durs et des jers pairs mous distinguée dans 3 langues slaves, le russe, le bulgare et le macédonien. Les jers impairs mous ne disparaissent pas toujours sans laisser de trace comme les durs correspondants, mais produisent souvent une forme modifiée (plus ou moins palatalisée) de la consonne précédente, ce qui conduit à prendre en compte chaque type de consonne précédent un jer mou impair (nous y reviendrons plus bas). Les deuxième et troisième périodes sont traitées au sein du programme de manière bien moins complexe. La deuxième période (jusqu'à la fin du 14ème siècle) voit la transformation systématique de « g » en « h » en haut-sorabe, tchèque et slovaque, la transformation « a ^ ë » et « u ^ i » uniquement en tchèque, ce qui donne à cette langue un caractère particulier face à toutes les autres langues slaves. Le tchèque a beaucoup dépalatalisé les labiales et les dentales, se mettant ainsi dans une position intermédiaire entre les langues slaves du Nord-Ouest, toutes mouillées comme les langues slaves de l'Est et le slovène qui est très peu mouillé. La troisième période donne lieu à des phénomènes plus limités concernant essentiellement le tchèque : la diphtongaison « ù ^ ou », la contraction de « ie ^ i » et surtout la transformation du o long en diphtongue « uo », puis en u long « u ». Ces deux dernières transformations sont très utiles dans la reconnaissance automatique des emprunts en tchèque moderne. c. quelques exemples Nous souhaitons montrer par quelques exemples choisis l'usage qui peut être fait des résultats de ce programme pour la compréhension et l'assimilation du système slave, pour l'accès à un multilinguisme slave de l'Ouest. cl. métathèse Nous donnerons en premier un exemple de métathèse en « o » (GoLVa tête) avec un schéma montrant l'effet du phénomène sur les différentes langues : A partir de la racine « GoLVa », le russe construit par une vocalisation complète une forme particulière « GoLoVa » par l'application de la règle : (C) o {L | R} C = (C) o {L | R} o C Par contre, pour les autres langues, il y a une vraie métathèse avec inversion de la voyelle et de la liquide « l » ou « r » : (C) o {L | R} C = (C) {L | R} o C, soit une forme GLoVa à partir de laquelle on obtiendra les formes actuelles correctes par une ou plusieurs transformations: réécriture du « l dur » et du « w » pour le polonais. Dans le dessin ci-dessus, en allant de gauche à droite, on exerce une transformation de « g » à « h » et allant de haut en bas, une transformation de « o » à « a » ((C) o {L | R} C = (C) {L | R} a C), ce qui nous donne l'ensemble des formes voulues. On peut voir à chaque ligne de résultat le passage du programme dans un phénomène phonologique donné et la transformation effectuée sur les lexèmes des différentes langues: GoLVâ GoLVa g/h phënom v/w phénom cyrill + x russe polonais tchèque slovaque b_sorabe h_sorabe Slovène croate serbe golva golva golva golva golva golva golva golva golva russe polonais tchèque slovaque b_sorabe h_sorabe Slovène croate serbe golova glova glava glava glova gtova glava glava glava russe polonais tchèque slovaque b_sorabe h_sorabe Slovène croate serbe golova gtova h lava hlava gtova htova glava glava glava russe polonais tchèque slovaque b_sorabe h_sorabe Slovène croate serbe golova glowa hlava hlava glowa htowa glava glava glava russe polonais tchèque slovaque b_sorabe h_sorabe Slovène croate serbe ronoBa glowa hlava hlava glowa htowa glava glava maBa c2. vocalisation des nasales De manière identique, nous montrons ci-dessous le calcul effectué sur une nasale en « q » avec un accent ascendant long à partir de la racine « KqT-b » coin. Ce schéma fait apparaître deux opérations premières : celle qui forme le polonais et celle qui forme le slovaque. Toutes les autres langues du groupe sont générées sur la base du slovaque par une transformation appropriée. C'est notamment au niveau de la vocalisation de cette nasale que le slovène possède « o » face au « u » des autres langues slaves. Les résultats du programme font clairement apparaître le respect chronologique des opérations, ainsi la forme « ou » du tchèque n'apparaît qu'après une étape commune avec le slovaque en « ù » : KqT-b fon.jev rustina koren kçtfe fon.jev rustina ç i 3 kutt fon.jev rustina t / 0 kut fon.jev rustina û >=s ou kut fon. jev rustina cyrill + x KyT polstina cestina slovenst. dolnijuz hornijuz si ovin st. chorvat, srbstina kçtb kçtb kçtb kçtt kçtb kçtb kçtb kçtb polstina cestina slovenst. dolnijuz hornijuz slovinst. chorvat, srbstina kqh= kutb kütb kutb kutb kotb kutb kutb polstina cestina slovenst. dolnijuz hornijuz slovinst. chorvat, srbstina kqt kut kut kut kut kot kut kut polstina cestina slovenst. dolnijuz hornijuz slovinst. chorvat, srbstina kc^t kout kut kut kut kot kut kut polstina cestina slovenst. dolnijuz hornijuz slovinst. chorvat, srbstina k^t kout küt kut kut kot kut KyT c3. vocalisation des jers Le calcul des jers est relativement compliqué et il occupe une partie importante du programme. Nous donnons d'abord le schéma qui reflète la loi de Havlik qui permet d'expliquer la chute et la vocalisation des jers. Le programme mis en place a montré la nécessité de préciser la loi de HavHk en ce qui concerne les jers mous impairs qui, en fait, ne disparaissent pas toujours. La loi de HavHk stipule un comptage des jers (éléments de position vocalique dans une structure supposée consonne-voyelle-consonne-voyelle-... du vieux slave) à partir de la fin du mot. Les séries impaires sont dites faibles et sont censées disparaître (cela est vrai pour le jer dur: on le voit sur l'exemple précédent où le jer dur de fin de mot, donc de rang 1 disparaît sans laisser de trace) tandis que la série paire est vocalisée. Chaque langue slave vocalise suivant ses lois propres. Ainsi, seuls le russe, le macédonien et le bulgare spécialisent la vocalisation des deux jers: « e » pour le jer mou, « o » en russe et en macédonien pour le jer dur, le bulgare conservant le signe dur. Les autres langues slaves ne savent pas distinguer la nature du jer sous-jacent : le tchèque et le polonais ont « e » pour les deux jers, le croate « a ». La situation du slovène est compliquée du fait que cette langue vocalise le jer mou en « a » ou en « e » et le jer dur également en « a » ou en « e ». Le slovaque central (on distingue un slovaque occidental, central et oriental) est particulièrement complexe avec une vocalisation en « a », « e » ou « o ». Les jers mous en position impaire nécessitent un traitement approprié pour chaque combinaison consonne - jer mou. Nous donnons ci-dessous l'exemple de la combinaison « T-jer mou ». Le slovène durcit le « t mou », le tchèque a durci la majorité des labiales et dentales molles à des degrés divers: le «n » est certainement moins souvent dépalatalisé que « d » et « t' » (on le voit, par exemple, avec le paradigme de flexion nominale du féminin « pisen »). Pour t-jer mou, nous devrons rajouter un filtre pour le tchèque constitué des exceptions qui conservent la mouillure, par exemple « pout » pèlerinage (dérivé de chemin, route). PçTb fon. jev kofen #-2 tb fon. jev cyrill + x ruština polština čeština slovenšt. ciolnijuž horni_ Juž slovinšt. chorvat, srbština pçtb pçtb Pètb pçtb P#tb p#tb p#tb p#tb p#tb ruština polština čeština slovenšt. dolnijuž horni_ Juž slovinšt. chorvat, srbština pjatb piçtb pëtb pàtb pëtb pjetb petb petb petb ruština polština čeština slovenšt. dolnijuž horni_ Juž slovinšt. chorvat, srbština pjatb piçi pét pat' pëé pječ petb pet petb ruština polština čeština slovenšt. dolnijuž horní_ Juž slovinšt. chorvat, srbština pjatb piçc pét pàf pëÊ pječ pet pet pet ruština polština čeština slovenšt. dolnijuž horní_ Juž slovinšt. chorvat, srbština nflTb piçc pèt pàf pëS pječ pet pet ner Dans le résultat ci-dessus (calcul de la vocalisation de la nasale par rapport au contexte), la racine choisie se termine par « t-jer mou », ce qui permet de voir la disparition du jer ou la transformation subie (elle est forte dans l'ensemble polonais - sorabes). On remarquera la conservation de la nasale en polonais. c4. transformations de voyelles dures (a, u) en molles (e, i) Nous sommes ici dans un phénomène qui, bien qu'appartenant à la seconde période d'évolution phonologique ne concerne plus que le tchèque, donnant à cette langue une forme unique par rapport à toutes les autres langues slaves. Nous donnons un exemple de génération avec « duša » âme : Duša DuŠa fon. jev ruština polština čeština slovenšt dolnijuž hornijuž slovinšt. chorvat, srbština kofen duša duša duša duša duša duša duša duša duša fon. jev ruština polština čeština slovenšt dolnijuž hornijuž slovinšt chorvat, srbština a/u=>ë/i duša duša dušë duša duša duša duša duša duša fon. jev ruština polština čeština slovenšt dolnijuž hornijuž slovinšt. chorvat, srbština cyrill + x flyuja duša duše duša duša duša duša duša flyua Le tchèque transforme le contexte consonne molle - voyelle dure en consonne molle - voyelle molle. Historiquement, l'alternance de voyelles est « a - ë - e » et, de manière plus restreinte « u - i ». Actuellement, la seule alternance possible est « y -i ». Le programme respecte, ici aussi, l'ordre réel de l'évolution en ayant une étape en « ë » qui disparait, lorsque le tchèque refusera la présence d'une double mouillure (jed poison) contrairement au haut-sorabe qui la conserve (jëd). La disparition de mouillure est visible aussi pour « u » : « pluca » poumon en slovaque, « pljuca » en slovène, mais « plice » en tchèque. Nous avons présenté ici quelques exemples de génération qui nous semblaient bien indiqués pour montrer les implications pédagogiques dans l'enseignement des langues slaves que ce soit dans un milieu linguistique slave ou dans un milieu linguistique extérieur au monde slave. Pour assurer une vision complète des phénomènes examinés, nous devrons « revisiter » ce travail en partant aussi du point de vue de chacune des langues slaves concernées. Par exemple, vérifier les conditions de passage du « l dur » au « l barré » en polonais et en sorabe sera intéressant. COMPARAISON DE LANGUES SLAVES DEUX À DEUX Du travail actuel, nous tirons également des processus de comparaison des langues deux à deux dont nous donnerons des exemples dans la comparaison tchèque - slovène et tchèque - slovaque. a. comparaison tchèque - slovène Pour des raisons pratiques (enseignement, traitement automatique), cette comparaison se fait aux deux niveaux diachronique et synchronique. phénomène concerné slovène tchèque Evolution du « r » mouillé en « f / r » r r Non transformation de « a » en « é » stopnica stupnice Transformation de « u, ou » en « o » Transformation de « u, ü » allemands en « o » šolar alld: Schüler Transformation de « y, y, i, i » en « i » sin syn Metathese de « o » à « a » glava hlava Maintien du « g » en slovène Dépalatalisation radost radost Chute du « v » prothétique osa vosa Correspondance « se » - « sf » igrišče hrištč Certains phénomènes, notamment la transformation de « u » en « o » en slovène, doivent être revus de manière globale à la lumière des évolutions historiques. houba goba tchèque slovène tchèque slovène tchèque slovène "y, y, f T r r métathèse r ■V-" =5 0 r "y" - T" r ■y- ■ :• V r r métathèse "0" "a" r "dl, tl" ^Tr ■ff-rr "u, Û, (u ->) ou" =i "o" I7 "h" "h" r -u"=ï "o" r T "r" r "sf " 0 "se" r blbo"o" r "(û ■) ou" ^ "o" "(ë } e" "a" r "-t" 0 "-ti" r "o, u" =s "o'T -6" "o" r "i" < ■ "u" r "il" ■ : "o" r "l" (= "ij- r longueur =s 0 r "/)" ci 'a" f r depalatalïsaliort r "ê" < "e" r La présentation ci-dessus est extraite de notre base de données slovène. Elle met en évidence les éléments qui doivent être pris en compte pour un transfert automatique entre les deux langues ou pour expliquer à des apprenants la proximité des deux langues dès lors que l'on connaît les mécanismes du système. b. comparaison tchèque - slovaque Nous donnons ci-dessous deux tableaux différents des mêmes correspondances historiques entre tchèque et slovaque : phénomène phonologique concerné slovaque tchèque traduction Evolution du « r » mouillé en « r » rec rec « discours » Transformations de « a » en « ë » et ovea ovee « mouton » de « u » en « i » derrière une consonne molle pl'uca plice « poumons » Dépalatalisation hovorif hovorit « parler » Transformation de « u » en « ou » sud soud « tribunal » Contraction de « ie » en « i » miera mira « mesure » Contraction de « uo » issu de « 6 » vers «u» en tchèque et « ô » en slovaque pôvod pùvod « origine » Changement de « aj » vers « ej » au sein d'une syllabe naj- nej- préfixe du superlatif Ce dernier tableau va nous donner quelques éléments de conclusion. En effet, ce tableau réunit les traits de différentiation entre tchèque et slovaque, mais aussi il les organise en fonction de la chronologie de la phonologie historique et en termes de collatéralité. Les deux traits verticaux centraux, celui de gauche pour le slovaque, celui de droite pour le tchèque représentent la forme commune au tchèque et au slovaque jusqu'au moment où est intervenu une transformation. Si un tel tableau est utile pour l'apprentissage des deux langues concernées, il a aussi une autre vertu intéressante: il infirme le sentiment non fondé que le slovaque serait la « petite sœur » du tchèque ainsi que l'impression que le slovaque s'écarte volontairement du tchèque. Si cela est vrai dans les 30 ou 40 dernières années à un niveau lexical par un choix de mots ou de formes de mots qui « semblent plus slovaques », il n'en est rien au niveau de l'évolution des deux langues où sur 6 siècles et par 8 phénomènes phonologiques, c'est le tchèque qui s'est écarté de la plateforme commune du système linguistique tchécoslovaque... Bibliographie BARTOS, Jozef/Joseph GAGNAIRE (1972) Grammaire de la langue slovaque. Bratislava/Paris : Matica slovenska/Institut d'études slaves. BIELEC, Dana (1998) Polish: An Essential Grammar. Londres : Routledge. BLAZEK, Vaclav (2005) On the internal classification of Indo-European languages: survey. Linguistica ONLINE. http://www.phil.muni.cz/linguistica/art/blazek/bla-003.pdf. DECAUX, Étienne (1978) Leçons de grammaire polonaise. Paris : Institut d'études slaves. DERKSEN, Rick (2008) Etymological Dictionary of the Slavic Inherited Lexicon. Brill : Leiden. GRAPPIN, Henri (1963) Grammaire de la langue polonaise. Paris : Institut d'études slaves. HAVRÀNEK, Bohuslav/Alois JEDLICKA (1960) Ceskä mluvnice. Prague : SPN. HERRITY, Peter (2000) Slovene: a Comprehensive Grammar. Londres : Routledge. HOLUB, Josef/Frantisek KOPECNY (1952) Etymologicky slovnik jazyka ceského. Praha : SPN. JAMBOROVA-LEMAY, Diana (2003) Analyse automatique du slovaque. Étude approfondie du système linguistique slovaque et sa reconnaissance d'après la forme dans les textes scientifiques et techniques. Application au machinisme agricole. Thèse de doctorat. Paris : CERTAL-INALCO. JANAS, Pëtr (2011) Dolnosrbskä mluvnice. Prague : Karolinum. KOMAREK, Miroslav (1958) Historickä mluvnice ceskäI. Hläskoslovi. Prague : SPN. KOPECNY, Frantisek (1981) Zäkladnivseslovanskä slovnizäsoba. Prague : Academia. LAMPRECHT, Arnost/Dusan SLOSAR/Jaroslav BAUER (1986) Historickä mluvnice cestiny. Prague : Statni Pedagogické Nakladatelstvi. LECIC, Rada (2009) Osnove slovenskega jezika. Cerkno : Gaya. MACHEK, Vaclav (1997) Etymologicky slovnik jazyka ceského. Prague : Nakladatelstvi LN. MARES, Frantisek Vaclav (1999) Diachronische Phonologie des Ur- und Frühslavi-schen. Frankfurt am Main : Peter Lang. MARVAN, Jiri (2000) Jazykové milénium. Slovanskä kontrakce a jeji cesky zdroj. Prague : Academia. MAZON, André (1952) Grammaire de la langue tchèque. Paris : Institut d'Etudes Slaves. MEILLET, Antoine/André VAILLANT (1980) Grammaire de la langue serbo-croate. Paris : Champion. MESKANK, Timo (2001) Retrogradny slownik hornjoserbskeje rëce. Berlin : Mensch und Buch Verlag. MESKANK, Timo (2009) Aussagenstruktur im Sorbischen. Untersuchungen zur Syntax und Satzsemantik. Hamburg : Verlag Dr. Kovac. MISTRIK, Jozef (1983) Modernä slovencina. Bratislava : Slovenské Pedagogické Na-kladatelstvo. NAUGHTON, James (2006) Czech: An Essential Grammar. Londres : Routledge. PIENKOS, Elzbieta/Jerzy PIENKOS/Leon ZARÇBA/Jerzy DOBRZYNSKI (2001) Wielki slownik polsko-francuski - Grand dictionnaire polonais - français. 5 vol. Varsovie : Wiedza powszechna. PLESKALOVA, Jana (2001) Starä cestina pro nefilology. Brno : Filosoficka fakulta Masarykovy University. POGNAN, Patrice (1998) « Histoire de l'écriture et de l'orthographe tchèques. » Histoire, Epistémologie, Langage, 27-62. POGNAN, Patrice (2001) « Introduction aux systèmes d'écriture des langues slaves de l'Ouest (polonais, bas-sorabe, haut-sorabe, tchèque, slovaque). » Slavica occitania, 283-310. POGNAN, Patrice (2007) « Forme et fonction en analyse automatique du tchèque. Cal-culabilité des langues slaves de l'Ouest. » BULAG Les langues slaves et le français : approches formelles dans les études contrastives 32, 13-33. POGNAN, Patrice (2011) « Bases de données à pivot français pour l'étude lexicale et grammaticale des langues slaves. » Lingue e litterature romanze, 749-766. POGNAN, Patrice (sous presse) Langues slaves de l'Ouest, de la diachronie à la calcu-labilité. In : Actes du colloque international "Des langues collatérales en domaine slave". Paris : L'Harmattan. ROSPOND, Stanislaw (2000) Gramatyka historyczna jçzyka polskiego. Varsovie : Wydawnictwo Naukowe PWN. SCHUSTER-SEWC, Heinz (1984) Gramatika hornjoserbskeje reče. Bautzen : Nakladnistwo Domowina. SCHUSTER-SEWC, Heinz (à partir de 1983) Historisch-etymologisches Wörterbuch der ober- und niedersorbischen Sprache. Bautzen : Nakladnistwo Domowina. SCHUSTER-SEWC, Heinz (2000) Das Sorbische im slawischen Kontext. Bautzen : Nakladnistwo Domowina. SNOJ, Marko (2009) Slovenski etimološki slovar. Ljubljana : Inštitut za slovenski jezik Frana Ramovša. STAROSTA, Manfred (1999) Dolnoserbsko-nimski slownik. Bautzen : Nakladnistwo Domowina. TEŽAK, Stjepko (2000) Gramatika hrvatskoga jezika. Zagreb : Skolska knjiga. WROBEL, Henryk (2001) Gramatyka jçzyka polskiego. Cracovie : Od Nowa. ZAREMBA, Charles (2009) Éléments de grammaire historique du polonais. Paris : Institut d'Études Slaves. Résumé GÉNÉRATION AUTOMATIQUE DE LEXÈMES SLAVES À PARTIR DE LEURS RACINES HISTORIQUES : UNE DES BASES DE L'ENSEIGNEMENT MULTILINGUE DES LANGUES SLAVES DE L'OUEST Les travaux que nous présentons sont motivés par une série de recherches qui, cumulées les unes aux autres, nous ont menés petit à petit vers une meilleure compréhension du système linguistique slave dans ses dimensions cumulées diachronique et synchronique. C'est dans un premier temps l'expérience de l'analyse automatique de la langue tchèque (textes médicaux, scientifiques et techniques actuels) par des techniques heuristiques déterministes basées sur une reconnaissance de formes linguistiques (analyse sans dictionnaire) qui fait apparaître la calculabilité du tchèque. Ensuite, l'enseignement de la grammaire historique du tchèque, essentiellement de son évolution phonologique, a conduit à considérer l'évolution des langues slaves du Nord-Ouest et les traits qui les distinguent au fur et à mesure les unes des autres. Povzetek SAMODEJNO TVORJENJE SLOVANSKIH LEKSEMOV IZ NJIHOVIH HISTORIČNIH KORENOV: EDEN OD TEMELJEV ZA VEČJEZIČNO POUČEVANJE ZAHODNOSLOVANSKIH JEZIKOV Pričujoče besedilo je plod celega zapovrstja raziskav, ki postopoma vodijo k vse boljšemu razumevanju slovanskega jezikovnega sistema, in sicer v njegovih diahronih in sinhronih razsežnostih. V prvi fazi gre za eksperimentalno raziskavo avtomatske analize češčine (sodobna medicinska, znanstvena in tehnična besedila) s pomočjo hevrističnih metod, utemeljenih na prepoznavanju jezikovnih oblik (analiza brez slovarja), ki kaže možnosti za avtomatsko tvorjenje češčine. V nadaljevanju je spoznavanje češke historične slovnice, zlasti v njeni fonološki razsežnosti, pripeljalo do določenih ključnih ugotovitev v zvezi z razvojem severozahodnih slovanskih jezikov in sistemskimi lastnostmi, po katerih se ti med seboj razlikujejo.