Hans Goebl CDU 805.0:805.99-08 Salzburg UNA CLASSIFICAZIONE GERARCHICA DI DATI GEOLINGUISTICI TRATTI DALL' AIS. SAGGIO DI DIALETTOMETRIA DENDROGRAFICA Collaborazione informatica: Erasmus Langer (Universita Politecnica di Vienna)1 1. ALCUNI PRINCIPI DELLA CLASSIFICAZIONE GERARCHICA Lo strumento euristico classico della classificazione gerarchica e l'albero (chia­mato anche in modo piu specialistico: grafo arborescente). La struttura ramificata dell'albero con una molteplicita di foglie, ramoscelli erami rispetto alla radice unica -poli tra i quali si inserisce uno spazio di dipendenze gerarchiche ben articolate ­costituisce una rappresentazione metaforicamente molto valida per la descrizione dei risultati di qualsiasi processo evolutivo. Ora si sa che ogni evoluzione procede mediante ramificazioni, biforcazioni o frammentazioni consecutive e che nascono cosi vari raggruppamenti in classi (gruppi, unita ecc.), tra i quali esistono sempre de­terminate dipendenze o relazioni. La lista delle scienze che si sono avvalse dell'albero in quanto mezzo euristico e lunga: oltre la zoologia, lapaleontologia, la genetica e tante altre discipline biologiche figurano anche discipline antropiche e so­ciali, tra cui anche la linguistica. Enoto che l'albero genealogico viene adoperato in sede linguistica sin dai tempi di August SCHLEICHER (1863). L'uso dell'albero per scopi linguistici e sempre rimasto tuttavia alquanto problematico. In effetti, lo stru­mento euristico "albero" offre particolari condizioni di applicazione, che fino ad oggi non sono state sufficentemente discusse. E' cosi rimasta, tra la stragrande mag­gioranza dei linguisti, una piu o meno diffusa sfiducia rispetto all'albero. Cf. a que­sto proposito la buona documentazione storica di STEWART 1976. Oggi, con la comparsa di nuove possibilita euristiche (legate cioe all'uso genera­lizzato di computers per la costruzione di alberi genealogici in gran numero e di qualsiasi strutturazione), il dibattito al merita si e riaperto. 1.1. La generazione di alberi mediante algoritmi tassometrici La tassometria moderna (chiamata anche "Numerical Classification, Classifi­cation automatique, Analyse des donnees, Automatische Klassifikation" ecc.) di- Ringrazio cordialmente la dottoressa Adelaide Fiocchi-Baehr (Universita tli Salisburgo) della revisio­ne stilistica del mio testo italiano. spone ormai, nel suo arsenale metodico, di una folta serie di algoritmi classificatori destinati a generare, sempre in base a certe regole matematiche, strutture arbore­scenti ben definite. Nella manualistica tassometrica internazionale questi algoritmi vengono chiamati "Agglomerative Hierarchic Clustering Methods" (p. es. SNEATH/SOKAL 1973, 214 s.), (methodes de) "classification hierarchique" (p. es. CHANDON/PINSON 1981, 98 s.) o "Hierarchisch agglomerative Verfahren" (p. es. BOCK 1974, 356 s.). Siccome la stragrande maggioranza degli algoritmi dendro­grafici gerarchici descritti nei manuali tassometrici puo esser eseguita agevolmente mediante i cosiddetti "software packages" statistici (di diffusione internazionale e utilizzabili tanto nei grossi centri universitari di calcolo quanto con singoli "personal computers"), nulla si oppone alla sperimentazione massiccia di alberi genealogici di qualsiasi strutturazione in sede di geolinguistica. 1.2. Tanto per ricordare: l'inevitabile molteplicita dei procedimenti (e risultati) classificatori Per qualsiasi problema di classificazione non si da l'unicita di soluzioni classi­ficatorie. Ogni insieme di dati destinato ad essere classificato puo esserlo in varimo­di. II classificatore deve dunque effettuare una serie di scelte odi decisioni metodi­che, guidato in cio ovviamente dalle sue posizioni teoriche. Deve scegliere tra l'altro il procedimento classificatorio secondo la finalita intrinseca del suo proget­to (scartando eo ipso altri procedimenti apparentemente meno adatti) ed anche re­golare l'impostazione teorica dell'interpretazione finale dei risultati su presuppo­sti teorici da precisare in anticipo. Ogni classificazione rimane sempre, in quanto metodo euristico, l'umile ancella delle intenzioni teoriche del classificatore. Imi­tando la formula allitterativa ben nota di LASSWELL ("Who speaks what langua­ge...?")pare lecito crearne un'altra (con risonanze allitterative latine in qu-): "Quis facit qualem ordinem quot qualiumque classium quibus methodis ac per quales fi­nes?". Per ovvie ragioni di spazio questo articolo non contiene che il risultato iconico di una sola classificazione dendrografica. Essa estata scelta, a scopo illustrativo, tra tante altre generate durante la mia ultima "campagna" di dialettometria dendrografi­ca. In questi lavori mi sono avvalso della collaborazione efficace e preziosa del va­lente dottor Erasmus LANGER, docente al Politecnico di Vienna. Al dottor LAN­GER sono stati affidati i calcoli numerici (con SPSS -x) e -problema molto piu spinoso ancora -il disegno automatizzato (mediante stampante a raggi Laser) degli alberi (ciascuno con almeno 251 foglie e 250 ramificazioni). Che il dottor LANGER riceva in questa sede i miei piu sentiti ringraziamenti per la sua preziosa collabora­zione! 1.3. La logica della strutturazione degli alberi: binarieta e agglomerazione "dal basso in su" 1.3.1. L'albero famoso dello SCHLEICHER (1863) disponeva di ramifica­zioni tanto binarie quanto ternarie. In sede di tassometria le ramificazioni sono sem­pre binarie con esclusione di qualsiasi altra possibilita. Questa limitazione costitui­sce, ovviamente, un'idea/izzazione ossia riduzione non poco problematica rispetto alla realta spesso esuberante dell'evoluzione biologica o glottologica. 1.3.2. La generazione agglomerativa dell'albero comincia da-parte delle fo­glie, cioe "dal basso in su" (si veda la Fig. 1). Ad ogni foglia corrisponde uno degli N elementi classificabili. Da questi N elementi (o foglie) l'algoritmo di classificazione comincia coll'agglomerarne certuni, a seconda delle sue virtu matematiche, riducen­do cosi progressivamente (cioe con ogni agglomerazione o fusione binaria) il nume­ro degli elementi rimanenti ed ancora da agglomerare (o fondere tra di Ioro). Un al­bero con N foglie dispone, ad agglomerazione compiuta, di N-1 ramificazioni (o bi­forcazioni). Ciascuna delle ramificazioni "ha il comando" di due classi (gruppi, uni­ta, elementi ecc.) sottostanti, le quali, a seconda della loro posizione nella gerarchia dendrografica, dispongono di un diverso grado di eterogeneita interna (micro-, meso-, macro-gruppi). Piu le classi so no "in alt o", cioe vicine alla radice (si veda la Fig. 1), piu la loro eterogeneita interna ("intra-class-heterogeneity") e alta. Per fare un esempio (si veda di nuovo la Fig. 1): le classi dipendenti dalle ramificazioni 5 e 6 di­spongono di una eterogeneita interna minore di quelle sottostanti alle biforcazioni 1 e 2. Si osservi anche -sulla Fig. 1 -la freccia puntata in alto che indica la direzio­ne delle N-1 agglomerazioni. 1.4. Una volta di piu: l'orientamento complessivo del pensiero dialettometrico Di fronte ad alcuni equivoci e fraintendimenti relativi alla finalita primaria del pensiero dialettometrico, espressi soprattutto da alcuni dei miei amici italiani, riten­go utile ribadire qui due tra i principi elementari di qualsiasi impostazione dialetto­metrica: l. La dialettometria si applica soltanto ai dati di atlanti linguistici: "extra atlan­tes linguisticos nulla salus dialectometrica". 2. Alla dialettometria spetta, in quanto procedimento induttivo (che parte dal particolare per arrivare al generale), la considerazione complessiva dei dati di un atlante linguistico. Non va dimenticato pero che una considerazione complessiva senza indicazioni precise delle coordinate del pensiero di colui che pratica questa considerazione, non e possibile. Considerazione isolata di singole carte di un atlante linguistico o considerazio­ne comp/essiva di molte carte: si tratta di due facce di una sola medaglia. Non c'e la minima traccia di una qualsiasi concorrenza e contraddizione. Gia nello JABERG maturava, 67 anni or sono, l'idea di una considerazione complessiva dei dati della raccolta che stava allora preparando (AIS): "Fin d'ora la grande varieta dei limiti che presentano le nostre carte fa prevedere che non ci sara un'unica soluzione giu­sta sempre e dappertutto. Bisognera cominciare collo studio particolareggiato di og­ni carta ed elevarsi a grado a grado a sintesi piu alte." (JABERG 1923, 1191-1192). 2. BREVE DESCRIZIONE DELLA CATENA DIALETTOMETRICA UTILIZZATA 2.1. Misurazione dei dati originali tratti dall' AIS Per questo problema rimando ai miei lavori anteriori (1981, 352 s. 1982, 15 s.; 1984a 1, 31 s.; 1984b, 11 s.): la matrice dei dati ivi descritta equella qui utilizzata: volumi dell'AIS esauriti: I, II, IV. variabilita geolinguistica considerata rispettivamente misurata su scala nomina­le (politomica): variazione lessicale (ca. due terzi delle carte-AIS), variazio­ne morfo-sintattica (ca. un terzo delle carte-AIS) dimensioni delta matrice dei dati: N = 251 punti (o elementi)-AIS (con inclusione di un punto artificiale: P. 999 = italiano standard). p = 696 carte "di lavoro" (o attributi). 2.2. Dalla matrice dei dati alla matrice di similarita Tra queste due matrici si colloca la scelta (e l'applicazione consecutiva) dell'indice di similarita. Questa scelta costituisce un punto cruciale della catena classificatoria. Ne ho ampiamente descritto i problemi nei miei scritti dialettometrici anteriori (cf. p. es. GOEBL 1984a 1, 74 s.). L'indice qui utilizzato viene chiamato "Indice ponderato di identita" (IPI; in tedesco: "Gewichtender Identitatswert, GIW"). La sua particolarita matematica consiste, in breve, nell'attribuire, a tassati di piccola estensione geografica, un maggiore peso numerico rispetto a quelli piu estesi e considerati quindi come "banali", meno significativi ecc. Si capisce. subito che la ponderazione numerica dei tassati (o tipi lessicali) meno diffusi equivale ad una certa impostazione teorica in sede di geolinguistica, che d'altronde vanta non po­chi fautori tanto fra romanisti che germanisti, indoeuropeisti (glottologi) ed altri. Nell'abbreviazione IPI(l) (o GIW(l)) la cifra 1 indica il valore numerico del peso ammesso da me nella formula complessiva dell'IPI (o GIW). Non potendo appro­fondire l'argomento in questa sede, rimando alle mie pubblicazioni del 1983 (in te­desco: 12 ss.) e del 1987 (in francese: 70 ss.) dove il lettore interessato trovera una ampia discussione degli aspetti matematici e linguistici del problema. 2.3. Scelta dell'algoritmo di classificazione gerarchica Si tratta di nuovo, con questa scelta, di modellizzare la concezione linguistica dell'evoluzione dendrografica (meglio: dendrograficamente rappresentabile) dei dialetti in una formula matematica appositamente selezionata. A questo proposito riassumiamo brevemente i sommi capi dei rispettivi concetti dei linguisti. L'opinio communis ammette -non senza sfumature nei dettagli -che in una massa di dati geolinguistici inizialmente omogenei si siano operate, coll'andar del tempo, un cer­to numero di agglomerazioni o raggruppamenti (spesso chiamati, in modo semanti­camente erroneo: frammentazioni, fragmentations, Ausgliederungen ecc.) che por­tano allo stabilirsi di una gerarchia dialettale, della quale si vedono ancora oggi le tracce. A questa concezione che, oltre ad esistere in tante varianti, non epriva di assunzioni problematiche, famio eco non pochi algoritmi tassometrici, tra i quali, secondo le mie esperienze personali, gli algoritmi "complete linkage" e quello propo­sto da WARD sono molto validi per la ricerca geolinguistica. Qui viene adoperato, a mo' d'esempio, l'algoritmo "complete linkage". Per una descrizione dettagliata cf. GOEBL 1984a I, 172 e 1983, 17 s. o -molto meglio ancora -i capi rispettivi della letteratura manualistica: p. es. SNEATH/SOKAL 1973, 216 s. (inglese); BOCK 1974, 382 s. (tedesco) e CHANDON/PINSON 1982, 106 s. (francese). Riassumiamo schematicamente l'articolazione della catena dialettometrica utilizzata: Matrice dei dati Output ~(alberi, listings) 2° momento di scelta: algoritmo dendrografico L'output di un'analisi dendrografica comprende, a prescindere dal disegno dell'albero genealogico, anche lunghe liste numeriche coi valori delle N-1 fusioni adoperate, in modo tale che il classificatore possa controllare la genesi dell'albero nei piu minuti dettagli. La riproduzione tanto dell'albero (con tutte le 251 foglie e le 250 ramificazioni) quanto dei "listings" attinentivi epraticamente impossibile per motivi di spazio. Qui ci contentiamo della presentazione di un disegno mediamente semplificato dell'albero calcolato (Fig. 1) e della sua trasposizione (cioe spazializ­zazione) ne/la rete dell'AIS (Fig. 2). 3. INTERPRETAZIONE LINGUISTICA DELLE FIGO. 1E2 Tra le molte possibilita d'interpretazione linguistica di classificazioni dendro­grafiche spiccano le ipotesi geolinguistica (e sincronica) e quella glottocronologica (e diacronica). 3.1. Interpretazione geolinguistica delle Fig. 1 e 2 La Fig. 1 contiene l'albero al rovescio: la chioma verso il basso e la radice in alto. Mentre l'agglomerazione dell'albero comincia al livello delle N foglie, l'interpretazione dell'albero deve farsi in senso inverso: dall'alto in basso. 1 ra­mi piu grossi, vidni alla radice, sono i piu interessanti. Sulla Fig. 1 sono contrasse­gnati colle cifre 1-6. Ogni albero gerarchico contiene diversi livelli di astrazione o ­in termini fotografici -di risoluzione granulosa. Una risoluzione (molto grossola­na) dell'intera rete-AIS in soli sei gruppi sarebbe utile, ma gioverebbe poco agli scopi illustrativi di questo articolo. Abbiamo dunque scelto un livello medio di riso­luzione in 25 classi (gruppi, unita ecc.), contrassegnata ciascuna dalle lettere A-Y. L'interpretazione geolinguistica dell'albero diventa cosi molto piu agevole. 11 nostro proposito edi far vedere l'ammirevole precisione e compattezza, con cui ven­gono delineate, sulla Fig. 2, le aree dialettali dell'Alta Italia e della Ladinia intra alpina. Sulle Fig. 1 e 2 si osservino soprattutto: 1. in una prospettiva piu grossolana: la compattezza colla quale saltano fuori i cinque grandi complessi (macro-gruppi) dialettali seguenti: a. Ladinia occidentale e centrale b. Piemonte-Aosta c. Veneto-Friuli-Trentino d. Liguria-Toscana-Emilia-Romagna-Marche e. Lombardia-Svizzera italiana. 2. in una prospettiva piu dettagliata: la plausibilitit della corologia (o corematica)2 dei 25 gruppi (o coremi) considerati. In linea di massima si tratta di suddivisioni corologiche ben conosdute: A-B Bipartizione della Ladinia grigionese. C Agglomerazione dei punti-AIS della Ladinia centrale (ad esclusione del P. 316, Cortina d 'Ampezzo, piuttosto cadorino dal punt o di vista intra-linguistico) e affiliazione di questa classe al ramo grigionese. Ne derivano fortissimi argomenti a f avore della concezione ascoliana dell'"unitit ( = classe) ladina". D-F La gerarchia dell'albero d