Habitat Grup Baix Emporda

Galicia espallada

Unha recolleita da cultura galega

Literatura, historia, arte, música, gastronomía, galeguismo, tradicións, lendas, costumes, emigración

Á memoria de Manuela Viaño (1929-2013)

   

O Tesouro informatizado da Lingua Galega (TILGA)

 

Once millóns de palabras galegas están recollidas no Tesouro Informatizado da Lingua Galega, un traballo colosal feito polo Instituto da Lingua Galega (cuxo director é Antón Santamarina) e é froito dun convenio do ILG coa Dirección Xeral de Política lingüística da Xunta de Galicia desde 1986.

Esta base de datos está constituída por escolmas de distintos textos publicados dende 1612 á actualidade (revistas, libros...) e  pode consultarse en Internet no enderezo :  https://ti.usc.es/TILG/

Tesouro informatizado da Lingua Galega - Diccionario de diccionarios

Tesouro informatizado da lingua galega moderna.

Este traballo empezou en 1985. Foi ideado por Antón Santamarina (quen fixo a máxima recompilación da lingua galega no seu "Diccionario de diccionarios"  en CD Rom  ). Desenvolveu as ferramentas informáticas para concordar e lematizar Arturo Reguera. Colaboraron moitos bolseiros (na axuda definitiva que será dentro duns días irá a lista completa). Imaxin|software desenvolveu a ferramenta para que se poida ver por internet. E a Consellería de Educación (hoxe de Educación e Ordenación Universitaria) a través da Dirección Xeral de Política Lingüística forneceu o financiamento necesario desde 1986. 

Esta base de datos contén textos do galego moderno, desde 1612 á actualidade. Ten 11.409.358 rexistros e arredor de 90 mil lemas. Está pensada como corpus para a fabricación dun diccionario pero seguramente a súa utilidade non se esgota niso.

 Para investigadores e curiosos da nosa lingua, ábrese ao público. É un corpus xa bastante representativo pero non pechado aínda. Na medida en que se dispoña de forza e medios seguirase engadindo textos.

O que contén a base de datos 


NB 1. Hai palabras gramaticais de frecuencia altísima (o, a, os, que, de etc.) que só se lematizaron parcialmente. Representan case un tercio das palabras dunha obra.

NB 2. Tampouco se lematizaron os nomes propios opacos. O Miño da secuencia demarcada como <1río *Miño1> non aparece (pero si o Gafos de <1río dos Gafos>). Coa lista de nomes propios farase no seu día unha base de datos á parte.

Polo de agora só se proporcionan as ferramentas de busca por lema e por palabra. Buscas por lema: Baixo un lema aparecen tódalas formas flexivas dunha palabra: canto, cantas…, cantei, cantaches…, cantase, cantases… aparecen debaixo do lema CANTAR. Branco, branca, brancos… branquiño aparecen debaixo de BRANCO. Tamén reducimos a un lema as variantes fonéticas e morfolóxicas dunha mesma palabra; así, baixo REPARAR aparecen arreparar, arroparar, raparar, reparar, roparar en infinitivo ou nunha forma flexiva; baixo a forma canónica INGUA aparecen ingua, éngola, engua, ingle, íngoa, íngola, ingre e ingue (cos seus plurais, de habelos). 

NB 3. Hai palabras que teñen unha frecuencia altísima; por ex. o verbo VIR ten en todo o corpus 42.363 ocorrencias; neste caso a consulta non devolve resultados; ten que refinar a busca restrinxíndoa a un período de anos ou escollendo por autores, por obras ou por categorías.

NB 4. Para a lematización usouse como ferramenta unha gramática baseada no VOLGA (Vocabulario ortográfico da lingua galega, tamén do ILG). No VOLG hai moitos casos en que se remite dunha variante ‘condenada’ para outra ‘canonizada’ (por ex. no VOLGA ten entrada CALAVEIRA pero dise que a voz correcta é CAVEIRA); nestes casos hai dous (ou máis) lemas en lugar do lema único como vimos en INGUA.

NB 5. É probable que o consultante teña dúbidas sobre a variante que os fabricantes desta base escolleron como lema. Moitos galegos saben que o cast. “avellano” se di ABELAIRA, ABELEIRA e aínda de outros xeitos. Pode facer (neste caso) dúas cousas: (a) escribir na caixa do lema abel* e o programa devólvelle unha lista de lemas; clique nun dos que lle ofreza; (b) escribir na caixa do lema abel?ira e o programa devólvelle o lema atopado; (c) ou ben escribir na caixa de consulta por palabras unha forma que teña probabilidades de figurar como ‘palabra’ e xa lle indica un lema baixo o que buscar.

Buscas por palabra. Nesta opción o programa busca calquera conxunto de letras que na escrita teñen polo menos un espacio en branco á dereita ou á esquerda (ou dos dous lados). Se busca casas só aparecerán os contextos en que figura esa palabra exacta (pero non os que conteñen casa ou casiña).

NB 6. Pode usar tamén os dous comodíns que acabamos de mencionar na busca por lemas en NB 5: o * (ex.: mosca*) no remate dunha palabra para ‘un un ou máis caracteres’; ou o ? (ex.: b?ilar) en calquera lugar dunha palabra para indicar ‘un carácter calquera’. Se hai coincidencias (ou é posible) abrirase unha ventá cunha lista para que escolla.

Buscar segunda palabra (ademais do lema ou da palabra). Hai palabras que teñen diferentes graos de solidariedade e adoitan saír contiguas ou próximas. O programa permite estas buscas. Escriba, por exemplo, na caixiña de lema farrapo e na de segunda palabra gaita e prema buscar.

NB 7. Pode haber lemas homónimos discriminados cunha nota á dereita; por ex. hai varios mallar. Se busca lema mallar e segunda palabra centeo non lle devolve resultados (porque non escribiu o lema completo). Probe a escribir mallar* e escolla o mallar correcto. Poña na caixa de segunda palabra centeo e prema buscar.

Refinar a busca. Nos dous casos (busca por lema e por palabra) pódese, e ás veces é necesario como se indicou en NB 3, restrinxir a busca ou ben a un período de anos ou ben a uns autores/obras determinados. Para a busca por anos non se necesita máis que escribir o lema ou a palabra que se busca, escoller nas caixas correspondentes o ano de inicio e o de remate, e clicar buscar; para a busca por autores ou obras, escribir o lema ou a palabra que se busca, seleccionar os autores ou obras desexados, ir ata o final da táboa, clicar enviar a consulta, e clicar despois en buscar.

Buscas por categoría gramatical. Restrinxe as buscas a unha categoría determinada. Se alguén quere traballar por exemplo sobre os perfectos fortes galegos consultará os lemas de cada un dos verbos que teñen perfecto forte (p. ex. FACER, VIR, ESTAR etc.) e restrinxirá a busca (abrindo a ventá de opción de categoría) aos perfectos (e se quere tamén aos pluscuamperfectos e imperfectos de subxuntivo) seleccionando as persoas correspondentes. Teña en conta que son seis formas canónicas e seis variantes. Lembre ir ata o final da lista de categorías, clicar enviar a consulta, e clicar despois en buscar.


Antón Santamarina