Home Přihlásit se Registrace

Výzkumný záměr

Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století
(AV0Z90610521, 2005–2011)


Strategickým cílem výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005-2011), realizovaného v Ústavu pro jazyk český AV ČR, v. v. i., byla komplexní příprava na tvorbu moderního výkladového slovníku. Na realizaci tohoto jedinečného projektu se podílelo zejména oddělení současné lexikologie a lexikografie a úsek digitalizace materiálu ve spolupráci s řadou dalších pracovišť.

Rozsáhlá spolupráce byla navázána především s Centrem zpracování přirozeného jazyka FI MU v Brně. Dále jsme spolupracovali s Ústavem teoretické a komputační lingvistiky FF UK a s Ústavem formální a aplikované lingvistiky MFF UK. Zvláště významným partnerem byl též Ústav Českého národního korpusu při FF UK, spravující rozsáhlé textové korpusy.

Výzkumný záměr naplňoval celkovou strategii ÚJČ AV ČR, v. v. i., budovat a postupně zpřístupňovat datovou základnu slovního bohatství českého jazyka tak, aby bylo možné jak její další rozšiřování, tak i optimální využití. Z tohoto pohledu jsme usilovali o přípravu existujících primárních a sekundárních zdrojů lexikálních dat pro jejich další využití na nové technologické úrovni – konkrétně šlo o skenování a popis lexikálních sbírek (primárních zdrojů) a digitalizaci slovníků (sekundárních zdrojů), které na našem pracovišti postupně vznikaly v průběhu 20. století.

Od zahájení výzkumného záměru bylo těžištěm vědecké práce vytvoření lexikografické pracovní stanice (zpracovatelského softwaru) s názvem PRALED, která je specializována na shromažďování a další zpracovávání lexikálních dat. Na navržení a implementaci programu PRALED se podílelo zejména Centrum zpracování přirozeného jazyka FI MU v Brně (programátoři A. Horák, A. Rambousek, za ÚJČ - P. Žikovský). V letech 2005-2007 byla obsahová část lexikální databáze pojímána jako slovník s pracovním názvem LEXIKON 21 (pro podrobnější informace viz sborník z konference Slovko 2007 nazvaný Computer Treatment of Slavic and East European Languages. Bratislava: Tribun 2007; dílčí témata jsou obsažena též ve sborníku Lexikografie v kontextu informační společnosti. Praha: ÚJČ AV ČR, v. v. i., 2008). Od roku 2007 bylo pojetí obsahové náplně databáze změněno - bylo zahájeno budování rozsáhlé materiálové základny pro moderní výkladový slovník s názvem PRALEX (Pražský lexikon) jako databáze slov, slovních tvarů a slovních spojení češtiny 21. století, která sice je databází popisného typu, avšak integruje v sobě i některé rysy databází materiálových, zejména množství lexikograficky tříděných dokladů z korpusového materiálu. Dle zadání výzkumného záměru měla databáze PRALEX původně obsáhnout více než 100 000 lexikálních jednotek (slov, sousloví a frazémů, zkratek, vlastních jmen atp.); ke konci roku 2011 již čítala přes 210 000 záznamů (včetně samostatně uváděných variant). Z hlediska zastoupení slovních druhů a typů hesel je z tohoto celkového počtu přes 80 tisíc substantiv, téměř 50 tisíc adjektiv, kolem 30 tisíc sloves, přes 10 tisíc příslovcí, přes 15 tisíc vlastních jmen, téměř 10 tisíc frazémů, přes 2 tisíce zkratek/značek, tisíc podslovních částí. Podrobnější informace viz ve sborníku Česká a slovenská výkladová lexikografia na začiatku 21. storočia. Brno: Tribun Eu 2011.

Lexikální databáze PRALEX reprezentuje obrovský objem utříděného jazykového materiálu, popsaného a okomentovaného z různých aspektů; je určena pro vědecké účely, především pro další lexikografickou práci. Celek byl pojat jako přípravná fáze budoucího výkladového slovníku. Pro veřejnost byla koncem roku 2011 zpřístupněna demoverze, která obsahuje kolem 350 ukázkových hesel.

Oddělení současné lexikologie a lexikografie usilovalo ve spolupráci s úsekem digitalizace materiálu rovněž o vytvoření řady pomocných slovníkových databází představujících uživatelům dříve publikované slovníky, nyní převedené do elektronické podoby. Při jejich vytváření je ovšem třeba respektovat nejen autorská práva, ale též licenční práva a zájmy nakladatelů, a proto zpřístupnění jednotlivých děl bude mít určitá omezení a diference podle typu uživatele. Bude sloužit zejména pro vyhledávání konkrétních informací potřebných k vědeckým či jiným nekomerčním účelům.

V zájmu optimalizace jednotného vyhledávání byla sjednocena dosud vytvořená uživatelská prostředí (vyhledávače) různých elektronických podob slovníků a materiálových sbírek. Jednotícím prvkem se stala Databáze heslářů, která je dostupná z tohoto webového hnízda (http://lexiko.ujc.cas.cz/). Prvním krokem v tomto směru bylo propojení digitalizovaného lexikálního archivu ÚJČ AV ČR, v. v. i., s elektronickou podobou Příručního slovníku jazyka českého (http://bara.ujc.cas.cz/psjc/), které vzniklo v úseku digitalizace materiálu. Prostřednictvím této databáze lze rovněž vyhledávat v Slovníku spisovného jazyka českého (http://bara.ujc.cas.cz/ssjc/), v neologických sbírkách oddělení (v databázi Neomat, http://www.neologismy.cz) a pro interní potřeby také v slovnících neologismů. Samostatný vstup do jednotlivých slovníků a sbírek je možný také z uvedených webových adres.

Novým požadavkům je podřízeno též další budování materiálových sbírek oddělení současné lexikologie a lexikografie. V souladu s novými úkoly oddělení byla od r. 2006 neologická excerpce rozšířena o sledování projevů synchronní dynamiky lexikálního systému. Přistoupili jsme také k aktualizaci metodiky práce – mnohem aktivněji se využívají elektronické textové archivy (NEWTON) a internetové zdroje. Specifickým úkolem bylo zabezpečení kompatibility databáze neologického materiálu (Archiv 1, 202 000 záznamů) s novým programovým vybavením pracoviště. Materiálové sbírky byly převedeny do flexibilnějšího programu využívajícího internetové technologie (excerpční program EDA). Díky tomu bylo možné velkou část neologických materiálových sbírek zpřístupnit veřejnosti (Neomat). Jako součást rozsáhlé přípravy na tvorbu výkladového slovníku je zamýšlena též databáze ODE (Oborová databáze excerpční), která slouží pro shromažďování materiálu z odborné slovní zásoby a pro jeho předběžné zpracování v kontextu všeobecného výkladového slovníku.

Prezentace vědeckých výsledků pro širší veřejnost si žádá patřičnou pozornost, a proto vedle už existujících webových stránek oddělení současné lexikologie a lexikografie bylo zprovozněno toto webové hnízdo, které má sloužit především k popularizaci vědy.

Výzkumný záměr Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století směřoval ve své komplexnosti k vytvoření obsáhlého souboru lingvistických, zejména pak lexikálních dat, jejichž další využití bude mít jak vědecko–poznávací a dokumentační, tak i národně a kulturně reprezentativní význam. V jeho rámci se v oblasti lexikologie a lexikografie vytvářejí metodické, metodologické a technologické předpoklady k moderní výzkumné práci, zaměřené na přípravu nového výkladového slovníku češtiny. Splnění tohoto záměru přineslo nejen specializované vědecké výsledky (databázi informací o české slovní zásobě), ale rovněž významně přispělo k lepší informovanosti naší i zahraniční veřejnosti o české lexikografické tradici i současném výzkumu slovní zásoby.

 

2005-2023 © Ústav pro jazyk český AV ČR, v. v. i.  |  Design © VR atelier  |  Programming © e-Assistance.cz
Webové hnízdo LEXIKO vzniklo v rámci výzkumného záměru AV0Z90610521 Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (2005–2011).
Verze: 1.10.0, poslední úprava: 05.08.2021