ebook Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych - Maciej Ogrodniczuk

Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych

Książka powstała w wyniku badań lingwistyczno-informatycznych nad automatycznym dekodowaniem relacji referencyjnych w tekstach polskich. Autor przedstawia propozycję taksonomii relacji tego rodzaju i wykorzystuje ją w procesie budowy reprezentatywnego, ręcznie anotowanego korpusu zależności referencyjnych, który powstał na bazie tekstów Narodowego Korpusu Języka Polskiego. Dane korpusu używane są do wytrenowania kilku systemów do wykrywania wzmianek i koreferencji reprezentujących różne metodologie algorytmiczne – regułową, statystyczną, algorytm sita, głębokie sieci neuronowe – oraz integrujących bogate zasoby lingwistyczne i z zakresu wiedzy ogólnej: rozszerzenia formalnej gramatyki języka polskiego, dane słownika walencyjnego czy bazę wyrażeń omownych. Przetestowanych zostaje kilkaset cech wzmianek do wykrywania koreferencji oraz kilka konfiguracji sieci neuronowej. Powstaje także prototypowa konfiguracja metody wykrywania relacji agregacyjnych, kompozycyjnych i predykatywnych. Formalna ewaluacja powstałych systemów wykazuje wyniki porównywalne z systemami tego typu dla innych języków. The book features the findings of computational linguistics research on the automatic decoding of referential relations in Polish texts. The author presents a specific definition of coreference, constructs a representative corpus of coreference using texts from the National Corpus of Polish, implements systems for detecting mentions and coreferences, and evaluates them, achieving results comparable with systems of this kind for other languages.