Gazeta.pl Uniwersytet Warszawski Wydawnictwa Akademickie i Profesjonalne
Blog > Komentarze do wpisu
Kwantytatywne oblicze bloga.

Slang to język, który programowo przeciwstawia się ogólnie przyjętym normom i zasadom językowym. Z tego wynika, że twórcy slangu posiadają w pewnym stopniu świadomość zasad, którym się przeciwstawiają. Przyglądając się bliżej słowotwórstwu w tekstach blogów, spróbujemy zidentyfikować zasady, od których wyzwala się ten język. Szczególą uwagę poświęcimy tworzeniu nowych rzeczowników. Aby uzyskać w miarę obiektywny obraz języka blogów młodzieżowych zastosujemy nowoczesne narzędzia badań językoznawczych. Pewne charakterystyczne cechy języka można ująć liczbowo i porównywać. Można np zbadać jak różni się język blogów od języka tekstów literackich pod względem bogactwa słownictwa, użycia nowych słów, proporcji rzeczowników do przymiotników, itp. Wykorzystamy dwa duże zbiory tekstów, tzw korpusy: korpus blogów młodzieżowych obejmującym ok. 80 milionów słów z lat 2000-2005 oraz korpus tekstów literackich obejmującym ok. 80 milionów słów pochodzących głównie z literatury i prasy XX wieku publikowanej na Internecie. Porównania te przeprowadzimy metodami językoznawstwa korpusowego, przy użyciu narzędzia do badania korpusów tekstowych Culler. Użyjemy różnych wskaźników stylu, np. wskaźnika nasycenia treściowego tekstu: ilość słów gramatycznych przypadająca na słowa leksykalne. Wysokie nasycenie treściowe typowe jest dla języka rozpraw naukowych, natomiast w potocznym języku jest zazwyczaj niskie. Inne porównanie ilościowe to porównanie ilości form innych niż podstawowe przypadających na słowa odmiennych części mowy. Może ono posłużyć do wykrycia tendencji do upraszczania form gramatycznych.

 

Dr Elżbieta Dura - zajmuje się językoznawstwem komputerowym od 1995, zarówno w środowiskach uniwersyteckich, głównie na Uniwersytecie w Göteborgu oraz Wyższej Szkole w Skövde, jak i w ośrodkach badawczo-rozwojowych takich jak Lexware Labs w Göteborgu. Aktualnie uczestniczy w tworzeniu systemu wyszukiwania informacji w dziedzinie biomedycyny w projekcie naukowym obejmującym zarówno szwedzkie ośrodki uniwersyteckie jak i przedsiębiorstwa takie jak Astra-Zeneca, Ericsson, Volvo.

Jest jednym z twórców systemu automatycznej analizy tekstów szwedzkich Lexware Swedish Engine, który okazał się być najlepszym systemem dla szwedzkiego w automatycznej kategoryzacji dokumentów szwedzkiego parlamentu. Przekonanie, że badanie języka nie może być oparte na introspekcji skłoniło ją do zajęcia się narzędziami korpusowymi: zarówno badaniem języka w oparciu o korpus, jak i tworzeniem narzędzi korpusowych. Jest współtwórcą narzędzia do badania korpusów Culler (www.nla.se/culler).

University of Skövde   

 

piątek, 26 września 2008, annagumkowska

Polecane wpisy