ArtsSemNet: ДВУЯЗЫЧНАЯ СЕМАНТИЧЕСКАЯ СЕТЬ ДЛЯ РУССКОЙ И БОЛГАРСКОЙ ТЕРМИНОЛОГИЙ ИЗОБРАЗИТЕЛЬНОГО ИСКУССТВА

 

Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков***

 

* Великотырновский университет имени Святых Кирилла и Мефодия,

Велико-Тырново, Р. Болгария

** Софийский университет  имени Святого Климента Охридского, София, Р. Болгария

*** Калифорнийский университет, Беркли, США

 

 

ArtsSemNet: A BILINGUAL SEMANTIC NETWORK FOR BULGARIAN AND RUSSIAN FINE ARTS TERMINOLOGY

Ivanka Y. Atanassova, Svetlin I. Nakov, Preslav I. Nakov

Abstract: An electronic lexical reference system ArtsSemNet, similar to WordNet, for terminology of fine arts is presented. The terms (over 2,600 for each language) are annotated with complete dictionary definitions and organized into a semantic network with two parallel versions: Bulgarian and Russian. Five important lexical relations are defined: polysemy, synonymy, homonymy, antonymy and hyponymy, the latter serving as the basis of the hierarchical organization of the ontology. In addition, a specialized browser is created thus providing an intuitive interface to query and navigate through the network.

Keywords: semantic network, ontology, terminology, polysemy, hyponymy, homonymy, antonymy, synonymy.

 

 

1. Введение

Повсеместное наступление вычислительных машин оказало большое влияние на со­вре­мен­­ное развитие словарей. Более чем десятилетие назад большинство ком­пью­тер­­но гра­мот­ных людей забыло о досадных поисках в больших бумажных словарях и поль­­зуется их ком­пью­терными эквивалентами. Несмотря на то, что первые ком­пью­тер­­ные словари во многом усту­пали классическим, в их потенциальных возмож­но­стях никто не сомневался. Еще в 1992 го­ду составители словаря Oxford English Dictionary [11] решились инвестировать $13,5 мил­лио­нов долларов, чтобы в течение 5 лет по­­строить электронную версию. В то время вы­яс­ни­лось, что электронный вариант сло­­варя предлагает на много больше возможностей. Поя­ви­лись еще тезаурусы (напр. Roget’s thesaurus [12]), которые предоставляют информацию о си­но­нимах данного тер­ми­на. Потом лексикографы стали их комбинировать, в резултате чего по­явились семан­ти­­ческие сети (напр. WordNet), которые в терминологии искусственного ин­теллекта ино­гда называют онтологиями. Они уже включали не только толкования слов и их си­­нонимы, но и антонимы, гипонимы и др.

Таким образом работали и мы – начали с электронных словарей, а потом свя­за­ли их в полную семантическую сеть посредством терминологических отношений.

2. Семантические сети

WordNet. WordNet (в переводе ‘сеть слов’) разработан психолингвистами из Ла­бо­­ратории когнитивной науки в университете Принстон, США как вычислительная мо­­дель человеческой лексической памяти. С течением времени проект эволюировал, пре­­вращаясь в лексическую справочную систему с тысячами слов с со­от­вет­ст­вую­щи­ми значениями, организованными в семантическую сеть. Словоформы (лексемы) в WordNet объе­ди­ня­­ют­ся во мно­же­ст­ва, на­зы­­ваемые синсетами (от англ. synset, что яв­ля­­ется сокращением от ‘синонимического множества’). Синсет пред­ставляет собой объе­­­ди­­­­нение слова, обо­з­­на­чающего одно понятие, со зна­че­ниями других слов (си­но­ни­­мов), чьи лек­си­­чес­кие зна­че­ния вместе фор­ми­ру­ют лек­си­чес­кое значение самого сло­­ва [6;9]. Много­знач­ные слова участвуют в нескольких различных синсетах, при­чем каждая от­дель­ная семема включается только в один синсет. Син­сеты связаны меж­­­ду со­бой ие­рар­хи­чес­ки согласно ре­ляции гипонимии (с проистекающим оттуда уна­­­­­сле­до­­ва­ни­ем) и реляции меронимии, а дальше раз­гра­ничиваются по раз­лич­ным ка­­­чествам и свой­ст­вам. В WordNet (вариант 1.7.1) уже включили 111 223 синсетов – 75 804 имен существительных, 13 214 глаголов, 18 576 имен прилагательных и 3 629 на­­речий. Проект активен и работа над ним про­дол­жается [14].

EuroWordNet. Вскоре после своего появления WordNet вырос как один из важ­ней­ших ресурсов для обработки естественного языка, машинного перевода, автома­ти­ческого определения конкретного значения полисемантичного термина, извлече­ния информации из текста, извлечения документов в ответ на запрос потребителя и др. В то время как американский WordNet развивался, в Европе началась работа над EuroWordNet для 7 европейских языков, а именно [13]: голландский, итальянский, ис­­пан­ский, немецкий, французский, чешский и эстонский. Каждая часть EuroWordNet по­строена на основе специфических для конкретного языка синсетов, а все вместе свя­заны между собой общим индексом на основе WordNet, так что воз­мож­но пе­ре­хо­дить между близкими по значению словами различных языков во всех направле­ни­ях. Хотя проект EuroWordNet [5] был окончен в 1999 (в отличие от WordNet, который не­прерывно раз­вивается), продолжается работа над различными европейскими язы­ка­ми, а имен­но: шведский, норвежский, датский, греческий, пор­ту­галь­ский, баск­ский, каталон­ский, румынский, литовский, русский, болгарский и сло­вен­ский. Позже бы­ла создана Гло­бальная ассоциация WordNet, чтобы помогать уче­ным в дальнейших усилиях в том направлении не только для европейских языков, но и для других современных язы­ков.

        MikroKosmos. Конечно, WordNet и его иноязычные варианты не являются един­ст­вен­ными существенными разработками в этой области. Исторически интересна он­то­логия MikroKosmos [7;8], ко­торая была разработана для машинного перевода, од­на­ко в на­сто­я­щее время не используется. Она содержит всего 5 000 терминов, но очень богата от­­­но­шениями – около 30, вклю­чая IS-A (гипонимию), PART-OF (меронимию), INSTRUMENT-OF (инструмент), LOC-OF (местоположение) и др.

        CYC. Однако, далеко не все онтологии богаты лексическими отношениями. В ис­кусственном интеллекте, например, важнее всего знание о мире (факты), а чтобы опи­сать его вполне хватит одной гипонимии. Так, например CYC [4], самая большая он­­­то­ло­гия, содержащая около 300 000 терминов и около 3 миллионов фактов о них, соз­дание которой заняло 600 человеко-лет, организована на основе только двух от­но­ше­ний: #$genls (подмножество-множество) и #$is-a (гипонимия) [4;10].

3. Лексические данные

В основе семантической сети лежит сос­та­вленный нами софтверный продукт для построения и поддержки компьютерных словарей – Компьютерный словарь тер­ми­нов изо­бра­зительного искусства (КСТИИ), включающий со­от­ветственно 2 644  рус­­ских и 2 900 бол­гар­ских лексических единиц (вместе с их толкованиями): одно­слов­­ных тер­минов и терминологических сло­во­со­четаний. [1].

Мы исследовали и полностью аннотировали (вручную, но при помощи ком­пью­тер­­ных техник) [1; 2] несколько важных терминологических отношений – по­ли­се­мию, омонимию, синонимию, антонимию и гипонимию. В результате получилась се­ман­­тическая сеть типа WordNet, иерархическая организация которой построена на ги­­понимии. К моменту изготовления этой статьи семантическая сеть содержит:

-   русские: 2 644 (в том числе абсолютные синонимы, дублеты и вариан­ты);

-   болгарские: 2 900 (в том числе абсолютные синонимы, дублеты и ва­ри­ан­ты).

- русские: 226  (с гиперонимом, включенным  в словарь) + 57 (с гиперонимом, отсут­ст­вую­щим в словаре);

- болгарские: 216 (с гиперонимом, включенным  в словарь) + 60 (с гиперо­ни­мом, отсут­ст­ву­ю­щим в словаре).

- русские: 134;

- болгарские: 157.

- русские: 458;

- болгарские: 483.

- русские: 114;

- болгарские: 136.

- русские: 6

- болгарские: 14.

Количество значений

1

2

3

4

5

6

7

Русские термины

2313

263

56

9

2

0

1

Болгарские термины

2571

273

49

4

2

1

0

Таблица № 1. Полисемия терминов в семантической сети.

4. Функциональное описание системы ArtsSemNet

Основная задача ArtsSemNet – помочь ученому-исследователю в его работе, пре­до­ставляя ему способ быстрого и легкого доступа к богатой лингвистической ин­фор­ма­ции о терминах изобразительного искусства. При введении конкретного термина ArtsSemNet дает информацию об его значениях (толкованиях), омонимах, синонимах (аб­солютных и относительных) и синонимических рядах, антонимах и антонимиичес­ких рядах, а также о гипонимических рядах, в которые входит термин (в качестве ги­по­­нима или гиперонима).

ArtsSemNet предлагает чистый и интуитивный потребительский интерфейс. По­тре­битель имеет возможность вводить термин в специальное текстовое поле, вы­би­рать язык (болгарский или русский), а также задавать различные критерии для по­ис­ка. Система визуализирует наличную информацию о заданном термине на соответ­ст­вую­щем языке, включающую:

-      различные значения (толкования) термина, последовательно извлекаемые с крас­­ной строки;

-      список омонимов;

-      синонимические ряды абсолютных синонимов, состоящие из разнокоренных и одно­ко­рен­ных терминов;

-      синонимические ряды от­носительных синонимов;

-      ан­тонимические ряды, в которые входит термин;

-      ги­понимические ряды, возглавляемые введенным термином-гиперонимом;

-      ги­понимические ряды, в которые входит введенный термин в качестве ги­по­нима.

Система предлагает несколько настроек. Потребитель может задавать дополни­тель­­ные условия работы: термин можно обнаруживать в основной форме по­да­чи или в другой подобной форме (например, по корню или префиксу); показывать или про­пус­­кать омонимы, синонимы и синонимические ряды, антонимы и антонимические ря­­ды, гипонимы и гипонимические ряды.

Толкования представляют собой текст, объясняющий значения термина на вы­бран­­ном языке. Значения полисемантичных терминов имеют номера и отделяются друг от друга отступом с красной строки.

 Омонимы выводятся в виде списка, в котором каждый термин начинается с крас­­ной строки.

Абсолютные синонимы образуют синонимические ряды, в которых термины раз­­деляются между собой тире.

Относительные синонимы тоже образуют синонимические ряды, пред­ста­вля­ю­щие собой списки терминов, разделенных тире. Если термин имеет кроме относи­тель­­­ных синонимов и абсолютные синонимы, последние стоят рядом с ним, образуя от­дельный ряд, члены которого разделяются запятыми.

Антонимы извлекаются в виде антонимических рядов, в которых термины раз­де­ляются между собой тире. Рядом с термином-антонимом стоят разделенные за­пя­ты­ми его абсолютные синонимы, которые образуют синонимический ряд.

Гипонимические ряды извлекаются в виде списков терминов, причем первый из них гипероним, возглавляющий гипонимический ряд, а все остальные являются его ги­­понимами. При наличии абсолютных синонимов у гиперонима или гипонима рядом с ним стоит его синонимический ряд, члены которого разделяются запятыми. Если по­­лисемантичный гипероним возглавляет несколько гипонимических рядов, то после не­­го в скобках указывается соответствующее значение. Этот способ разграничения зна­­чений терминов напоминает синсеты в WordNet. Потребительский интерфейс дает воз­можность показывать отдельно каждый гипоним, являющийся гиперонимом для дру­гого гипонимического ряда, и визуализировать все гипонимические ряды, воз­глав­ляемые им.

Во всех случаях, когда извлекаются списки терминов, последние фор­матируют­ся в виде пересылок (hyperlinks), причем осуществляется автоматическая навигация по выбранному термину. После каждой навигации показывается информация о вы­бран­ном слове, которая, со своей стороны, тоже может включать пересылки к дру­гим тер­­минам. Выбор термина из пересылок снова визуализирует наличную инфор­ма­цию о нем, и, таким образом, процесс навигации может быть неогра­ни­чен­ным. Механизм на­вигации в терминологии изобразительного искусства, пред­ла­га­е­мый ArtsSemNet, очень похож на навигацию в Интернете со стандартным веб бра­у­зе­ром. Предусмат­ри­ваются даже стандартные клавиши для передвижения вперед и на­зад, изо­бра­жае­мые как левая и правая стрелка. С их помощью потребитель может воз­вращаться на­зад в информацию о терминах, которые он рассматривал перед по­с­лед­ней навига­ци­ей, а потом снова передвигаться вперед при помощи клавиша воз­вра­та. Фигура № 1 по­казывает вид ArtsSemNet после удачного поиска болгарского тер­мина б.  рисувално учи­лище.

Фигура № 1. Вид ArtsSemNet.

Система ArtsSemNet построена в среде для быстрой разработки приложений Borland Delphi 6.0. В целях хранения и извлечения информации о терминах изо­бра­зи­тель­ного ис­кус­ст­ва использована реляционная база данных Microsoft Access 2002, спро­ек­тированная таким об­разом, чтобы обеспечивать быстрое обслуживание всех спра­вок.

5. Доступность ArtsSemNet

ArtsSemNet доступна без ограничений для научных исследований, а ее самую акту­альную версию (пока только для Windows) можно найти в Интернете: http://www.cs.berkeley.edu/~nakov/artssemnet/. По этому адресу можно отыскать и ба­зу данных системы, содержащую всю описанную информацию о терминах изобра­зи­тель­­­ного искусства в русском и болгарском языках, а также и отношения между ни­ми. Распространяется в двух вариантах: 1) mdb файл для Microsoft Access; и 2) SQL-скрипт (создает реляционную схему и заполняет данные в таблицах). Первый ва­ри­ант удобен для пользования софтверными системами, работающими в Microsoft Windows, и вполне доступен даже для потребителей без опыта в работе с реляцион­ны­ми базами данных. Второй вариант может быть использован для  пересылок базы дан­­ных на MySQL, PostgreSQL, Oracle, SQLServer и др. Это дает возможность обра­ба­тывать информацию ArtsSemNet с помощью программ, написанных на различных язы­ках программирования, как Java, PHP, Perl, C#, C++ и т. п., включая и рабо­таю­щие по различным операционным системам: Windows, Unix/Linux и др.

6. ArtsSemNet и WordNet

WordNet и ArtsSemNet имеют сходную функционалность, но между обеими сис­те­мами существуют и известные расхождения. Как уже было сказано выше, в WordNet термины представлены не как самостоятельные слова, а как синсеты. WordNet построена для английского языка, в котором нередко одно и то же слово мо­жет оказаться одновременно именем существительным, именем прилагательным и гла­­голом. При введении слова для поиска в WordNet извлекаются все синсеты вместе с их значениями. Предоставляется возможность для извлечения синонимов, согипо­ни­­мов, гипонимов и гипонимических рядов, меронимов и голонимов (термины, в от­но­­шении “X есть часть Y”, которые в русском и болгарском языках считаются ги­по­ни­мами), а также и антонимов в тех случаях, когда слово является именем при­лага­тель­ным. Все эти сведения касаются соответствующих синсетов, связанных с ин­те­ре­сующим нас словом, а не самого слова. Фигура № 2 показывает результаты поиска ги­понимических рядов английского слова tree (в переводе ‘дерево’) в системе WordNet.

Между ArtsSemNet и WordNet намечаются следующие основные различия:

-    ArtsSemNet рассматривает преимущественно самостоятельные термины, а WordNet строится на синсетах. ArtsSemNet тоже включает подобие синсетов, ка­саю­щихся, однако, отдельных случаев, главным образом, в связи с представ­ле­ни­ем гипонимических рядов.

-    ArtsSemNet поддерживает русский и болгарский языки, а WordNet поддерживает толь­ко английский язык.

-    В отличие от ArtsSemNet WordNet не делит синонимы на абсолютные и отно­си­тель­ные.

-    WordNet не рассматривает омонимы, а приводит значения терминов в виде син­се­тов, причем, если у термина имеется несколько омонимов, то они будут пред­ста­в­лены как отдельные синсеты.

-    Потребительский интерфейс WordNet не предусматривает возможность автома­ти­ческого наблюдения термина с помощью пересылок, а в ArtsSemNet такая воз­мож­ность предоставляется интуитивным способом, подобным навигации в Ин­тер­нете.

-    ArtsSemNet не обнаруживает согипонимы соответствующего термина.

-    ArtsSemNet не поддерживает меронимию (включает ее в гипонимию).

Фигура № 2. Вид WordNet.

7. Будущие разработки

          Система ArtsSemNet построена специально для справок по русской и болгарской тер­минологии изобразительного искусства на базе КСТИИ, а именно: для извлечения всех значений, омонимов, абсолютных и относительных синонимов и синонимичес­ких рядов, антонимов и антонимических рядов, гипонимов и гипонимических рядов за­данного термина. Она может быть использована также для сходных конкретных и со­поставительных исследований как терминологических, так и нетерминологических язы­ковых систем.

Существует несколько направлений, в которых система ArtsSemNet может раз­ви­ваться. Во-первых, включение дополнительных справок, например, обнаруживание со­ги­по­нимов. Другое направление – это построение дополнительных способов для рассмотрения ря­дов терминов в виде дерева, что создаст более удачное визуальное представление об от­но­ше­ниях между терминами и улучшит навигацию и визуализацию гипонимических рядов. По­я­вится возможность выбора: гипонимические ряды автоматически “развертывать” на месте в главном ряду или показывать в специальном окне при нажиме клавиша. Вполне возможно реализовать отдельную визуализацию в виде дерева для гипонимических рядов, в которой потребитель может осуществлять навигацию.

Другое направление, в котором ArtsSemNet может развиваться,  это возможность ре­­дактирования терминов и связанной с ними информации. Можно будет реа­ли­зо­вать функциональность для включения, редактирования и устранения терминов и их зна­­чений, омонимов, синонимов и синонимических рядов, антонимов и анто­ни­ми­чес­ких рядов, гипонимов и гипонимических рядов. Архитектура системы легко поз­во­ля­ет расширить набор языков, включая кроме русского и болгарского и другие языки. Ин­тересна идея создания межъязыкового индекса наподобие EuroWordNet.

 

 

Л и т е р а т у р а

1. А т а н а с о в а И. Я., Н а к о в П. И., Н а к о в С. И. Информационные тех­но­ло­гии в помощь исследователю-лингвисту. – В кн. Восьмой международный сим­по­зи­ум МАПРЯЛ 2002. Теоретические и методические проблемы русского языка как ино­странного в начале XXI века. Доклады и сообщения. Велико-Тырново, 2002-1, с. 305-307.

2. А т а н а с о в а И. Я., Н а к о в П. И., Н а к о в С. И. Семантическая техника автоматического извлечения гипонимических рядов из терминологических словарей. – В кн. Восьмой международный сим­по­зи­ум МАПРЯЛ 2002. Теоретические и ме­то­ди­ческие проблемы русского языка как ино­странного в начале XXI века. Доклады и со­общения. Велико-Тырново, 2002-2, с. 307-313.

3. Н о в и к о в, Л. А. Семантика русского языка. М., изд. “Выс­шая школа”, 1982, с. 138;241;142;113;114.

4. CYC, http://www.cyc.com

5. EuroWordNet, http://www.illc.uva.nl/EuroWordNet/

6. F e l l b a u m C. (ed.). WordNet: An Electronic Lexical Database, MIT Press, 1998.

7. G o o d m a n K., N i r e n b u r g S. (eds.) The KBMT-project: A Case Study in Knowledge-Based Machine Translation. Morgan Kaufmann Publ.,1991.

8. MikroKosmos, http://crl.nmsu.edu/Research/Projects/mikro/index.html

9. M i l l e r G., B e c k w i t h R., F e l l b a u m C., G r o s s D., M i l l e r K. Introduction to WordNet: An on-line lexical database. Journal of Lexicography, 3(4), pp. 235-244, 1990.

10. OpenCyc, http://www.opencyc.org

11. Oxford English Dictionary, http://www.oed.com

12. Roget’s Thesaurus, http://www.bartleby.com/thesauri

13. V o s s e n P. (ed.). EuroWordNet: A Multilingual Database with Lexical Semantic Networks, Kluwer Academic Publishers, Dordrecht. 1998.

14. WordNet, http://www.cogsci.princeton.edu/~wn/index.shtml