I.A. Bolshakov and A.F. Gelbukh. Rubrification of Word Combinations in the Databases by Elements of Meaning of Combined Words (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, vol. 2, Moscow, Russia, 2000, pp. 26–33.

English version available.

 

УДК 81'37

И. А. Большаков, А. Ф. Гельбух

Рубрикация словосочетаний в базах данных
по элементам толкования сочетаемых слов

РЕФЕРАТ

Предложен метод классификации и рубрикации определительных словосочетаний в больших лингвистических базах данных. Рубрикация основана на элементах толкования слов, входящих в словосочетания. Показана связь возникающих рубрик с тезаурусам типа Роже. Продемонстрирована универсальность возникающих рубрик, как внутри одного языка, так и между разными языками.

ВВЕДЕНИЕ

В последние годы все больше внимания привлекают базы данных по словосочетаниям в естественных языках. Такие базы и печатные словари создавались по меньшей мере для английского [1], итальянского [2] и русского [3] языков. Эти БД могут иметь два важных приложения: как справочное средство для авторов, готовящих тексты за компьютером, и как средство фильтрации вариантов анализа и синтеза в системах автоматической обработки текстов на естественном языке. Такое понимание задач использования словосочетаний уже сложилось, и для их характеризации даже появился английский термин word attraction “притяжение слов”.

Нам пока известна лишь одна экспериментальная справочная система для подготовки текстов, опирающаяся на БД словосочетаний. Эта система под названием КроссЛексика создана авторами настоящей статьи [3, 4]. Ее БД и используется в качестве базового корпуса для целей данной работы.

Cистема  КроссЛексика делится на подсистемы, описывающие разные классы взаимосвязей между словами. Подсистема под названием Имеет_Aтрибутами при запросе в виде ключевого слова любой части речи выдает те словосочетания, в которых ключевое слово снабжено синтаксически подчиненным словом или неразрывным словосочетанием. При ключевом слове – существительном соотносительные слова являются определяющими прилагательными или атрибутивными конструкциями, например, для ключа человек выдается агрессивный, аккуратный, беззаботный, безалаберный, неприятный, румяный, с большой буквы, с вывихом, приятный, яркий,..). При адъективном, глагольном или наречном ключе соотносительные слова являются наречиями или наречными оборотами. В данной работе мы интересуемся лишь ключами – существительными, которых в этой подсистеме большинство.

Все посдение годы БД рассматриваемой системы неуклонно росла. Для ее пополнения использовались многочисленные и постоянно новые источники – печатные справочники, газетные статьи, научно-популярные тексты, научные и технические публикации по разным отраслям, реклама и пр. Число охарактеризованных существительных постоянно увеличивалось, как и среднее число определений при каждом каждом из них (на ноябрь 1999 это среднее близко к 11). Будем называть ниже количественную меру способности отдельных слов образовывать словосочетания данного типа их продуктивностью.

Заметна существенная неравномерность продуктивности отдельных существительных. Неравномерность многих лингвистических распределений давно известна и поэтому не явилась неожиданостью на данном материале. Наиболее продуктивные существительные характеризуются несколькими сотнями определений, в то время как при многих иных определения оказались малочисленными. В итоге словосочетания для существительных, образующих первую сотню по продуктивности, содержат не менее 95 единиц, первые две сотни – не менее 72, первые три сотни – не менее 60. Список определений для отдельного ключа подчас не умещается на экране. Подбирать в нем нужные определения по смыслу стоит все большего труда, и назрела необходимость облегчить такой подбор автоматическими средствами.

В настоящей работе выдвигается и обосновывается идея членить и рубрицировать списки определительных словосочетаний на разделы, привязанные к элементам толкования определяющих слов. Рубрикация совершается для каждого ключевого слова независимо. В первую очередь она необходима для высокопродуктивных существительных, но в принципе была бы полезна и для всех прочих (сейчас в системе 12,1 тыс. существительных, снабженных определениями).

Возникающая внутри списков рубрикация подобна той, которая характерна для идеографических словарей – тезаурусов [5]. Однако в тезаурусах тематические рубрики можно называть, пользуясь научными терминами и не встречающимися в обычной речи научными конструктами. Мы же по мере возможности стремимся подобрать заголовки разделов в виде обычных слов или словосочетаний и из таких заголовков образовывать небольшие и естественные иерархии. Наше намерение – свести к минимуму число разных элементов этих иерархий и сохранить непротиворечивость и понятность вводимых рубрик для образованного пользователя-нелингвиста.

Изложение строится далее индуктивно. Берется несколько существительных из числа наиболее продуктивных, и выясняется, в каких конкретно рубриках нуждаются их определительные словосочетания. Рассматриваются отдаленные по семантике существительные, чтобы выяснить максимальное количество типов нужных подзаголовков и построенных из них иерархических рубрикаций. При этом данная статья не претендует на глубокое семантическое исследование рассматриваемых слов. Важно, что сам корпус словосочетаний подсказывает конкретные классификационные решения.

На основе опыта создания рубрикаций делается предварительный вывод, сопровождаемый многими оговорками. Конкретно, выдвигаемая концепция рубрикации признается осуществимой и полезной, но она весьма трудоемка и имеет существенные ограничения, похоже, принципиально не устранимые. Показывается также, что выбираемые для определений рубрики оказываются хорошим средством портретирования определяемых существительных. Под портретированием понимается выявление ситуаций, которые для эти существительных являются типовыми, а также типовых ролей в ситуациях и отдельных свойств этих ролей.

Переходя к конкретным высокопродуктивным существительным, заметим, что их единственное и множественное число рассматриваются в нашей БД раздельно. Это объясняется тем, что разные числа могут иметь разный набор определений [6], в результате чего и показатели продуктивности у них могут быть различны.

КЛЮЧ человек

Ключ человек, получивший в нашей БД ранг 1 по продуктивности (около 800 определительных словосочетаний), в семантическом отношении представляет собой аргумент большого количества разнообразных предикатов, обычно, оценочных. Безошибочно классифицировать эти предикаты едва ли возможно, и ниже предлагается лишь некое приближение, недостатки которого остаются заметными несмотря на все наши усилия по их устранению.

На верхнем уровне рубрикации все определения были разделены на общественные черты, черты поведения, нравственные, умственные и внешние (физические) черты человека. Каждая из перечисленных групп разделена на более дробные рубрики, в определенной мере пересекающиеся. Результаты вместе с примерами приводятся ниже.

Общественные черты:

·        Важность (социальная значимость): бесполезный, большой, великий, влиятельный, дорогой, замечательный, крупный, лишний, любимый, маленький, незаметный, некудышный, ничтожный, нужный, полезный, простой, пустой, родной, с большой буквы, средний, уважаемый,...

·        Известность: близкий, знакомый, знаменитый, известный, незнакомый, новый, свой, таинственный,...

·        Исключительность: выдающийся, замечательный, интересный, исключительный, любопытный, неинтересный, необыкновенный, необычный, нормальный, обычный, особенный, своеобразный, средний,...

·        Обеспеченность: бедный, богатый, зажиточный, из среднего класса, небогатый, нищий, обеспеченный, сверхбогаый, состоятельный,...

·         Семейность: вдовый, одинокий, разведенный, семейный, холостой,...

·        Социальный класс: военный, городской, гражданский, рабочий, сельский,...

Черты поведения

·        Общительность: болтливый, занудный, приветливый, разговорчивый, нахальный, откровенный, открытый, шумный, замкнутый, застенчивый, молчаливый, робкий, сдержанный,...

·        Воспитанность: бестактный, вежливый, внимательный, грубый, дерзкий, дикий, культурный, любезный, невежливый, невоспитанный, некультурный, тактичный,...

·         Инициативность: активный, безынициативный, изобретательный, инициативный, пассивный, предприимчивый, творческий,...

·        Практичность: деловой, беспомощный, бывалый, опытный, практический, практичный, расчетливый, трезвый, хозяйственный, экономный, непрактичный, расточительный,...

·        Темперамент: активный, беспокойный, бесстрастный, бесчувственный, бодрый, бойкий, влюбчивый, восторженный, впечатлительный, вспыльчивый, выдержанный, горячий, деятельный, живой, задумчивый, инертный, истеричный, капризный, медлительный,...

·        Характер: безвольный, бесстрашный, властный, властолюбивый, волевой, высокомерный, гордый, деспотичный, демократичный, доверчивый, железный, заносчивый, ленивый, легкий, легкоранимый, мечтательный,...

Нравственные черты:

·         Добросовестность: аккуратный, беззаботный, безответственный, беспечный, добросовестный, исполнительный, неаккуратный, небрежный, недобросовестный, необязательный, несерьезный, обязательный, сознательный,...

·        Доброта: агрессивный, безжалостный, бескорыстный, беспощадный, бессердечный, гостеприимный, добродушный, доброжелательный, добрый, дружелюбный, жадный, жесткий, жестокий, заботливый, золотой, миролюбивый,...

·         Нравственность: безнравственный, безыдейный, беспринципный, бесстыдный, благородный, великодушный, грязный, идейный, искренний, испорченный, коварный, лживый, лукавый, мелкий, мелочный, мстительный, непорядочный,...

Умственные черты:

·         Образованность: грамотный, интеллигентный, компетентный, невежественный, неграмотный, отсталый, передовой, прогрессивный, развитой, темный,...

·        Одаренность: гениальный, даровитый, одаренный, способный, бездарный, бесталанный,...

·        Удачливость: несчастый, неудачливый, счастливый, удачливый,...

·        Ум в целом: беспристрастный, благоразумный, вдумчивый, памятливый, здравомыслящий, мудрый, любознательный, наблюдательный, неглупый, остроумный, пошлый, разумный, сообразительный, толковый, умный, хитрый,...

·        Умение: ловкий, неловкий, неумелый, умелый, сноровистый,...

Внешние черты:

·        Возраст: в годах, в цветущем возрасте, взрослый, молодой, немолодой, пожилой, среднего возраста, старый,...

·        Волосы: бородатый, волосатый, кудрявый, лысый, плешивый, русоволосый, светловолосый, седой, темноволосый, усатый, черноволосый,...

·        Глаза: глазастый, голубоглазый, кареглазый, сероглазый, синеглазый, темноглазый, черноглазый,...

·        Здоровье: болезненный, больной, здоровый, цветущего вида, хилый,...

·        Кожа: бледный, загорелый, краснолицый, розовощекий, румяный, смуглый,...

·        Настроение: веселый, довольный, радостный, грустный, печальный, недовольный, разгневанный, расстроенный, сумрачный, мрачный, невеселый, угрюмый, хмурый,...

·         Одежда: бедно одетый, голый, легко одетый, плохо одетый, разодетый, хорошо одетый,...

·        Внешняя привлекательность: интересный, красивый, милый, некрасивый, неинтересный, обаятельный, отталкивающий, приятный, противный, симпатичный, славный,...

·        Размер: крупный, мелкий, широкоплечий, узкоплечий,...

·        Рост: высокий, высокого роста, коренасный, невысокий, низенький, низкого роста, приземистый, рослый, среднего роста,...

·        Сила: крепкий, могучий, мускулистый, сильный, слабый, хилый,...

·        Сложение: атлетически сложенный, длинноногий, длинношеий, коротконогий, кривоногий, статный, стройный, сутулый, хорошо сложенный, хрупкий,...

·        Упитанность: дородный, жирный, корпулентный, костлявый, плотный, полный, средней упитанности, сухопарый, сытый, толстый, тощий, тучный, упитанный, худой,...

·        Физический недостаток: близорукий, глухой, косой, немой, раненый, слепой, смешной, хромой,...

Приведенные рубрики покрывают более 95% определительных словосочетаний для человек, но не все. Из непокрытых можно указать:

·        определения времени и места (локально-временных рамок) существования определяемого объекта: древний, советский, современный, средневековый,...

·        определения кванторного, детерминирующего и указательного типа: всякий, другой, каждый, конкретный, любой, отдельный, указанный, этот, первый, второй,... Этот набор невелик и замкнут. Он характризует средства выделения ключевого слова в речи. Придумать для этой группы обыденное название не удается.

·        определения, формирующие фраземы типа снежный человек. Их смысл не сводится к сочетанию смыслов сочетающихся слов. В данном случае фразема задает не человека, а мифическую обезьяну. При других ключах фразем может быть заметно больше.

Наконец, остается неясным, куда в рамках даже расширенной рубрикации поместить мертвый, полуживой, свободный, крепостной,.... Отведение под каждую малую группу определений отдельной рубрики делает рубрикацию слишком неравномерной и потому приходится относить “шлейф” к единой рубрике Разное, что эквивалентно введению некоторой “свалки” для всего нестандартного.

КЛЮЧИ покрытие и покрытия

Ключи покрытие и покрытия получили в нашей базе соответственно ранги 2 и 3. При принятом упрощенном делении словоформ покрытие включает смысл как результата, так и процесса. Второй смысл в части определений мало продуктивен, но именно из-за него словоформа единственного числа опередила по рангу форму множественного числа, у которой процессное толкование достаточно редко (“... в результате нескольких покрытий...”). Мы исключаем также из рассмотрения покрытие в финансовом смысле (рублевое покрытие).

С точки зрения лексической семантики [7], покрытие как результат является значением лексической функции Sres  от предиката покрывать. У этого предиката четыре аргумента: субъкт, объект, средство и инструмент. В нашей БД релевантные словосочетания оказались представленными столь богато из-за широкого применения этого термина в технике. Он является не только термином сам по себе, но с помощью определений способен порождать более узкие термины.

В техническом применении термина покрытие набор обычных актантов оказался сокращенным за счет субъекта, но получил дополнительные элементы за счет сирконстантов. Добавились цель (предназначение) покрытия и набор некоторых сопутствующих качеств покрытого изделия. Последние неспециалисту иногда трудно отличить от целевых качеств.

Итак, набор атрибутов у покрытие эмпирически поделен на следующие группы:

Объект покрытия (что покрывают?): автомобильное, аэродромное, дорожное, мостовое, напольное, палубное, чердачное,...

Материал покрытия (чем покрывают?): алмазное, алюминиевое, асфальтовое, битумное, водное, ворсистое, гравийное, графитовое, золотое, каучуковое, керамическое,...

Способ покрытия (каким способом покрывают?): анодированное, быстросохнущее, вакуумное, обжиговое, напыленное,...

Цель покрытия (зачем покрывают?): антиадгезивное, антибактериальное, антибликовое, антигрибковое, армирующее, атмосферостойкое, взрывобезопасное, герметизирующее, декоративное, защитное, защитно-декоративное, специальное,...

Внешнее или конструктивное свойство покрытия (какое свойство сопутствует покрытию?): бесшовное, влагочувствительное, блестящее, временное, водонерастворимое, вспучивающееся, гибкое, гладкое, гофрированное, неровное, нестойкое, постоянное, прочное, сплошное, стандартное, стойкое, съемное, унифицированное, устойчивое, эффективное, яркое...

Особняком опять остались кванторные, детерминирующие и указательные определения: любое, любые, каждое, все, отдельные, другое, указанное, это,...

КЛЮЧ среда1

Ключ среда1 ‘окружение’ получил ранг 4. Эта лексема используется, во-первых, в качестве обычного слова, характеризуя окружение человека, созданное другими людьми. Во-вторых, она является высокоупотребительным и продуктивным научно-техническим термином для окружения из неживых объектов, и в этом качестве его легко рубрицировать более дробно. В соответствии с этим имеем следующие группы определений для среда1.

Живые существа: артистическая, архитектурная, военная, враждебная, высокообразованная, гнилая, городская, затхлая, интеллигентная, культурная, мещанская, научная, рабочая, языковая,...

Неживые объекты:

·        Состав: аммиачная, аргоновая, атмосферная, атомная, аэрозольная, бактериологическая, безводная, безмасляная, белковая, бинарная, биологическая, водная, водно-органическая, водно-спиртовая, водяная, воздушная, воздушно-водяная, кислая, щелочная,...

·        Основное свойство: абразивная, агрессивная, активная, взрывобезопасная, взрывоопасная, влажная, высококонцентрированная,...

·        Структура: аморфная, анизотропная, гетерогенная, гетерофазная, гомогенная, градиентная, двухмерная, замкнутая, неоднородная, однородная,...

·        Сфера действия: внешняя, внутренняя, внутриклеточная, географическая, геологическая, неограниченная,...

КЛЮЧ вид1

Ключ вид1 ‘внешность’ получил ранг 5. Соответствующие определения четко делятся на верхнем уровне на две рубрики, относящихся к живому существу (как правило, к человеку) и к неживым объектам. Пересечение этих групп невелико: внешний, городской, деревенский, жалкий, красивый, мрачный,...

Дальнейшая классификация определений для живых существ не столь очевидна. Ниже они рубрицированы исходя из оценки внешних данных наблюдаемого существа (эффекта, производимого его видом), эмоционального и физического (точнее – физиологического) состояния этого существа. Важно отметить, что оценки относятся к определяемому лицу, а оценщиком всегда выступает внешний наблюдатель. Определения для неживых объектов оказались по совокупности значительно менее многочисленны, и мы оставили их без дальнейшей рубрикации.

Итак, предлагается следующая рубрикация определений для вид1:

Живые существа:

·        Внешний эффект: ангельский, аристократический, безобразный, благородный, блестящий, бродяжий, важный, величественный, внушительный, вороватый, впечатляющий, вульгарный, гадкий, глуповатый, глупый, дегенеративный, достойный, дурацкий, жалкий, жуликоватый, затрапезный, значительный, идиотский, импозантный, интеллигентный, командирский, комичный,...

·        Эмоциональное состояние: безразличный, беспокойный, беспомощный, благоразумный, благодушный, блаженный, бойкий, бравый, вдумчивый, веселенький, веселый, виноватый, воинственный, враждебный, вызывающий, гадливый, глубокомысленный, горделивый, гордый, грозный, грустный, деловой,...

·        Физиологическое состояние: анемичный, болезненный, больной, возбужденный, вялый, заспанный, здоровый, изможденный, измученный, испитой, истасканный, истерзанный, молодой, моложавый, нездоровый,...

Неживые объекты: архивированный, внешний, внутренний, выгодный, главный, городской, готовый, декоративный, деревенский, дивный, дикий, дорогой, достойный, естественный, жалкий, живописный, завуалированный, запущенный, засущенный, затейливый, изолированный, изумительный, искаженный, сжатый,...

Замечаем, что определения для неживых объектов пересекаются с таковыми для живых существ только в части производимого внешнего эффекта, поскольку неживые объекты нельзя оценивать по их эмоциональному и физиологическому состоянию. Что же касается внешнего эффекта и эмоционального состояния, они могут быть подвергнуты более дробной рубрикации с позиций, определенных ранее для человек.

КЛЮЧ контроль

Ключ контроль получил ранг 6. С точки зрения лексической семантики, контроль является именем предиката со следующим набором актантов: субъект, осуществляющий контроль, контролируемый объект (например, контроль входящих) и параметр, по которой ведется контроль (например, контроль на допинг). В нашей базе контроль получил столь высокий ранг из-за широкой распространенности этого термина в технике. Применительно к определениям термина набор его актантов несколько изменился и расширился, причем именно расширенный набор задает рубрики атрибутов:

Субъект контроля (кто или что осуществляет контроль?): авторский, ведомственный, врачебный, государственный, демократический, дизайнерский, диспетчерский, инспекционный, народный, рабочий,...

Объект контроля (и одновременно - какой параметр контролируется?): бактериологический, билетный, валютный, ветеринарно-санитарный, гормональный, допинговый, допусковый,...

Цель контроля (для достижения чего контролируется?): антидопинговый, антимонопольный. Данная группа оказалось очень немногочисленной и поэтому, быть может, ее следует объединить с предыдущей. Обращаем внимание, что допинговый и антидопинговый контроль – это одно и то же, как впрочем и ряд других пар словосочетаний в русском языке (пожарная и противопожарная безопасность).

Способ контроля (чем или каким способом контролируется?): автоматизированный, автоматический, аналитический, аппаратный, банковский, бесконтактный, биологический, вибрационный, визуальный, выборочный, групповой, дискретный, дистанционный, интрументальный, по мелочам, поканальный, ручной,...

Качество контроля (как или с каким качеством контролируется?): аккуратный, активный, бдительный, внимательный, всесторонний, высосопроизводительный, действенный, жесткий, неослабный, постоянный,...

Место контроля (где контролируется?): внутриведомственный, внутризаводской, входной, выходной, наземный, пограничный,...

КЛЮЧ предприятия

Ключ предприятия получил ранг 9. Обязательной валентостью этой лексемы как обычного предиката является та продукция, которую предприятие выпускает или разрабатывает. В научно-технических и экономических текстах это слово очень частотно. Анализ его определений позволяет уточнить предполагаемые валентности этой лексемы в терминологическом ее понимании.

Предлагается следующая рубрикация определений для предприятия:

Продукция (назначение): авиаремонтные, авиатранспортные, авиационные, автомобильные, авторемонтные, автотранспортные, агропромышленные, алюминиевые, вагоноремонтные, конверсионные, межотраслевые, многоотраслевые,... (более 80% всех имеющихся определений при этом ключе)

Этап производственно-потребительского цикла продукции: лизинговые, научно-производственные, оптовые, опытные, проектные, производственные, разрабатывающие, сборочные, эксплуатационные,...

Владелец: акционированные, арендные, государственно-акционерные, государственные, единоличные, зависимые, зарубежные, иностранные, кооперативные, местные, муниципальные, национализированные, отечественные, подпольные, приватизированные,...

Размеры: базовые, большие, градообразующие, карликовые, крупнейшие, крупные, малые, мелкие, мощные, небольшие, огромные,...

Взаимосвязь с другими предприятиями: встроенные, головные, дочерние, интегрированные, подчиненные,...

Готовность функционировать: банкротные, вводимые, действующие, ликвидируемые, новые, проектируемые,...

Эффективность: безнадежные, безубыточные, выгодные, доходные, нерентабельные, неэффективные, низкорентабельные, образцово-показательные, отсталые, отстающие, передовые, привлекательные, прибыльные, рентабельные,...

Приведенная рубрикация достаточно понятна, но даже после отдельного учета кванторных слов (все, всевозможные, любые, многие, многочисленные, различные,...) остается несколько определений, не вошедших в указанные рубрики – автоматизированные, опасные, фиктивные,... Они характеризуют те разнообразные особенности предприятий (технологические, экологические, правовые и пр.), которые довольно редко фигурируют в текстах. Пока они не сформировали представительных групп, их приходится помещать в рубрику Разное.

КЛЮЧИ поступки и поступок

Ключи поступок и поступок имеют ранги 22 и 28. С позиций лексической семантики, поступок является именем предиката с абстрактным значением, без четко выявленного набора актантов (за исключением субъекта, совершающего поступок). Применительно к набору определений, этот предикат оказался аргументом других, оценочных предикатов. Один из них можно определить как соответствие  поступка нормам человеческого общежития и разумного поведения. Другой оценочный предикат имеет значениями характерные черты способа, каким поступок был совершен.

Внутри подгруппы определений, соответствующих (или не соответствующих) указанным нормам, возможно дополнительное (и весьма приближенное) деление по типам выполняемых или нарушаемых норм, а именно, норм нравственности и законности; обыденного порядка жизни и разумного поведения. Итак, рубрикация выбрана здесь следующей.

Соответствие поступка нормам

·        нравственности и законности: аморальный, беззаконный, безнравственный, бескорыстный, беспринципный, бессердечный, бесстыдный, бесчеловечный, бесчестный, благородный, возмутительный, героический, гуманный, добрый, достойный, жестокий, злой, лицемерный, коварный, мерзкий, красивый, моральный, мужественный, наказуемый,...

·        обыденного порядка жизни: бестактный, бесцеремонный, джентльменский, дипломатический, заурядный, естественный, мальчишеский, неджентльменский, необъяснимый, нетактичный, обыденный, тактичный,...

·        разумного поведения: благоразумный, глупый, дикий, дурацкий, искренний, логичный, намеренный, легкомысленный, нелогичный, необдуманный, оправданный, разумный, серьезный,...

Способ выполнения поступка: взрывной, впечатляющий, запоздалый, импульсивный, убедительный, яркий,...

Особняком опять стоят кванторные определения.

КЛЮЧИ цены и цена

Ключи цена и цены получили в нашей БД не столь высокие ранги (цена – 52, цены -  60), но оказались примечательными с позиций рациональной рубрикации.

Величина (уровень) цен

·        для покупателя данного товара: баснословные, безбожные, безумные, божеские, вздутые, высокие, дискриминационные, доступные, крайние, недоступные, низкие, ничтожные, подходящие, сумасшедшие, сходные,...

·        для продавца данного товара: конкурентоспособные, крайние, наилучшие, поощрительные, реальные, смешные, справедливые, сходные, хорошие,...

·        для стороннего наблюдателя: высокие, демпинговые, дискриминационные, конкурентоспособные, низкие, справедливые, средние, хорошие,...

Сфера действия цен: внешнеторговые, внутрифирменные, договорные, заводские, зональные, закупочные, импортные, картельные, коммерческие, легальные, мировые, монопольные, нетто, оптовые, отпускные, подпольные, прейскурантные, расчетные, розничные, рыночные, сезонные, трансфертные,...

Переменность цен в пределах их локально-временных рамок: единые, падающие, плавающие, повышенные, пониженные, постоянные, растущие, свободные, сниженные, сопоставимые, стабильные, твердые, устойчивые, фиксированные,...

Хотя совокупности определений уровня цен у трех выделенных типов наблюдателей сильно перекрываются, объединять эти группы едва ли нецелесообразно. Действительно, только сторонний наблюдатель, например, может называть данные цены демпинговыми, в то время покупатель назвал бы их же низкими или подходящими, а продавец – справедливыми, льготными или реальными. Для покупателя и продавца уровень, который разделяет низкие и высокие цены, может быть совершенно различным. Недаром есть два разных понятия – цена покупателя и цена продавца.

УНИВЕРСАЛИЗМ РУБРИК

Хотя детально обследованы всего восемь лексем (11 словоформ), это очень продуктивные существительные, и обследуемая БД содержит для них в общей сложности около четырех тысяч определительных словосочетаний. Покажем, что рубрики, использованные выше для относительно небольшого числа слов, пригодны и для иных слов, входящих в лидирующую группу по производительности.

·        Поскольку люди является множественным числом от человек, а высокоранговые слова женщина /женщины, ребенок/ребята, мальчик/мальчики, девочка/девочки отличаются от человек лишь признаком пола и/или возраста, все рубрики для человек непосредственно переносятся и на все эти словоформы.

·        Для ключей показатель и показатели (ранги 7 и 8) нетрудно определить три рубрики, как и у покрытие, практически являющиеся семантическими валентностями, а именно: оцениваемый показателем параметр (агробиологический, акустический, ананомический, антифрикционный, аэродинамический,...), оценка величиныпараметра (беспрецедентный, внушительный, высокий, низкий,...) и способ этой оценки (абсолютный, агрегатный, аналитический, базовый, важнейший, выходной, главный, интегральный,...).

·        Для ключа взгляд1 ‘ориентация зрения’ (ранг 11) в качестве рубрик легко обнаруживается выражаемая с помощью взгляда эмоция (безжизненный, безмятежный, безразличный, благодарный, блудливый, вожделенный,...) или способ, которым этот взгляд бросается (бегающий, блуждающий, быстрый, внимательный, живой, застывший, искоса,...). Рубрикация здесь похожа на таковую у вид1, особенно в части эмоций, где и сами определения, в основном, те же самые.

Как видим, уже введенные рубрики обладают определенной внутриязыковой универсальностью. При этом мы далеки от мысли считать эти рубрики достаточными, утверждается лишь их необходимость.

Поскольку идет речь о семантике, нетрудно показать применимость указанных рубрик и для других естественных языков. Применим, например, рубрикацию, принятую для цена/цены, к соответствующим английским аналогам price/prices и заполним соответствующие группы английскими определениями. В отличие от русского языка, где большинство определений являются прилагательными, в английском они часто выражаются существительными в препозиции к определяемому слову. Для нас это обстоятельство не существенно.

Value

·        for buyer: attractive, bargain, dear, exorbitant, attractive, fabulous, fair, fancy, heavy, outrageous, outside, prohibitive, ransom, reasonable, smart, soaring, staggering, steep, tall, ungodly, unreasonable...

·        for seller: asked, bed-rock, best, bottom, competitive, fair, give-away, good, honest, handsome, nominal, popular, premium...

·        for detached observer: buying, discriminative, dump, extra high, good round, great, high, low, moderate, pegged...

Scope: administered, agreed, all-in, all-inclusive, asking, base, blanket, buying, carry-over, cash, ceiling, close, consumer, contract, cost, current, going, export, import, inclusive, leading, list, marked, market, net, original, prepublication, present, purchase, put-up, redemption, resale, reserve, retail, sale, scarcity, selling, set, short, spot, start, target, tender, trade, trigger, unit, upset, volume, wholesale...

Variability within the scope: determined, dropping, growing, fixed, flat, inflated, oscillating, pegged, reduced, standard, stiff...

Итак, предложенные рубрики достаточно универсальны как внутри одного языкаб так и при переходес одного языка на другой.

СОСТАВЛЯЮТ ЛИ РУБРИКИ ЕДИНУЮ СИСТЕМУ?

Зададимся теперь вопросом, чем являются введенные рубрики с позиций семантики.

На верхнем уровне классификации все обследованные существительные делятся на два крупных семантических класса, живые существа (в подавляющем числе случаев – люди) и неживые сущности, которые могут являться названиями предикатов (в их числе – организаций) или термов (артефактов, изделий).

Живые существа предлагается характеризовать чертами общественного, поведенческого, нравственного, умственного и физического плана. Для них необходимо ввести в рассмотрение нравственность и законность, обыденный порядок, поведение. У них существует текущее эмоциональное и физическое состояние, точка зрения (мнение) и многое другое.

Для неживых сущностей названия рубрик имеют следующие альтернативы:

·        Активные семантические валентности данного предикатного существительного, как то: субъект (агенс), объект (пациенс), владелец, продукция, цель, способ функционирования, используемый материал, используемое орудие, структура, сфера действия (во времени и пространстве). Вообще говоря, ряд этих ролей являются с точки зреиия стандартной семантики сирконстантами. Но в работе [7] предложено называть типовые сирконстанты распространенных технических терминов их фреймовыми актантами и обращаться с ними в процессе лингвистической обработки точно так же, как с обычными семантическими валентностями. Такая точка зрения представляется вполне адекватной.

·        Пассивные семантическне валентности, как то: размер, эффективность достижения цели и готовность к функционированию – для организаций,  основное свойство и иные важные свойства – для  изделий, и пр.

·        Пассивная ковалентность, которая может быть проиллюстрирована примером связи цены с покупателем и продавцом: все три эти сущности соподчинены предикату продажа, а наборы определений для уровня цен, как мы видели, существенно зависят от мнений двух других актантов ситуации, а также стороннего наблюдателяю. Последний прямо в ситуацию продажи не входит, но являетая потенциальным покупателем или продавцом и в качестве такового свои определения и дает.

Измеримые параметры характеризуются качественными оценками их величины. У многих сущностей имеется сфера действия во времени и пространстве, а переменность величин в пределах этой сферы может тоже оцениваться словесно.

Параметры, имеющие числовую меру или всего два возможных значения, могут быть расположены на оси – шкале, где точками являются отдельные определения. Например, определения, характеризующие материальную Обеспеченность человека, можно с некоторым приближением упорядочить как нищий, бедный, небогатый, из среднего класса, зажиточный, обеспеченный, состоятельный, богатый, сверхбогатый. Чаще всего шкала названа именем одного, немаркированного, значения характеризуемого свойства, например, важность, известность, исключительность, обеспеченность, общительность, в то время как среди значений в этих группах фигурируют и соответствующие антонимические понятия: бесполезный, неизвестный, средний, нищий, замкнутый соответственно.

Именно рубрики, заданные на шкалах, должны содержать введенные И. Мельчуком лексические функции Magn ‘большой, интенсивный’, Bon ‘хороший’ и Ver ‘какой должен быть’, а также их антонимы AntiMagn, AntiBon, AntiVer [8]. Но обследуемые существительные являются настолько многосторонними сущностями, что строго выделить эти оси для любого из них необычайно трудно или просто невозможно, они как бы теряются среди прочих. Действительно, какие именно свойства у слова человек (как у обычного слова) или у термина покрытие следует брать для оценки Magn, Bon и Ver, остается неясным. Быть может, Ver(покрытие) = эффективный, но подобные прилагательные практически всегда присоединяются к существительным свободно, причем эффективный оказывается значением Ver для множества иных изделий. В то же время лексические функции, по определению, имеют разные значения на области своего задания и их выражение является связанным.

Итак, стандартные лексические функции для обследуемых существительных неспецифичны и тонут среди множества иных “осей” оценки. Однако это не значит, что никакие понятия, близкие к лексическим функциям, не интересны для продуктивных существительных. Возьмем, например, рубрику Важность в смысле социального статуса. Для слова человек это скорее всего крупный, для гость – высокий, для чиновник – крупный или высокопоставленный, для предприятие – элитное. Можно, конечно, усмотреть здесь особый вид функции Magn или Ver, но этим не исключается необходимость заново определить и изучить эту функцию на достаточно большом материале.

Легко видеть, что введенные нами парциальные рубрикации не вкладываются в схему связей внутри типового научно-технического тезауруса. Действительно, там в основном фигурируют артефакты (технические изделия), а главная семантическая связь между статьями – родо-видовая. Выявленные же нами связи значительно богаче.

Зато все эти рубрики и притом в весьма близких формулировках можно встретить в наиболее развитых тезаурусах естественных языков, среди которых в первую очередь назовем тезаурус П. Роже [5]. Ему уже около 150 лет, но он остается самым популярным для английского языка, поскольку многократно пополнялся и модернизировался. Иерархия статей и понятий здесь весьма несовершенна, поскольку совокупность идей, которыми мысленно оперирует человек, нельзя связать лишь родо-видовыми связями. Действительно, не ясно, как влючить в общую иерархию совокупность абстракций, характеризующих семантические роли, какие как субъект, объект, цель, способ и т.д.

Наши рубрики подбирались по принципу понятности предполагаемому пользователю, и поэтому для сформулированных семантических целей брались слова обычного языка, со всеми их недостатками, а именно с нечетким определением, синонимией и омонимией. В прикладной системе приходится допустить те же недостатки и для совокупности заголовков.

Например, при выборе названия Нравственные черты внутри рубрикации, характеризующей человека, неизбежны колебания внутри синонимичных вариантов: Нравственный облик, Моральные черты или Моральный облик. Это означает, что такая (или еще более широкая) группа синонимов с доминантой в виде Нравственные черты должна храниться в самой системе, с тем чтобы пользователь мог легко найти соответствующую рубрику с заголовком – доминантой, отправляясь от любого пришедшего ему в голову синонимического варианта.

От пользователя-нелингвиста едва ли можно требовать подготовки по семантике или по принципам классификации. Он может не знать научно скорструированных терминов и не чувствовать, какой термин из двух предъявленных является более широким. Это означает, что нужно хранить не только синонимичные группы заголовков, но и парциальные иерархии из этих групп.

НЕДОСТАТКИ РУБРИКАЦИИ

Как следует из проведенного анализа, идея разбивать совокупность определений для любого существительного в БД словосочетаний на подгруппы, снабжая каждую их них подзаголовком, мотивированным общим для подгруппы семантическим элементом, является принципиально осуществимой. Однако, выявилось и множество недостатков развитой идей и соотвествующих рубрикаций.

·        Создание полной системы рубрикации для определений едва ли проще, чем тезауруса естественного языка, подобного тезаурусу П. Роже. Но для нескольких сот наиболее продуктивных (в смысле словосочетаний) существительных такая задача явно выполнима.

·        Рубрикацию определений для разных существительных приходится проводить на совершенно разных основаниях. Например, у одного существительного это актанты, а у другого – классы свойств.

·        Сделать соподчиненные подрубрики совершенно независимыми обычно не удается. Характерным примером служат рубрики Характер и Темперамент у ключа человек. Не ясно, являются ли два этих понятия пересекающимися синонимами, двумя разными подрубриками единой рубрики (как это принято нами) или подрубрикам двух разных рубрик Умственные черты и Физические черты. Удовлетворительным критерием деления по рубриками могла бы считаться допустимость одновременного употребления при характеризуемом ключе прилагательных, относимых к разным рубрикам, но этот критерий строго и полностью реализовать не удается.

·        Даже тогда, когда рубрики представляются достаточно независимыми, группы формирующих их определений могут пересекаться, т.е. одно и то же слово должно быть помещено в две или несколько рубрик сразу. Например, определения высокие и низкие при ценах могут с равным успехом использовать покупатель, продавец и сторонний наблюдатель.

·        Лишь для некоторых существительных удается получить одноуровневую (плоскую) рубрикацию, см. контроль и покрытия, для большинства же слов разумная рубрикация содержит два и более уровня. Эта переменность представляется неустранимой, поскольку сильно зависит от конкретного существительного.

·        Не всем рубрикам удается присвоить “человечески понятные” имена. Например, для кванторных, детерминирующих и порядковых прилагательных подобрать объемлющий бытовой заголовок так и не удалось.

·        Изредка встречаются определения, не вмещающиеся вообще ни в какую рациональную рубрику. Можно только создавать для каждого из них отдельную рубрику или помещать всех их вместе в рубрику Разное (Прочее). Примеры приводились ниже. Однако наличие в классификации рубрики Разное считается неудачей.

·        Поиск, осуществляемый внутри объединенной иерархии рубрик, должен допускать сининимию, ибо выбрать уникальное название для каждой отдельно взятой рубрики практически не удается.

Как видим, устранить недостатки предложенной рубрикации полностью едва ли удастся, но и в ее не вполне совершенном виде она представляется полезной.

ЗАКЛЮЧЕНИЕ

Предложен способ рубрикации определительных словосочетаний по элементам толкований определяющих слов в них.

В практическом плане наличие рубрик в базах данных по словосочетаниям ускоряет подбор нужного словосочетания из больших их перечней, которые ранее могли упорядочиваться только лексикографически.

В теоретическом плане предложенная методика рубрикации может рассматриваться как дополнительный способ портретирования слов, продуктивных в части словосочетаний. Чем больше словосочетаний, тем более точным получается лексикографический портрет, опирающийся на определения.

Для научно-технических терминов подобное портретирование помогает выявлять также фреймовые актанты, т.е. эмпирические валентности, с высокой частотой наблюдаемые у данного предикатного термина в текстах соответствующей ему узкой предметной области.

СПИСОК ЛИТЕРАТУРЫ

1.      Benson, M., et al. The BBI Combinatory Dictionary of English. John Benjamin Publ., Amsterdamn Philadelphia, 1989.

2.      Calzolari, N., R. Bindi. Acquisition of Lexical Information from a Large Textual Italian Corpus. Proc. COLING-90, Helsinki, 1990.

3.      Большаков И. А. Многофункциональный словарь – тезаурус для автоматизированной подготовки русских текстов // НТИ, сер. 2. – 1994, N 1, С. 11-23.

4.      Bolshakov, I.A. Multifunctional Thesaurus for Russian Word Processing. Proc. 4th Conf. on Applied Natural Language Processing, Stuttgart, 1994, P. 200-202.

5.      Roget’s International Thesaurus. Fifth edition. HarperCollins Publ. 1992.

6.      Большаков И. А., А. Ф. Гельбух. Раздельное представление сочетаемости единственного и множественного числа существительных // Труды Международного семинара по компьютерной лингвистике и ее приложениям Dialog'95, Казань, 1995.

7.      Апресян Ю. Д.  Лексическая семантика. Синонимические средства языка. 2-е изд., Изд. “Языки Русской Культуры”, Изд. фирма “Восточная Литература” РАН, 1995

8.      Цинман Л. Л., В. Г. Сизов. Модель управления слова, фреймовые актанты и лингвистическая инженерия // Семиотика и информатика. – 1998. – Вып. 36.- С. 154-166

9.      Жолковский А. К., И. А. Мельчук. О семантическом синтезе // Проблемы кибернетики. – 1967. Т. 19. – С. 117-238.