+ All Categories
Home > Documents > ИСПОЛЬЗОВАНИЕ ТЕРМИНОЛОГИЧЕСКОЙ СЕТИ ДЛЯ АНАЛИЗА...

ИСПОЛЬЗОВАНИЕ ТЕРМИНОЛОГИЧЕСКОЙ СЕТИ ДЛЯ АНАЛИЗА...

Date post: 05-Apr-2023
Category:
Upload: spbu
View: 0 times
Download: 0 times
Share this document with a friend
12
Ш 0202—2400 Структурная ■ .......... и прикладная лингвистика
Transcript

Ш 0202—2400

Структурная ■..........и прикладнаялингвистика

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА

СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА

Межвузовский сборник

В ы п у с к 2

ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА

1983

Печатается по постановлению Редакционно-издательского совета

Ленинградского университета

Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные во­просы семантики предложения, применения математических мето­дов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспе­чения автоматических систем обработки текста.

1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.

Сборник предназначен для филологов, специалистов по при­кладной и математической лингвистике.

Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богда­нов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Горо­децкий.

Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).

ИБ № 1462

Структурная и прикладная лингвистика

Межвузовский сборник

В ы п у с к 2

Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.

Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.

1593000000—933 С 076(02)—83 68-83 .

Издательство Ленинград- С) ского университета,

1983 г.

В. Д. Буторов, И. В. Азарова

ИСПОЛЬЗОВАНИЕ ТЕРМИНОЛОГИЧЕСКОЙ СЕТИ ДЛЯ АНАЛИЗА ЗАПРОСОВ

НА ОГРАНИЧЕННОМ ЕСТЕСТВЕННОМ ЯЗЫКЕ

Проблемно-ориентированный естественный язык запросов. Одной из важных задач лингвистического обеспечения информа­ционных систем является разработка лингвистического процес-

154

сора для анализа и перевода запросов пользователей с есте­ственного языка на информационный язык, принятый в системе в качестве языка взаимодействия с базой данных. В общем слу­чае взаимодействие пользователя с базой данных не ограничи­вается только запросами к базе, но может включать также и ввод данных в базу, изменение данных в базе и даже измене­ние структуры базы. Однако говорить об использовании есте­ственного языка для обеспечения такого взаимодействия в пол­ном объеме в настоящее время, видимо, преждевременно. В большинстве случаев естественный язык используется только для формулировки запросов к базе данных или для синтеза отве­тов. Остальные формы взаимодействия обычно обеспечиваются некоторым формальным языком (информационным языком).1

Информационный язык, включающий средства описания структуры данных и средства формальной записи запросов, может служить также удобным «языком-посредником» для ин­терпретации запросов на естественном языке, преимущества ко­торого для широкого круга пользователей, не знакомых деталь­но со структурой базы данных и с информационным языком, до­статочно очевидны.

В описываемой системе анализа запросов на естественном языке для их интерпретации используется модифицированный для конкретной предметной области базовый информационный язык (БИЯЗ), разработанный в ЦЭМИ АН СССР.2

Модифицированный БИЯЗ используется в качестве входного языка для базы данных, имеющей иерархическую (древовидную) структуру (типа «Ока»), Элементами данных в базе являются структуры, состоящие из двух полей: наименования признака и значения признака.

БИЯЗ позволяет запрашивать информацию из конкретного элемента базы данных (единичный показатель) или же из на­бора однотипных элементов (множественный или агрегирован­ный показатель). Элемент базы данных может задавать число­вое или текстовое данное.

Запросы на БИЯЗ представляют собой множество пар <•*:*/>, где х — наименование признака (наименование поля базы данных), у — значение признака х. Среди всех пар < х : у > выделяются две пары, определяющие имя информационного объекта (имя вершины дерева базы данных, в котором должен осуществляться поиск информации) и наименование запрашивае­мого признака х, значение 5 которого является ответом на за-

1 Л е в и н Д. Я., Н а р н н ь я н и А. С. Формальный язык взаимодействия с Сазами данных. — В кн.: Семантика естественных и искусственных языков ^■^анализированных системах. Тезисы докл. конф. (Ленинград, 1—2 окг. 19792.Г,). Л„ 1979.дг С р е д с т в а формализованного описания экономических данных для

С»: Методические рекомендации. М., 1975.

155

прос. Остальные пары < х : у > определяют условие поиска за­прашиваемых данных.

Приведем пример записи запроса на естественном языке и на БИЯЗ.

ЕЯ: Указать сметную стоимость КВР «Грот» за 1980 год.БИЯЗ в дескрииторной форме: Программа: ОБ; Сметная

стоимость КВР : 5;Перечень КВР: Грот; Год: 1980.

БИЯЗ в кодовой форме: ОВ:РКОО; 02А Т : 5; 5НКВР:1; СОИ : 1980.

Используемая иерархическая база данных позволяет сфор­мулировать для простых запросов достаточно сильный критерий семантической правильности: все пары < х : у > , входящие в условие поиска, являются элементами базы данных, лежащими на пути от вершины базы (имя информационного объекта) до запрашиваемого элемента. Это свойство запросов на БИЯЗ используется (см. ниже) в качестве критерия правильности ана­лиза запроса на естественном языке (в частности, при выборе из нескольких возможных вариантов анализа).3

Естественный язык, используемый для формулировки запро­сов, является ограниченным, однако характер ограничений, за­дающих подмножество естественного языка, следует оговорить особо.

Лексика используемого естественного языка ограничена пред­метной областью экономики электронной промышленности (точ­нее, множеством технико-экономических показателей).

В информационном языке эта лексика упорядочена системой классификаторов и номенклатур, заданных в виде взаимосвязан­ных списков дескрипторов. Каждому списку присваивается наи­менование (также являющееся дескриптором). Структура де­скрипторов достаточно сложна и разнообразна: от отдельных лексем до многокомпонентных словосочетаний и даже предло­жений.

При формулировке запросов на естественном языке дескрип­торы употребляются в конкретных текстовых формах (ТФД), представляющих собой различные лексико-грамматические ва­рианты основных форм дескрипторов, зафиксированных в клас­сификаторах.

Конкретная предметная область и характер задачи взаимо­действия с базой данных ограничивают и семантику запросов на естественном языке. Как упомянуто выше, запрашиваться мо­гут толь'ко конкретные значения технико-экономических показа­телей, содержание некоторых списков, свойства определенных объектов.

з П е т р о в А. Е. Алгоритм обработки запросов в фактографической ИПС. — В кн.: Электронная техника. Сер. 9. Экономика и системы управле­ния, вып. 1 (34). М„ 1980, с. 112—120.

С синтаксической точки зрения запросы на ЕЯ являются во­просительными или «предписывающими» высказываниями. Но кроме этих естественных для данной задачи синтаксических ограничений, никаких дополнительных ограничений на синтаксис запросов не накладывается. Пользователю, таким образом, прак­тически не нужна никакая инструкция по формальной записи запроса. Действительно, любые ограничения на синтаксис за­просов на ЕЯ резко снижают эффективность такой формы об­щения с ЭВМ, и естественный язык сразу перестает быть есте­ственным для пользователя.

В то же время лексические и семантические ограничения языка запросов делают его проблемно-ориентированным языком, хотя и использующим свободно синтаксис естественного языка.

Приближенный метод анализа запросов. Решение приклад­ных лингвистических задач часто бывает ограничено техниче­скими требованиями на объем используемой памяти и на ско­рость обработки текста. Это заставляет использовать не только ограниченные средства самого естественного языка, но и исполь­зовать в определенном смысле ограниченные и в то же время достаточные для решения поставленной задачи методы анализа естественного языка. Видимо, только таким путем можно найти оптимальные для конкретной задачи методы анализа.4

Ограниченная лексика языка запросов в рассматриваемой области (не более 1000 лексем), достаточно простая структура информационного языка, используемого для интерпретации за­просов, и строгий критерий семантической правильности (осмыс­ленности) запросов к базе данных позволяют ограничиться при­ближенным анализом запросов на естественном языке.

Распознавание запроса на ЕЯ в соответствии со структурой БИЯЗ состоит в выделении множества пар < х :г /> , «при­знак : значение».

Если зафиксировать в словаре, оптимальным образом орга­низованном, все текстовые формы дескрипторов, выражающих наименование признаков и их значение, то задача анализа бу­дет сводиться к распознаванию самих дескрипторов в тексте за­проса на ЕЯ. Это достаточно простая задача, решаемая при на­личии словаря текстовых форм дескрипторов без привлечения морфологического анализа и без полного синтаксического ана­лиза высказывания — запроса, поскольку в словаре будут хра­ниться как все необходимые формы слов, так и (в готовом виде) локальные синтаксически связанные группы слов, соот­ветствующие текстовым формам дескрипторов (ТФД).

Задача состоит в том, чтобы оптимальным образом органи­зовать такой словарь и найти метод анализа, позволяющий

4 Б у т о р о в В. Д. Приближенные методы анализа языка в прикладной лингвистике. См. с. 131.

157

шэффективно с помощью этого словаря «выделять» дескрипторы в тексте запроса.

Терминологическая сеть. Словарь, применяемый при анали­зе, представляет собой массив текстовых форм дескрипторов. При определении структуры словаря учитывались следующие требования:

— информация о словоформах запроса и связях между ними должна извлекаться быстро, без просмотра значительной части словаря;

— полученная информация должна позволять быстро опре­делить релевантные и нерелевантные связи между словофор­мами;

— в результате анализа должен извлекаться набор дескрип­торов, встретившихся в запросе (если существует неоднознач­ность, то — все возможные наборы).

Для представления словаря была выбрана сеть — орграф общего вида с помеченными дугами. С текстовой формой де-3 скриптора в сети сопоставляется цепь — последовательность не­повторяющихся узлов, в качестве которых выступают слово­формы, образующие ТФД. Словоформы в цепи упорядочены в соответствии с синтаксической структурой ТФД. При этом в случае последовательного синтаксического подчинения слово­форм в структуре ТФД запись словоформ в цепи идентична син­таксической структуре, в случае ветвящейся синтаксической структуры ТФД (что бывает достаточно редко) словоформы упорядочены так, что ветвящийся узел предшествует подчинен­ным ему узлам, порядок которых произволен. Дуги, связываю­щие словоформы в сети, помечаются числами, показывающими, сколько раз данная пара словоформ встретилась в общем мас­сиве ТФД. Начальная и конечная словоформа цепи некоторой ТФД в словарной записи соединяются так называемой гранич­ной дугой, которой приписывается в виде символьного кода ин­формация о дескрипторе, образом которого и является данная ТФД. В результате каждая текстовая форма дескриптора ока­зывается представленной в сети циклом — замкнутой цепью, при этом только одна дуга в каждой цепи будет иметь символь­ный код. Различение типов дуг в сети позволяет автоматически контролировать омонимию вводимых в словарь текстовых форм дескрипторов. Символьный код, приписываемый граничной дуге, является либо кодом дескриптора в БИЯЗ, записанным в виде пары «признак: значение», либо условным выражением, пред­ставленным в жестком формате, для проверки некоторого кон­текстного условия на уровне дескрипторов БИЯЗ (например, при определении роли данного дескриптора в запросе).

Словарь терминологических сетей, таким образом, содержит информацию о лексическом составе и локальных синтаксиче­ских группах (дескрипторах БИЯЗ) данной предметной области. Петли в сети представляют однословные текстовые формы де-

158

скрипторов. Число дуг, выходящих из узла, равно числу входя­щих в узел дуг с учетом кратностей, приписанных дугам. Коэф­фициент ветвления в сети (среднее значение выходящих из узла дуг) поддерживается на низком уровне (около двух), так как получаемая редкая сеть дает оптимальные результаты в исполь­зуемых процедурах обхода сети.

$>*$НКЗР: **5>НКВР'.5',

Фрагмент словаря ТС

Массив ТФД. Массив ТФД определяет, насколько хорошо будет работать автоматический анализ запросов на ЕЯ- На ста­дии эксплуатации он может быть скорректирован в соответствии с реальными запросами пользователей. Предварительное порож­дение массива запросов производится экспериментально на основе баз данных. Последние определяют возможные сочета­ния различных признаков: поисковых (ПП) и запрашиваемых (ЗП). Поисковые признаки представлены в запросе на ЕЯ в виде своих значений — дескрипторов или числовых данных' Запрашиваемые признаки не раскрываются по значению. С этим связаны существенные различия в представлении тех и других. Поисковые признаки имеют не только ряд разных значений, но и широкий круг возможностей их синтаксического оформления.

159-

Запрашиваемые признаки выражаются синтаксически едино­образно. После определения набора исходных дескрипторов и их синтаксического оформления производится выявление всевоз­можных текстовых форм дескрипторов. Число ТФД для одного

.дескриптора варьируется от одного до десяти, среднее число вариантов —около четырех (на массиве около ста дескрип­торов) .

Для сокращения объема словаря в составе ТФД выбирается контрастное ядро — часть словосочетания, обеспечивающая рас­познавание данного дескриптора; словоформы, несущие чисто строевые функции, в словарь не включаются.

Массив ТФД, представленных в виде синтаксических групп с кодами соответствующих дескрипторов, является вводным для алгоритма построения автоматического словаря ТС.

Фрагмент массива ТФД:стоимость — сметную/02АТ : 5;стоимость — сметная/02АТ : 5; IКВР/ * > * 5НКВР : ** 5НКВР : 5;ГРОТ/5НКВР : 1;в — 9999 — году/* Н* ООО : =Составление словаря ТС. Словарь ТС строится автоматиче­

ски на основе массива ТФД. Алгоритм построения словаря ТС включает: ввод исходных данных (массив ТФД); создание словника, упорядоченного по возрастанию кодов слов; формиро­вание терминологической сети; организацию данных в последо­вательный файл.

Словарь ТС хранится и формируется как файл последова- 1 тельной организации, а при анализе запросов и накоплении сло­варя он переписывается в индексно-последовательный файл.

Информация о структуре сети сконцентрирована по слово­формам, для каждой из которых указаны выходящие из узла '3 дуги в виде ссылок на узлы, в которые они входят. В целях компактного представления ссылок узлы перенумерованы. На- I бор ссылок некоторого узла представлен кортежем номеров А тех узлов, в которые входят дуги, исходящие из данного узла, а также кортежем кодов, приписанных этим дугам; указывается длина кортежа. Структура информации некоторого узла имеет \ следующий вид: словоформа; ее номер; длина кортежа ссылок; кортеж ссылок; кортеж кодов.

Алгоритм пополнения словаря ТС включает: запись «ста­рого» массива в индексно-последовательный файл; ввод новой порции ТФД и ее обработка в последовательном файле; слия­ние двух файлов; запись пополненного словаря в последова­тельный файл.

В результате пополнения в сеть могут быть добавлены новые узлы, а также пополнены кортежи ссылок у имеющихся узлов. Оба алгоритма производят контроль омонимии — однотипности кодов у одной дуги. Объем словаря на материале трех задач160

НИР и ОКР включал 315 узлов и 542 ссылки; автоматический словарь ТС занимал 8 дорожек на магнитных дисках типа 2311.

Фрагмент автоматического словаря ТС

Словоформа Н ом ер Д лина кортеж а К ортеж ссы лок К ор теж кодон

сметную 80 1 83 02АТ: 5;сметная 82 1 83 02АТ: 8;стоимость 83 2 80; 82 1; 1

* п *ОСШ : =год 489 1 315году 486 1 317 * П *СЮО: =! рот 479 1 479 5НКВР: 1;

Автоматический анализ запроса. Автоматический анализ за­проса на ЕЯ проводится в два этапа: выделение в тексте за­проса набора дескрипторов с использованием словаря ТС; про­ведение контекстного анализа выделенных дескрипторов с целью формирования запроса на БИЯЗ.

Анализ запроса на ограниченном ЕЯ включает извлечение подсети словаря ТС, охватывающей словоформы запроса, и вы­деление в ней набора непересекающихся циклов. Если такое раз­биение подсети возможно, то коды выделенных циклов одно­значно определяют набор дескрипторов, представленных в за­просе. Напомним, что цикл в словаре ТС сопоставлен некоторой текстовой форме дескриптора. Линейный порядок словоформ в запросе для анализа не существен.

Пример анализа запроса:

Указать сметную стоимость К6Р ” Грот” за 1930 год.1 8НКВР: 1:

$>*$НКВР: лнЙНКВР:1; йл *& 0В: =

Результат: 02АТ.5- X > к ЗНКВР: хх &НКВР: 3 ; ВНКВР: 1; X т * С-СШ; =

Развертывание альтернатив производится параллельно. Не­удачные альтернативы отбрасываются. При наличии нескольких компонент связности анализ производится покомпонентно. Результаты анализа заносятся в «дерево разбора», из которого затем можно извлечь различные наборы дескрипторов, упоря-11 Зак. Ха 250 161

доченные но вхождению в текст запроса (для отдельных альтер­натив) и его длине (для разных альтернатив).

Пример «дерева разбора» с одной альтернативой:02АТ : 5; ^ * > * 5 Н К В Р : ** 5НКВР : 5; -*-5НКВР : 1;

—у *"~]* ООО : =На этапе контекстного анализа обрабатываются наборы вы­

деленных кодов дескрипторов: вычеркиваются коды одинаковых и малоинформативных дескрипторов; выделяется запрашивае­мый признак — дескриптор; происходит объединение кодов ука­зателей роли, кванторов и отношений с соответствующими де­скрипторами. При проведении контекстного анализа исполь­зуется процедурный подход обработки данных: элементы вы­деленной из словаря кодовой информации управляют ходом ана­лиза. В результате анализа запроса на ЕЯ выделяется набор пар «признак : значение» (высказывание на БИЯЗ).

Пример обработанного запроса:02АТ : 5; 5НКВР : 1; ОСЮ : 1980;

Анализ запроса на ЕЯ реализуется в виде процедуры-функ­ции. Время обработки запроса длиной 8—12 слов составляет 3—5 сек. Переход к новой предметной области и настройка си­стемы анализа запросов связаны с наполнением словаря ТС со­ответствующей лексикой.

162


Recommended