Четверг, 19.09.2024, 05:52
Электронный каталог
Приветствую Вас Гость | RSS
Меню сайта
Главная » 2014 » Август » 11 » Скачать Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Евдокимова, Инга Сергеевна бесплатно
04:48
Скачать Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Евдокимова, Инга Сергеевна бесплатно
Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы

Диссертация

Автор: Евдокимова, Инга Сергеевна

Название: Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы

Справка: Евдокимова, Инга Сергеевна. Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы : диссертация кандидата технических наук : 05.13.11 Улан-Удэ, 2004 171 c. : 61 05-5/476

Объем: 171 стр.

Информация: Улан-Удэ, 2004


Содержание:

1 ОБЗОР И АНАЛИЗ МЕТОДОВ РЕШЕНИЯ ЗАДАЧИ
11 СТРУКТУРА ЛИНГВИСТИЧЕСКОГО АНАЛИЗАТОРА
12 АНАЛИЗ МЕТОДОВ И ПОДХОДОВ МОРФОЛОГИЧЕСКОГО АНАЛИЗА ^ / ^ 13 АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ СИНТАКСИЧЕСКОГО АНАЛИЗА
14 АНАЛИТИЧЕСКИЙ ОБЗОР СЕМАНТИЧЕСКИХ МОДЕЛЕЙ
15 Выводы И ПОСТАНОВКА ЗАДАЧИ
2 МОДЕЛЬ ЛИНГВИСТИЧЕСКОГО ТРАНСЛЯТОРА
21 МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТРАНСЛЯТОРА
22 АППАРАТ ОПИСАНИЯ ФОРМАЛЬНЫХ МОДЕЛЕЙ
222 Описание формального аппарата
23 МОДЕЛЬ МОРФОЛОГИЧЕСКОГО АНАЛИЗА
231 Содерэюательное описание модели морфологического анализа (к^ 2311 Словари и таблицы совместимости
2312 Алгоритм морфологического анализа
232 База правил морфологического анализа
2321 Сорта морфологического анализа
2322 Типовые предикаты условий применимости продукций морфологического анализа
2323 Система продукций морфологического анализа
24 МОДЕЛЬ СИНТАКСИЧЕСКОГО АНАЛИЗА
241 Содержательное описание модели синтаксического анализа
2411 Алгоритм синтаксического анализа У I] 2412 База знаний синтаксического анализа
242 База правил синтаксического анализа
25 ВЫВОДЫ ПО ВТОРОЙ ГЛАВЕ
3 МОДЕЛЬ ТРАНСЛЯЦИИ
31 ИНТЕРПРЕТАЦИОННАЯ МОДЕЛЬ ЛИНГВИСТИЧЕСКОГО ТРАНСЛЯТОРА
311 Метаописание базы данных
312 Описание знаний проблемной среды ч t V r^
32 БАЗОВЫЕ МЕХАНИЗМЫ ПРОБЛЕМНОГО АНАЛИЗА
321 Метод построения преобразования ^^
3211 Построение транзитивных замыканий
3212 Описание системы продукций
3213 Преобразование графа зависимостей терминов логической модели в граф зависимостей терминов физической модели преобразование 4*
33 ФОРМИРОВАНИЕ SQL-ЗАПРОСА ИЛИ ПОСТРОЕНИЕ ПРЕОБРАЗОВАНИЯ 4^
331 Продукции по формированию SQL-запроса
332 Алгоритм доказательства гипотез
333 Формирование оператора SQL
34 ВЫВОДЫ ПО ТРЕТЬЕЙ ГЛАВЕ

Введение:

Актуальность темы диссертационного исследования. Задача, интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60-х—70-х гг.ХХ в.Работы последних лет связаны с решением проблемы анализа смысла языка в приложении к созданию систем диалога с программным обеспечением. Подходов к решению задачи понимания естественно-языковых запросов несколько. Наиболее распространенными являются подходы, основанные на синтаксическом, семантическом анализах и шаблонах.Первый подход основан на использовании синтаксических конструкций. Синтаксическое представление запроса строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и т.д.). Это представление ничего не говорит о смысле запроса.Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем используется синтаксическая информация из предьщущего подхода, а также информация из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие определять смысловые отношения между ним и другими словами, точнее, их значениями.Полное описание связей между смыслами слов (а одно слово часто имеет несколько смыслов) образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве, узлов. С помощью таких тезаурусов вьшолняется построение семантического представления запроса. Основная задача при этом;— отсечь ненужные смыслы, постараться выделить с помощью синтаксических связей достоверные семантические конструкции. В больших предложениях, особенно с многозначными словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и связей между ними, а также многозначности синтаксических конструкций (одному и тому же предложению может быть сопоставлено несколько синтаксических представлений), обработка которых занимает неприемлемо большое время. Это лишь одна проблема, стоящая на njTH понимания естественно-языковых запросов в традиционной синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-языковые запросы, которые, как правило, не имеют, правильных синтаксических конструкций. На это влияют вольное словоизменение и словообразование в виде неологизмов сетевой общественности, большой процент, имен собственных и сокращений, игнорирование правил пунктуации, что приводит к тому, что от естественного язьпса во всем его многообразии иногда остается лишь лексика, причудливым образом исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их разработка требует высокой квалификации.Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он появился самым первым и с точки зрения программной реализации наиболее прост. Суть его в том, что возможные запросы покрываются набором шаблонов-конструкций, позволяющих отождествляться с запросом и вьщавать в результате предопределенные конструкции.Основной недостаток такого подхода заключается в необходимости предусмотреть все возможные способы выражений на естественном язьже, т.е. исчислить грамматику. К > сожалению, современный пользовательский язык совсем не похож на литературный, и г поисковые запросы синтаксическими шаблонами в чистом виде покрыть довольно трудно.Если же основываться на семантической грамматике, придется для каждой новой предметной области писать шаблоны заново.К настоящему времени существующие естественно-языковые системы используют в основном два последних подхода. Второй подход реализован в достаточно распространенной системе ЗАПСИБ, разработанной в середине 80-х годов [78]. Система позволяет вести общение на ограниченном подмножестве естественного язьпса. Развитием проекта является система InterBase, вышедшая в 1990 году [128]. Система основана на семантически-ориентированном анализе и продолжает ряд естественно-языковых технологий лаборатории искусственного интеллекта ВЦ АН Новосибирска, затем фирмы «Интеллектуальные технологии», а теперь РосНИИ искусственного интеллекта. В 2001 году эта система бьша переработана и получила название InBASE в виде коммерческого продукта. В настоящее время система представляет собой библиотеку СОМ-компонентов и- среду настройки естественно-язьпсовых интерфейсов. Существенным отличием от старой версии является появление промежуточного уровня запросов — Q-языка, являющегося подмножеством языка объектных запросов OQL, и уровня описания предметной области в виде диаграммы классов UML. В полном соответствии с особенностями семантически-ориентированной парадигмы /«ДЛ.^ ^^ позволяет строить естественно-языковые интерфейсы ко многим языкам — д л я русского и для английского используется один и тот же Л-процессор. Интересной особенностью InBASE является возможность моделирования предметной' области на /j естественном язьпсе: с помощью класса словарных статей «Толкование» смысл слова можно описать простой фразой. Это позволяет настраивать естественно-языковые интерфейсы людям, не обладающим навьпсами инженеров знаний. Основным недостатком данной системы является то, что кортежи базы данных продублированы в словарях — отдельных файлах. В базах данных больших объемов этот недостаток может стать проблемой [34, 97, 115,123,126-127].Ярким представителем третьего подхода является система ?«g//5/j ^wery. Система English Query от Microsoft основана на синтаксически-ориентированных шаблонах, f ?, Г V связьшаемых с моделью предметной области, и через нее - со схемой базы данных [107]. При настройке необходимо задать модель базы данных и предметной области, а затем для-каждого отношения в базе данньк (а отношением считается и связь между классом и его атрибзтом, например, между товаром и его ценой) задать синтаксический шаблон английской грамматики, выбираемый из списка. Этот продукт позволяет строить естественно-язьпсовые интерфейсы только для английского языка и работает только с Microsoft SQL Server, в этом; смысле это лишь утилита, поставляемая с SQL-сервером, именно так она и позиционируется, В целом же этот продукт очень интересен. Например, в нем есть встроенная обучаемая. база знаний, с которой можно пообщаться на английском: язьпсе, — она запоминает факты, правила и отвечает на вопросы по этой базе. К сожалению, эта замечательная способность не совмещена с пониманием запросов к базе данных. Исследования, проводимые в данной работе, посвящены разработке методов и алгоритмов, реализующих второй подход. Основное отличие от описанных выше.работ заключается в формальном описании моделей транслятора; На наш взгляд, запросы к стрзосгурированным источникамданных вполне могут быть изложены;в виде одного или нескольких простых предложений естественного языка, в которых отсутствуют неологизмы и для которых несложно осуществлять синтаксический анализ. При синтаксическом анализе естественно-языкового предложения строится граф зависимостей, который после; ряда последовательных преобразований; содержит информацию, необходимую для построения SQL-запроса.База знаний, необходимая для вьшолнения; анализа запроса, содержит метаописание базы данных и знания проблемной среды. Модуль метаописания БД состоит из описания концептуальной схемы базы данных на естественном язьпсе: сущностей, атрибутов и связей; между сущностями. Модуль словарей содержит знания для проведения;морфологического, синтаксического анализов и трансляции естественно-языковых запросов к базе данных.Модуль знаний проблемной; среды содержит описания понятий и терминов предметной области.Создаваемую естественно-язьпсовую систему обработки запросов; к базе данных предполагается использовать при разработке больших информационных систем. База знаний; должна заполняться в процессе разработки проекта информационной системы. Поскольку у многих информационных систем основным ядром является SQL-ориентированные распределенные базы данных, то задача; построения естественно-язьпсового пользовательского интерфейса тесно связана с разработкой методов и алгоритмов трансляции естественно-языковых запросов. в запросы SQL языка. Все это определило актуальность работы, выбор целей, задач, структуры и содержания исследования.Таким образом, целые исследования является разработка методов и алгоритмов, позволяющих осуществлять преобразование естественно-языковых запросов к базе данных, представленных в виде простых предложений русского языка, в SQL-запросы.Для достижения указанной цели в работе поставлены и решены следующие задачи: 1) анализ существующих лингвистических моделей для обработки предложений естественного языка; 2) разработка лингвистической модели транслятора; 3) разработка интерпретационной модели задачи; 4) разработка подхода к семантическому и проблемному анализам естественно-языкового запроса; 5) разработка методов трансляции естественно-языковых запросов к базе данных, представленных в виде простых предложений русского языка, в SQL-запросы.Объектом исследования является естественно-языковой запрос к базе данных в виде простого предложения.Предмет исследования - преобразование запроса на естественном языке в SQLзапрос.Методологической и теоретической основой исследования послужил математический аппарат теории искусственного интеллекта, множеств, графов, математической логики и лингвистики. Достоверность научных выводов и практических рекомендаций основывается на теоретических и методологических положениях, сформулированных в исследованиях зарубежных и российских ученых: Д.А. Поспелова, Э.В. Попова, Г.Г. Белоногова, Е.С. Кузина, Р.Г. Пиотровского, А.С. Нариньяни, Т. Винограда, М. В. Никитина, О. Н. Селиверстовой, А. И. Смирницкого, Ю.А. Загорулько, Л.А. Голубевой, В.Е. Дмитриева, Ф.Г. Диненберга, Е.Ю. Кандрашиной, И.С. Кононенко, Д.Я. Левина, B.C.Маркина, Т.В. Нестеренко, O.K. Очаковской, В.В. Телермана, СП. Трапезникова, В.Ф. Хорошевского, И.Е. Швецова, Т.М. Яхно, Р. Ковальского, Д. Лавленда, Д. Кюнера и других [21-29,49,59, 55, 64, 68, 80, 85-86,114,107].Наиболее существенные результаты и научная новизна диссертационной работы заключается в разработке модели лингвистического транслятора естественно-язьпсового запроса в SQL-запрос базы данных, особенностью которого является то, что для построения модели впервые использован подход, основанный на решении задачи в виде преобразований в пространстве ситуаций.Проведенные исследования привели к следующим результатам, содержащим, по мнению автора, элементы научной новизны: 1) грамматическая модель и модель трансляции, отличительной особенностью которых является их представление в виде систем продукций морфологического, синтаксического, семантического и проблемного анализов; 2) интерпретационная модель, сосотоящая из модели метаописания базы данных и модели проблемной среды, представленные в виде множества фактов и описанные предикатами. '^^ Теоретическая значимость исследования состоит в создании подхода, Т позволяющего представлять условие применимости продукции в виде множества дизъюнктов и применять метод резолюции для активации продукционных правил.Практическая значимость исследования состоит в том, что полученные результаты могут быгь применены при разработке реальных естественно-языковых систем общения с базами данными.Апробация результатов- исследования. Основные положения диссертационной работы докладывались и обсуждались на международной научно-технической конференции "Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и СИИ" (Вологда, 2001 г.), III Международной выставки-конференции "Информационные технологии и телекоммуникации в образовании" (Москва, 2001 г.), VI и ^ VII Всероссийской конференции по проблемам информатизации региона ПИР (Красноярск, • 2000 и 2001 гг.), первой, третьей, четвертой и пятой конференциях «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2000-2004 гг.), внуривузовской научной конференции преподавателей, научных работников и аспирантов ВСГТУ (Улан-Удэ, 2000-2004 гг.), межкафедральном семинаре «Концепции и методологии создания, современных информационных систем» (Сиб1 ТУ, Красноярск, 22 сентября 2004 г.). Ряд положений диссертации был использован при подготовке учебного курса «Естественно-язьпсовые системы» по специальности 220400 «Программное обеспечение вычислительной техники и автоматизированных систем» и нашел применение в учебном процессе ВСГТУ. По теме диссертации опубликовано 8 печатных работ общим объемом / i более 24 п.л.Структура и объем диссертации. Работа состоит из введения, трех глав, заключения, литературы и 6 приложений.В первой главе дан обзор существующих моделей лингвистического анализатора, рассмотрена структура лингвистического анализатора, проанализированы методы и алгоритмы морфологического, синтаксического и проблемного анализов, сделаны основные выводы и сформулирована постановка задачи. г (# Во второй главе рассматривается математическая модель лингвистического транслятора, которая включает в себя лингвистическую модель, базовые механизмы обработки предложений и ассоциированные процедуры. Предложен аппарат для построения формального описания лингвистических моделей, который основан на описании модели знаний предметной области в виде множества подразумеваемых ситуаций. Поэтому решение задач представляется в виде преобразований в пространстве ситуаций. Формальное отображение ситуации описывается продукционными правилами, что позволяет представлять модели в виде системы продукций, а решение задач строить как доказательство теорем, используя метод линейной резолюции. На основе предложенного подхода построены формальные модели морфологического и синтаксического анализов лингвистического транслятора в виде систем продукций.Третья глава посвящена методам трансляции. В ней предложены формальные модели метаописания базы данных и проблемной среды, которые описываются семейством множеств закономерностей проблемной среды и концептуальной схемы базы данных, представленных в виде формул предикатов второго порядка, описаны методы построения графа, гомеоморфного графу зависимостей естественно-языкового запроса и методы трансляции естественно-языковых запросов в SQL-запросы к базе данных. *|V В заключении приведены основные результаты работы и перспективы развития.В приложениях приведены структура лингвистических словарей морфологического анализа, система продукций синтаксического анализа и система продукций по формированию SQL-запроса, формальные модели метаописания базы данных и проблемной среды, описание программного обеспечения и вычислительных экспериментов. 'i

Скачивание файла!Для скачивания файла вам нужно ввести
E-Mail: 1277
Пароль: 1277
Скачать файл.
Просмотров: 350 | Добавил: Анна44 | Рейтинг: 0.0/0
Форма входа
Поиск
Календарь
«  Август 2014  »
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
25262728293031
Архив записей
Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Copyright MyCorp © 2024Бесплатный хостинг uCoz