勇敢心资源网

当前位置:首页 > 百科 / 正文

资料库自然语言接口

(2020-02-05 13:31:44) 百科
资料库自然语言接口

资料库自然语言接口

资料库自然语言接口是自然语言理解与资料库技术结合的产物。涉及到人工智慧、自然语言 处理、资料库系统、人机接口等方面的研究。许多年来,它作为智慧型接口的重要组成部分引 起了广泛的兴趣,成为具有重要理论价值和巨大实用价值的研究领域。

基本介绍

  • 中文名:资料库自然语言接口
  • 外文名:Natural Language Interface to Database
  • 学科:计算机
  • 定义:人机互动接口
  • 领域:资料库
  • 有关术语:自然语言

简介

广义上,资料库自然语言接口应当包括资料库设计、资料库定义、操纵(查询、更新 )等方面,它旨在为有关资料库的各种操作提供一 个自然语言界面。狭义上,资料库自然语言接口 仅仅指资料库自然语言查询接口。因 为对普通用户而言,查询接口是最为重要的。自然语言查询接口可以使用户直接以日常生活中使用的自然语言提出查询请求,获取资料库中的信息。

资料库自然语言接口优缺点

优势

通过资料库自然语言接口可以使用户直接以日常生活中使用的自然语言提出查询请求,获取资料库中的信息,俞必记住複杂的资料库标準查询语言的语法定义。从而充分体现了它的优势所在:
用户直接以套用领域的概念而不是资料库的概念模式进行访问,这意味着用户无需了解资料库内部结构。
用户不再需要熟悉资料库本身的查询语言,从而大大减轻了用户的培训负担。
用户可以简洁明了地提出查询请求。

缺点

系统的可移植性问题,如套用领域可移植性、可移植性和自然语言可移植性目前语言的移植尚难以实现因此我们所关心的是前两类可移植性
系统的可用性问题,如语言範畴和系统的概念範畴的在语言处理中的失配现象、歧义现象以及语言表述中的指代、省略等现象。
在资料库汉语查询接口中自然语言的受限问题有个①受限方式②受限程度③如何让用户理解这种受限。受限问题解决的好坏直接影响系统的範围失配问题受限程度过强,使得系统的语言範围道窄,容易出现範围失配受限程度过弱,系统实现难度加大,系统可用性同样难以提高。

要求

资料库中的内容一定是明确的、有限的,而用户的提问又总是围绕着资料库进行的。因此提问中的名词必为资料库概念模式中定义的词或其同义词、或可由它们定义的词。提问中的动词一般为资料库操作命令词或与资料库关係名、属性名有关的领域性动词。
由于是向资料库提问,不可能出现带有感情色彩的辞彙,也杜绝了成语理语的出现。
句型有所限制,句法有所简化,例如只支持祈使句、疑问句、简单的主谓句以及省略句等。
歧义性和上下文相关现象大量减少,且有一定的规则可循。
更重要的一点是,由于接口的最终目的是把自然语言转换成资料库标準查询语言,所以它并不要求完全彻底地去理解语言的深层含义。只要我们从语言的功能结构和语义的某些特徵上去分析处理它,达到转换的目的就行了。

自然语言理解

自然语言处理(Natural Language Understanding )俗称人机对话。人工智慧的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、彙编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研製第 5代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。
自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合套用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。本学科需要解决的中心问题是:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?
这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄文、日文、德文、法文等等,所以它与语言学的研究有着密切的联繫,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研製能有效地实现自然语言通信的计算机系统,特别是其中的软体系统。因而它是计算机科学的一部分。

资料库

概述

资料库是指长期存储在计算机内有组织的、可共享的数据集合。资料库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
资料库是被长期存放在计算机内、有组织的、可以表现为多种形式的可共享的数据集合。这里“共享”是指资料库中的数据,可为多个不同的用户、使用多种不同的语言、为了不同的目的而同时存取资料库,甚至同一块数据也可以同时存取;“集合”是指某特定套用环境中的各种套用的数据及其数据之间的联繫(联繫也是一种数据)全部集中地按照一定的结构形式进行存储。

资料库研究的範围

当前,资料库研究的範围有以下三个领域。
1.资料库管理系统软体的研製
资料库管理系统(DBMS)是资料库系统的基础。DBMS的研製包括研製DBMS本身及以DBMS为核心的一组相互联繫的软体系统。研製的目标是扩大功能、提高性能和提高用户的生产率。
2.资料库设计
资料库设计的主要任务是在DBMS的支持下,按照套用的要求,为某一部门或组织设计一个结构合理、使用方便、效率较高的资料库及其套用系统。其中主要的研究方向包括资料库设计方法、设计工具和设计理论的研究,数据模型和数据建模的研究,计算机辅助资料库设计方法及其软体系统的研究,资料库设计规範和标準的研究等。
3.资料库理论
资料库理论的研究主要集中于关係的规範化理论、关係数据理论等。近年来,随着人工智慧与资料库理论的结合及并行计算机的发展,资料库逻辑演绎和知识推理、并行算法等理论研究,以及演绎资料库系统、知识库系统和数据仓库的研製都已成为新的研究方向。

基于複述的中文自然语言接口

概述

随着现代信息技术的发展以及数据的海量式增长,人们希望以更自然、便捷的方式从资料库中获取信息,资料库自然语言接口(Natural Language Interface of DataBase,NLIDB)应运而生, 旨在帮助用户使用熟悉的自然语言(如中文)从结构化存储系统中获取信息,消除计算机与人之间的 “隔阂” 。Rodolfo等人从不同角度分析、总结了目前主流的 NLIDB系统,大体分为两类:一类是以规则匹配、句法分析或语义规则等为主要技术手段,分析用户查询语义然后转换为结构化查询语言(Structured Query Language,SQL),即自然语言到SQL的直接映射;另一类是首先将自然语言翻译成一种中间层表示的逻辑查询语言,再转换为SQL,这种方法由于具有资料库无关、领域适应性等特点,成为近年来该领域研究的热点。然而,以上方法的难点在于需要直接处理用户灵活多变的查询语义, 由于目前词法分析、句法分析技术尚未达到足够高的正确率,语义分析阶段的错误将导致最后生成的SQL不符合用户查询意图。
近来,一些学者将 NLIDB 转换为最优结构筛选问题, 即对用户输入首先生成可能的候选结构集,再借用规则或统计学方法对其排序,最后取分数最高的候选结构转换SQL。目前上述方法主要依赖人工编写规则以及标注语料,不便于跨领域使用。

方法

综合以上问题, 本文提出了一种基于複述的中文自然语言接口(Paraphrase Natural Language Interface,PaNLI)实现方法。PaNLI 使用网路问答平台提供的大量 “类似问题 ” “相关知识” 作为複述(paraphrases)训练语料, 这些语料涉及领域广泛且来自用户的真实提问, 训练得到的複述分类器能更好地解决 NLIDB 语义鸿沟问题。PaNLI 首先提取出句子中可映射到资料库元素的实体词, 并通过子树遍历等操作得到候选树集与初始排序;其次根据候选结构匹配的属性句法类别结合规则模板生成若干个形式化的自然语言表达;最后利用训练得到的支持向量机模型(Support Vector Machine,SVM)分类器计算输入语句与形式化自然语言表达的语义相关度, 重新排序候选树集, 将得到的最优候选树转换为 SQL。使用机器学习方法处理分类问题时, 关键点在于对问题抽取合适的特徵表示, 以往句子表示通常使用词袋模型, 即不考虑词语顺序以及关联信息。本文提出一种富语义的句子级特徵表示方法, 使用 Word2Vec 工具在大量未标注文本上训练得到词语的低维向量表示,结合依存句法分析结果,得到句子的多维语义特徵表示。实验表明该特徵表示方法能有效提高複述分类精度。
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号