论文部分内容阅读
全国科学技术名词审定委员会 发布试用
计算语言学 computational linguistics
一种涉及语言学、计算机科学和数学的边缘学科。用数学、计算机科学和技术的方法研究语言,研制计算机处理语言的软件。研究成果可用于自然语言理解与生成、语音识别与合成、机器翻译、信息检索、信息挖掘、文献自动分类、文献自动摘要、计算机辅助语言教学等领域。
计算词汇学 computational lexicology
计算语言学的一个分支。用计算机科学或数学的方法从意义、形态、结构等方面研究自然语言的词汇结构和词汇系统,建立面向各种应用目标的机器词典和语料库。
计算语义学 computational semantics
计算语言学的一个分支。运用数学方法(主要是谓词逻辑、内涵逻辑等数理逻辑方法)构建语义模型,把语义分析作为一个计算过程来研究。
数理语言学 mathematical linguistics
用数学思想和数学方法研究语言现象的学科。通常采用集合论、数理逻辑、算法理论等代数方法,或采用概率论、数理统计、信息论等方法来建立语言的数学模型,分析描述语言成分出现和分布的统计规律。可分为代数语言学(algebraic linguistics)、统计语言学(statistical linguistics)等。
语料库语言学 corpus linguistics
语言学的一个分支。把大规模的真实的自然语言数据(书面文本或言语录音的转写)作为语言学描写、验证语言假说或建立语言学统计模型的依据。也是一种以语料库为基础的语言研究方法。包括:1.对自然语料进行加工、标注;2.应用已经标注好的语料进行语言研究和应用开发。有时也可以使用未加工过的语料进行语言研究或辞书编纂。
自然语言处理 natural language processing
研究使用计算机处理在人际交际或人机交际中的自然语言问题的学科。主要研究表示语言能力和语言应用的模型,建立计算框架来实现并不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。计算机对自然语言的研究和处理,一般应经过以下过程:1.把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;2.把这种严密而规整的数学形式表示为算法,使之在计算上形式化;3.根据算法编写计算机程序,使之在计算机上加以实现;4.对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足应用的要求。
自然语言理解 natural language understanding
在研究自然语言的机制和实现过程的基础上,用计算机分析口语或书面语,理解它们所表达的意思,并用形式化的方式表示出来。自然语言理解的过程是从语音或文本映射到意义。
自然语言生成 natural language generation
在研究自然语言的机制和实现过程的基础上,用计算机把要表达的意思从非语言形式的输入构造成自然语言输出,并以口语或书面语的形式表达出来。自然语言生成的过程是从意义映射到语音或文本。
语言工程 language engineering
指开发和研制识别、理解、生成人类语言的计算机系统的技术和领域。包括机器翻译、信息检索、文本分类、自动文摘等。
人工智能 artificial intelligence
一种交叉学科。利用计算机系统模拟人类的智能活动,完成人用智能才能完成的任务。包括专家系统、自然语言理解、机器学习、自动定理证明、模式识别、知识工程、智能数据库、自动编程、智能控制等。
信息论 information theory
关于信息的本质和传输规律的科学理论。研究信息的计量、发送、传递、交换、接收和储存等。
本体知识体系 ontology
对概念体系的明确的、形式化的、可共享的规范。“概念体系”指所描述的客观世界的现象中有关概念的抽象模型,“明确”指对于所使用的概念的类型以及概念用法的约束都明确地加以定义,“形式化”指本体知识体系应该是机器可读的,“共享”指本体知识体系中所描述的知识不是个人专有的而是集体共有的。本体知识体系是构建自然语言词汇系统的重要理论基础。
汉字信息处理 Chinese character information processing
中文信息处理的一个重要组成部分。用计算机对汉字信息进行操作和加工,包括汉字的输入、存储、识别、生成和输出等。
汉字编码 Chinese character encoding; Chinese character coding
按照一定的规则,对指定的汉字集内的元素编制相应的代码。
汉字识别 Chinese character recognition
利用计算机抽取汉字字形特征,实现对汉字的自动输入。可分为联机手写体汉字识别、印刷体汉字识别和手写体汉字识别。
汉语分词 Chinese word segmentation; Chinese word tokenization
又称“汉语自动分词”“汉语切词”“汉语自动切词”。依据一定的原则和方法,按照分词单位对汉语语句进行切分的过程。
分词标记 mark of word segmentation
汉语句子中可以作为分词依据的标记。书面语的分词标记主要有:1.自然的分词标记,例如标点符号等;2.非自然的分词标记,例如没有构词能力的单音节单纯词。
分词单位 unit of word segmentation
汉语信息处理使用的、具有确定的语义和(或)语法功能的基本单位。
交集型歧义切分字段 overlapping ambiguous segmentation
在汉字字符串ABC中,AB是词,BC也是词,称ABC为交集型歧义切分字段。例如在“会诊断”中,“会诊”是词,“诊断”也是词,“会诊断”就是一个交集型歧义切分字段。
组合型歧义切分字段 combination ambiguous segmentation
又称“多义型歧义切分字段”。汉字字符串AB是词,同时A和B也分别是词,称AB为组合型歧义切分字段。例如在“将来”中,“将来”是词,同时“将”和“来”也分别是词,“将来”就是一个组合型歧义切分字段。
词频 word frequency
在一定范围的语料中统计词语的实际使用情况而得到的绝对频度和相对频度。绝对频度是词语出现的次数;相对频度是该次数与整个语料所含的词例总数之比。
词例 word token
词汇表中的词在语料中的每一次出现,称为一个词例。
词型 word type
语料中出现的词汇表里的各个不同的词,称为词型。
词汇差异度 vocabulary diversity
语料中平均每个词型所对应的词例数。
词汇集中度 vocabulary concentration
词汇在语料中集中出现的频度。
词长分布 distribution of word length
单词长度(即组成单词的单字或字母个数)的概率分布。
类属词 generic word
又称“上下位词”。表示概念体系中具有类属关系的词。这种类属关系是相连的上下级层次,既不能位于相同层次,也不能跨越几个层次。
句法树 syntactic tree
表示句法分析结果的树形图。说明在一个句子中各个语言成分的结构、层次和功能关系。可分为二叉树和多叉树。
剖析树 parsing tree
从起始符号开始,运用语言规则逐步识别出句子的句法结构,描述这个推导过程的树形图称为剖析树。
标记树 annotated tree; labeled tree
结点上带有语法、语义等标记的树形图。
分析器 analyzer
根据词法、句法、语义等信息对语句进行形态、语法或语义分析的计算机程序。
歧义消解 disambiguation
又称“排歧”。利用各种分析方法将语言中歧义现象的不同理解区分开来的过程。
组块分析 chunk parsing; chunking
又称“基本短语分析”。一种识别和分析语句的局部结构的方法。认为一个句子中,从句法、韵律或意义的角度可以划出各种互不交叉、没有嵌套的句块,例如名词块、动词块、韵律块等。组块分析的目标是识别这些句块、分析句块内的结构和句块间的关系。与通常的句法分析方法相比,组块分析方法能够降低句子分析的难度,针对特定的应用目标,提高整体分析的效率。参见“部分句法分析”和“浅层分析”。
部分句法分析 partial parsing
一种句法分析方法。与通常的句法分析不同,这种方法通过降低分析深度提高分析效率和准确性,目标是识别句子中的某些成分,例如基本名词短语、非递归的动词短语等。参见“浅层分析”和“组块分析”。
浅层分析 shallow parsing
一种通过降低分析深度提高分析效率和准确性的语句分析策略。其目标是识别和分析句子中某些局部成分的句法或语义结构。参见“部分句法分析”和“组块分析”。
标准通用置标语言 standard generalized markup language;SGML
又称“标准通用标记语言”。置标语言是描述书面自然语言的文档结构的语言,标准通用置标语言(SGML)是由国际标准化组织制定的定义电子文件结构和内容描述的标准。目的是促进语言信息格式的标准化,便于自然语言文本信息的交换。一个SGML语言程序由语法定义、文件类型定义和文件实例三部分组成。语法定义给出文件类型定义和文件实例的语法结构;文件类型定义给出文件实例的结构和组成结构的元素类型;文件实例是SGML语言程序的主体部分。在计算机处理过程中,置标语言的标记既可以作为数据,也可以作为控制语句来使用。
超文本置标语言 hypertext markup language; HTML
又称“超文本标记语言”。标准通用置标语言(SGML)的一种文件类型。可用于文本信息的结构化——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。它对一类特定的文件定义描述信息的方法,用于因特网上电子文本的传输和共享。
可扩展置标语言 extensible markup language; XML
又称“可扩展标记语言”。标准通用置标语言(SGML)的子集。用来定义电子文件的类型,制作和管理用SGML定义的文件,以便在因特网上传输和共享。
产生式语言 production language
一种常用的知识表示语言。描述一个(或一些)事件的存在导致另一事件的产生。用符号方法表述如下:if A then B或A→B。其中A称为前件,B称为后件,→表示由A真导致B真。
有向图 directed graph
由一组结点和一组有向边所构成的图结构。
二叉树 binary tree
一种树形数据结构。其中每个结点至多有两棵子树,其中一棵称为左子树,另一棵称为右子树。
决策树 decision tree
又称“判定树”。一种具有判别功能的树形结构。其中结点代表一些确定分类的具体条件。它实际上是一种分类规则,通过它对输入的对象集合进行分类。
故事树 story tree
用来描述故事的篇章结构的树形图。包括背景和各种情节,主要用于研究记忆和语篇理解。
复杂特征 complex features
在基于合一的语法中,对语言单位具有的语音、语法、语义、语用等信息所进行的多重性质的描述。
概念描述concept description
又称“概念描写”。使用描述符对某类对象的内涵进行定义,并概括这类对象的有关特征。可分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
语言羡余 language redundancy
在识别或理解一个语言单位时,如果某个特征(语音的、语法的等)可不必出现,它就是羡余的。非羡余的特征才构成区别性特征。
语义基元 semantic primitive
从词语中抽象出来的表示行为或状态的基本概念。可以用它们和它们的组合来描述句子内部的语义关系。
语义解释 semantic interpretation
根据语义规则对句法分析生成的句法结构赋予意义的过程。
语义模式 semantic pattern
用来表示语句中词与词之间语义关系的格式。在优选语义理论中是“实体—动作—实体”的三元组合。
知识表示 knowledge representation; KR
用形式化的表达方式表示常识、知识和推理过程。目的是让计算机能够自动分析自然语言中体现的常识知识以及特定的语言交际环境中出现的具体知识。
框架语义学 frame semantics
一种语义学理论。认为要理解语言中词语的意义,需要先具备语义框架即概念结构的知识。框架是人们在理解语言时激活的头脑中已有的认知结构,语义框架提供词语的意义在语言中存在以及在话语中使用的背景和动因。不同的框架由不同类型和数量的框架元素构成,用来描写词语的意义和功能。
数理逻辑语义学 logical and mathematical semantics
运用数理逻辑方法来描述和分析语义现象的理论。
概念依存理论 conceptual dependency theory又称“概念从属理论”“CD理论”。一种语言自动分析方法。它试图用有限数量的基本概念(语义基元)组成各种集合,构造概念依存表达式来表示语句的意义。
优选语义学 preference semantics
一种语言自动分析方法。用语义公式表示词义、用语义模式表示短语或句子、用语义优先选择的方式表示词语之间的语义限制。
语言串理论 linguistic string theory
用结构主义观点描述语言的一种自动句法分析方法。认为每一个句子都可以看做由若干个基本串通过附加、连接和替换等方式组合而成。这些基本串中至少有一个是中心串,代表句子的基干。每一个句子都由一个中心串加上零个或多个基本附加成分组成。从中心串出发通过逐渐扩展的方式,可以生成语言中无限多的、任意复杂的句子。
语言的随机模型 stochastic model of language用概率统计的方法来表示语言单位内在的统计规律的模型。常用的有n元语法以及隐马尔可夫模型等。
元理论 meta theory
D.Hilbert采用分层理论的办法。把理论分为两层,一层是需要证明其相容性的系统,称为“对象理论”;另一层是作为证明工具的系统,称为“元理论”。元理论必须简单清晰,正确可靠。
元语法 metagrammar
可以用来生成语法的元规则的集合。通过元规则来揭示语法中规则之间存在的规律。
语言知识库 language knowledge base
收录关于语言系统或语言使用的各种信息的语料库或数据库。一般按照某个范畴体系或概念层级系统进行形式化的描述和组织,能够为语言信息处理的基础研究和应用开发提供支持。例如:带标注的或不带标注的、单语的或双语平行的语料库、语法信息词典、语义信息词典、专业术语词典、句法树库、语义结构标注语料库等。
语料库 corpus
储存在计算机中的大量自然语言素材的集合。这些素材是书面文本、言语录音或其转写,可以应用于语言学研究、语言教学、辞书编纂、自然语言处理等领域。
平衡语料库 balanced corpus
在语料采集时按照平衡性原则进行随机抽样,使语料的类别分布比例和时间分布比例相对均匀,能够充分反映和记录语言的实际使用情况的语料库。书面语语料类别的平衡性要素通常包括文类、语体、语式、主题、媒体等。
双语语料库 bilingual corpus
收录了两种语言文本的语料库。可分为平行语料库(Parallel Corpus)和比较语料库(Comparable Corpus)两种类型。在平行语料库中,两种语言的文本互为译文。比较语料库是把表述同样内容的不同语言的文本收集在一起,这些不同语言的文本之间不存在翻译关系。
术语库 terminology bank
又称“术语数据库”。存储专业术语的数据库。数据库中的每条记录是一个专业术语和与该术语有关的各种信息,例如注释、类别、出处、语言学特征、其他语种的译名等。
机器词典 machine dictionary
对词语条目的语音、词法、句法、语义、用法等信息进行系统的形式化描述,存储在计算机里的词典,可以为各种自然语言处理系统提供语言知识资源。
语义词典 semantic dictionary
收录词汇语义信息的语言知识库。除了描述词汇意义以外,通常还描述词语之间的各种意义关系,包括聚合关系和组合关系,也常用网状结构或树形结构表示词语的概念之间的各种关系,例如同义关系、反义关系、上下位关系、整体-部分关系等。
用户词典 user specific dictionary
应用型自然语言信息处理系统中为特定用户设计的、便于该用户使用和维护的机器词典。
词典结构 dictionary configuration
机器词典中词项以及词项具有的各种信息的组织形式。
词典信息 dictionary information 机器词典对每个词项的语音、词法、句法、语义特征或用法的形式化描述。
词型和词例关系 relation between type and token
又称“类型和类例关系”。在一个文本中词型的全部数目与词例的全部数目之间的关系。
词性标注 part of speech tagging
在给定的语句中判定每个词的词性并加以标注的过程。通常指采用规则或统计方法进行的自动标注,是语料库加工的基本任务,其难点是兼类词的歧义排除问题。
词义自动标注 word sense tagging 又称“语义自动排歧”。用计算机分析和辨识语句中的词语的意义,确定其义项并加以标注的过程。
文本对齐 text alignment; bilingual alignment又称“双语对齐”。在平行语料库中原文和译文的相同语言单位之间建立对应关系的过程。平行的语料文本之间存在着多层次的对应关系,例如段落对齐、句子对齐、短语对齐和词对齐。
计算语言学 computational linguistics
一种涉及语言学、计算机科学和数学的边缘学科。用数学、计算机科学和技术的方法研究语言,研制计算机处理语言的软件。研究成果可用于自然语言理解与生成、语音识别与合成、机器翻译、信息检索、信息挖掘、文献自动分类、文献自动摘要、计算机辅助语言教学等领域。
计算词汇学 computational lexicology
计算语言学的一个分支。用计算机科学或数学的方法从意义、形态、结构等方面研究自然语言的词汇结构和词汇系统,建立面向各种应用目标的机器词典和语料库。
计算语义学 computational semantics
计算语言学的一个分支。运用数学方法(主要是谓词逻辑、内涵逻辑等数理逻辑方法)构建语义模型,把语义分析作为一个计算过程来研究。
数理语言学 mathematical linguistics
用数学思想和数学方法研究语言现象的学科。通常采用集合论、数理逻辑、算法理论等代数方法,或采用概率论、数理统计、信息论等方法来建立语言的数学模型,分析描述语言成分出现和分布的统计规律。可分为代数语言学(algebraic linguistics)、统计语言学(statistical linguistics)等。
语料库语言学 corpus linguistics
语言学的一个分支。把大规模的真实的自然语言数据(书面文本或言语录音的转写)作为语言学描写、验证语言假说或建立语言学统计模型的依据。也是一种以语料库为基础的语言研究方法。包括:1.对自然语料进行加工、标注;2.应用已经标注好的语料进行语言研究和应用开发。有时也可以使用未加工过的语料进行语言研究或辞书编纂。
自然语言处理 natural language processing
研究使用计算机处理在人际交际或人机交际中的自然语言问题的学科。主要研究表示语言能力和语言应用的模型,建立计算框架来实现并不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。计算机对自然语言的研究和处理,一般应经过以下过程:1.把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;2.把这种严密而规整的数学形式表示为算法,使之在计算上形式化;3.根据算法编写计算机程序,使之在计算机上加以实现;4.对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足应用的要求。
自然语言理解 natural language understanding
在研究自然语言的机制和实现过程的基础上,用计算机分析口语或书面语,理解它们所表达的意思,并用形式化的方式表示出来。自然语言理解的过程是从语音或文本映射到意义。
自然语言生成 natural language generation
在研究自然语言的机制和实现过程的基础上,用计算机把要表达的意思从非语言形式的输入构造成自然语言输出,并以口语或书面语的形式表达出来。自然语言生成的过程是从意义映射到语音或文本。
语言工程 language engineering
指开发和研制识别、理解、生成人类语言的计算机系统的技术和领域。包括机器翻译、信息检索、文本分类、自动文摘等。
人工智能 artificial intelligence
一种交叉学科。利用计算机系统模拟人类的智能活动,完成人用智能才能完成的任务。包括专家系统、自然语言理解、机器学习、自动定理证明、模式识别、知识工程、智能数据库、自动编程、智能控制等。
信息论 information theory
关于信息的本质和传输规律的科学理论。研究信息的计量、发送、传递、交换、接收和储存等。
本体知识体系 ontology
对概念体系的明确的、形式化的、可共享的规范。“概念体系”指所描述的客观世界的现象中有关概念的抽象模型,“明确”指对于所使用的概念的类型以及概念用法的约束都明确地加以定义,“形式化”指本体知识体系应该是机器可读的,“共享”指本体知识体系中所描述的知识不是个人专有的而是集体共有的。本体知识体系是构建自然语言词汇系统的重要理论基础。
汉字信息处理 Chinese character information processing
中文信息处理的一个重要组成部分。用计算机对汉字信息进行操作和加工,包括汉字的输入、存储、识别、生成和输出等。
汉字编码 Chinese character encoding; Chinese character coding
按照一定的规则,对指定的汉字集内的元素编制相应的代码。
汉字识别 Chinese character recognition
利用计算机抽取汉字字形特征,实现对汉字的自动输入。可分为联机手写体汉字识别、印刷体汉字识别和手写体汉字识别。
汉语分词 Chinese word segmentation; Chinese word tokenization
又称“汉语自动分词”“汉语切词”“汉语自动切词”。依据一定的原则和方法,按照分词单位对汉语语句进行切分的过程。
分词标记 mark of word segmentation
汉语句子中可以作为分词依据的标记。书面语的分词标记主要有:1.自然的分词标记,例如标点符号等;2.非自然的分词标记,例如没有构词能力的单音节单纯词。
分词单位 unit of word segmentation
汉语信息处理使用的、具有确定的语义和(或)语法功能的基本单位。
交集型歧义切分字段 overlapping ambiguous segmentation
在汉字字符串ABC中,AB是词,BC也是词,称ABC为交集型歧义切分字段。例如在“会诊断”中,“会诊”是词,“诊断”也是词,“会诊断”就是一个交集型歧义切分字段。
组合型歧义切分字段 combination ambiguous segmentation
又称“多义型歧义切分字段”。汉字字符串AB是词,同时A和B也分别是词,称AB为组合型歧义切分字段。例如在“将来”中,“将来”是词,同时“将”和“来”也分别是词,“将来”就是一个组合型歧义切分字段。
词频 word frequency
在一定范围的语料中统计词语的实际使用情况而得到的绝对频度和相对频度。绝对频度是词语出现的次数;相对频度是该次数与整个语料所含的词例总数之比。
词例 word token
词汇表中的词在语料中的每一次出现,称为一个词例。
词型 word type
语料中出现的词汇表里的各个不同的词,称为词型。
词汇差异度 vocabulary diversity
语料中平均每个词型所对应的词例数。
词汇集中度 vocabulary concentration
词汇在语料中集中出现的频度。
词长分布 distribution of word length
单词长度(即组成单词的单字或字母个数)的概率分布。
类属词 generic word
又称“上下位词”。表示概念体系中具有类属关系的词。这种类属关系是相连的上下级层次,既不能位于相同层次,也不能跨越几个层次。
句法树 syntactic tree
表示句法分析结果的树形图。说明在一个句子中各个语言成分的结构、层次和功能关系。可分为二叉树和多叉树。
剖析树 parsing tree
从起始符号开始,运用语言规则逐步识别出句子的句法结构,描述这个推导过程的树形图称为剖析树。
标记树 annotated tree; labeled tree
结点上带有语法、语义等标记的树形图。
分析器 analyzer
根据词法、句法、语义等信息对语句进行形态、语法或语义分析的计算机程序。
歧义消解 disambiguation
又称“排歧”。利用各种分析方法将语言中歧义现象的不同理解区分开来的过程。
组块分析 chunk parsing; chunking
又称“基本短语分析”。一种识别和分析语句的局部结构的方法。认为一个句子中,从句法、韵律或意义的角度可以划出各种互不交叉、没有嵌套的句块,例如名词块、动词块、韵律块等。组块分析的目标是识别这些句块、分析句块内的结构和句块间的关系。与通常的句法分析方法相比,组块分析方法能够降低句子分析的难度,针对特定的应用目标,提高整体分析的效率。参见“部分句法分析”和“浅层分析”。
部分句法分析 partial parsing
一种句法分析方法。与通常的句法分析不同,这种方法通过降低分析深度提高分析效率和准确性,目标是识别句子中的某些成分,例如基本名词短语、非递归的动词短语等。参见“浅层分析”和“组块分析”。
浅层分析 shallow parsing
一种通过降低分析深度提高分析效率和准确性的语句分析策略。其目标是识别和分析句子中某些局部成分的句法或语义结构。参见“部分句法分析”和“组块分析”。
标准通用置标语言 standard generalized markup language;SGML
又称“标准通用标记语言”。置标语言是描述书面自然语言的文档结构的语言,标准通用置标语言(SGML)是由国际标准化组织制定的定义电子文件结构和内容描述的标准。目的是促进语言信息格式的标准化,便于自然语言文本信息的交换。一个SGML语言程序由语法定义、文件类型定义和文件实例三部分组成。语法定义给出文件类型定义和文件实例的语法结构;文件类型定义给出文件实例的结构和组成结构的元素类型;文件实例是SGML语言程序的主体部分。在计算机处理过程中,置标语言的标记既可以作为数据,也可以作为控制语句来使用。
超文本置标语言 hypertext markup language; HTML
又称“超文本标记语言”。标准通用置标语言(SGML)的一种文件类型。可用于文本信息的结构化——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。它对一类特定的文件定义描述信息的方法,用于因特网上电子文本的传输和共享。
可扩展置标语言 extensible markup language; XML
又称“可扩展标记语言”。标准通用置标语言(SGML)的子集。用来定义电子文件的类型,制作和管理用SGML定义的文件,以便在因特网上传输和共享。
产生式语言 production language
一种常用的知识表示语言。描述一个(或一些)事件的存在导致另一事件的产生。用符号方法表述如下:if A then B或A→B。其中A称为前件,B称为后件,→表示由A真导致B真。
有向图 directed graph
由一组结点和一组有向边所构成的图结构。
二叉树 binary tree
一种树形数据结构。其中每个结点至多有两棵子树,其中一棵称为左子树,另一棵称为右子树。
决策树 decision tree
又称“判定树”。一种具有判别功能的树形结构。其中结点代表一些确定分类的具体条件。它实际上是一种分类规则,通过它对输入的对象集合进行分类。
故事树 story tree
用来描述故事的篇章结构的树形图。包括背景和各种情节,主要用于研究记忆和语篇理解。
复杂特征 complex features
在基于合一的语法中,对语言单位具有的语音、语法、语义、语用等信息所进行的多重性质的描述。
概念描述concept description
又称“概念描写”。使用描述符对某类对象的内涵进行定义,并概括这类对象的有关特征。可分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
语言羡余 language redundancy
在识别或理解一个语言单位时,如果某个特征(语音的、语法的等)可不必出现,它就是羡余的。非羡余的特征才构成区别性特征。
语义基元 semantic primitive
从词语中抽象出来的表示行为或状态的基本概念。可以用它们和它们的组合来描述句子内部的语义关系。
语义解释 semantic interpretation
根据语义规则对句法分析生成的句法结构赋予意义的过程。
语义模式 semantic pattern
用来表示语句中词与词之间语义关系的格式。在优选语义理论中是“实体—动作—实体”的三元组合。
知识表示 knowledge representation; KR
用形式化的表达方式表示常识、知识和推理过程。目的是让计算机能够自动分析自然语言中体现的常识知识以及特定的语言交际环境中出现的具体知识。
框架语义学 frame semantics
一种语义学理论。认为要理解语言中词语的意义,需要先具备语义框架即概念结构的知识。框架是人们在理解语言时激活的头脑中已有的认知结构,语义框架提供词语的意义在语言中存在以及在话语中使用的背景和动因。不同的框架由不同类型和数量的框架元素构成,用来描写词语的意义和功能。
数理逻辑语义学 logical and mathematical semantics
运用数理逻辑方法来描述和分析语义现象的理论。
概念依存理论 conceptual dependency theory又称“概念从属理论”“CD理论”。一种语言自动分析方法。它试图用有限数量的基本概念(语义基元)组成各种集合,构造概念依存表达式来表示语句的意义。
优选语义学 preference semantics
一种语言自动分析方法。用语义公式表示词义、用语义模式表示短语或句子、用语义优先选择的方式表示词语之间的语义限制。
语言串理论 linguistic string theory
用结构主义观点描述语言的一种自动句法分析方法。认为每一个句子都可以看做由若干个基本串通过附加、连接和替换等方式组合而成。这些基本串中至少有一个是中心串,代表句子的基干。每一个句子都由一个中心串加上零个或多个基本附加成分组成。从中心串出发通过逐渐扩展的方式,可以生成语言中无限多的、任意复杂的句子。
语言的随机模型 stochastic model of language用概率统计的方法来表示语言单位内在的统计规律的模型。常用的有n元语法以及隐马尔可夫模型等。
元理论 meta theory
D.Hilbert采用分层理论的办法。把理论分为两层,一层是需要证明其相容性的系统,称为“对象理论”;另一层是作为证明工具的系统,称为“元理论”。元理论必须简单清晰,正确可靠。
元语法 metagrammar
可以用来生成语法的元规则的集合。通过元规则来揭示语法中规则之间存在的规律。
语言知识库 language knowledge base
收录关于语言系统或语言使用的各种信息的语料库或数据库。一般按照某个范畴体系或概念层级系统进行形式化的描述和组织,能够为语言信息处理的基础研究和应用开发提供支持。例如:带标注的或不带标注的、单语的或双语平行的语料库、语法信息词典、语义信息词典、专业术语词典、句法树库、语义结构标注语料库等。
语料库 corpus
储存在计算机中的大量自然语言素材的集合。这些素材是书面文本、言语录音或其转写,可以应用于语言学研究、语言教学、辞书编纂、自然语言处理等领域。
平衡语料库 balanced corpus
在语料采集时按照平衡性原则进行随机抽样,使语料的类别分布比例和时间分布比例相对均匀,能够充分反映和记录语言的实际使用情况的语料库。书面语语料类别的平衡性要素通常包括文类、语体、语式、主题、媒体等。
双语语料库 bilingual corpus
收录了两种语言文本的语料库。可分为平行语料库(Parallel Corpus)和比较语料库(Comparable Corpus)两种类型。在平行语料库中,两种语言的文本互为译文。比较语料库是把表述同样内容的不同语言的文本收集在一起,这些不同语言的文本之间不存在翻译关系。
术语库 terminology bank
又称“术语数据库”。存储专业术语的数据库。数据库中的每条记录是一个专业术语和与该术语有关的各种信息,例如注释、类别、出处、语言学特征、其他语种的译名等。
机器词典 machine dictionary
对词语条目的语音、词法、句法、语义、用法等信息进行系统的形式化描述,存储在计算机里的词典,可以为各种自然语言处理系统提供语言知识资源。
语义词典 semantic dictionary
收录词汇语义信息的语言知识库。除了描述词汇意义以外,通常还描述词语之间的各种意义关系,包括聚合关系和组合关系,也常用网状结构或树形结构表示词语的概念之间的各种关系,例如同义关系、反义关系、上下位关系、整体-部分关系等。
用户词典 user specific dictionary
应用型自然语言信息处理系统中为特定用户设计的、便于该用户使用和维护的机器词典。
词典结构 dictionary configuration
机器词典中词项以及词项具有的各种信息的组织形式。
词典信息 dictionary information 机器词典对每个词项的语音、词法、句法、语义特征或用法的形式化描述。
词型和词例关系 relation between type and token
又称“类型和类例关系”。在一个文本中词型的全部数目与词例的全部数目之间的关系。
词性标注 part of speech tagging
在给定的语句中判定每个词的词性并加以标注的过程。通常指采用规则或统计方法进行的自动标注,是语料库加工的基本任务,其难点是兼类词的歧义排除问题。
词义自动标注 word sense tagging 又称“语义自动排歧”。用计算机分析和辨识语句中的词语的意义,确定其义项并加以标注的过程。
文本对齐 text alignment; bilingual alignment又称“双语对齐”。在平行语料库中原文和译文的相同语言单位之间建立对应关系的过程。平行的语料文本之间存在着多层次的对应关系,例如段落对齐、句子对齐、短语对齐和词对齐。