词频 | word frequency | 在一定范围的语料中统计词语的实际使用情况而得到的绝对频度和相对频度。绝对频度是词语出现的次数;相对频度是该次数与整个语料所含的总词次数之比。 | ||
长距离依存 | long-distance dependency | 句子中在逻辑上有依存关系的两个成分被其他成分分隔开来的现象。 | 长距离对应 | |
特征共现限制 | feature coocurrence restriction | 广义短语结构语法中用于合格性条件检验的投射原则之一。表示句法特征之间的相互依存关系。 | ||
合法性定义 | well-formed definition | 生成语法中关于句子的合语法性的规定。一个句子如果能由一部语法的规则生成就是合法的,否则就是不合法的。 | 合格性定义、合式性定义 | |
最高投射 | maximal projection | 生成语言学术语,投射指一部语法对任何一组给定句子的分析经扩展后也适用于整个语言无穷多潜在句子的能力。有各种不同的短语扩展类型,所有的完整短语(例如AP、NP、PP)都是最高投射。 | 最大投射 | |
功能限制方程 | constraint equation | 词汇功能语法中记录词汇信息的一种形式,它规定该词的某个属性必须是某个指定的值,限制短语结构规则的生成能力。 | 限制性等式 | |
中心词特征通律 | head feature convention | 广义短语结构语法中用于合格性条件检验的投射原则之一。表示父结点上的中心语特征应与子结点的中心语所含的特征一致。 | 中心语特征规约 | |
特征描述默认值 | feature specification defaults | 在不需作专门选择的情况下,系统自动给复杂特征集中的特征名指派的特征值。在广义短语结构语法中是用于合格性条件检验的投射原则之一。 | 特征赋值缺省 | |
术语库 | terminology bank | 存储专业术语的数据库。数据库中的每条记录是一个专业术语和与该术语有关的各种信息,如注释、类别、出处、语言学特征、其他语种的译名等。 | 术语数据库 | |
电子词典 | electronic dictionary | 存储在磁盘、光盘或集成电路等媒体上的词典。又分为人用电子词典和机用电子词典(也叫机器词典)。 | ||
概率上下文无关语法 | probabilistic context free grammar | 每一个产生式A→a都被附加了一个概率值的上下文无关语法。对所有的非终结符A,该概率分布必须满足:∑P(A→a)=1。又称随机上下文无关语法。 | ||
合一算法 | ①unification algorithm ②unification | 给定两个逻辑项A和B(由函数符、变量或常量组成),如果能够找到这样的逻辑项,用它(们)代换A、B中的变量后,得到完全相同的结果,则称代换的过程和结果是A、B的合一。实现代换的算法称为合一算法。在计算语言学中,用合一算法进行复杂特征集的属性匹配和赋值运算。 | ||
信息抽取 | information extraction | 利用计算机从一段非结构化或半结构化的文本中抽取指定的一类信息(例如事件、事实),并将其形成结构化数据,填入一个数据库中供用户查询使用的过程。 | 信息自动抽取、信息提取、信息自动提取 | |
自动文摘 | ① automatic text summarization ②automatic abstraction | 利用计算机自动地给指定的文章做摘要的过程。常见的是机械文摘,即根据文章的外在特征(词和短语的频率、文章的结构信息等)抽取能够表达该文中心意思的部分原文句子,并把它们组织起来形成连贯的摘要。 | ||
文本分类 | ①text categorization ②text classification | 在给定的分类体系下,利用计算机根据文本的内容自动判别文本类别的过程。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多映射(通常一篇文本可以同多个类别相关联)。 | 文本自动分类 | |
标准通用置标语言 | ①standard generalized markup language ②SGML | 置标语言是描述书面自然语言的文档结构的语言。标准通用置标语言(SGML)由国际标准化组织制定的定义电子文件结构和内容描述的标准。目的是促进语言信息格式的标准化,便于自然语言文本信息的交换。一个SGML语言程序由三部分组成:语法定义、文件类型定义和文件实例。语法定义部分给出文件类型定义和文件实例的语法结构;文件类型定义部分给出文件实例的结构和组成结构的元素类型;文件实例是 SGML语言程序的主体部分。在计算机处理过程中,置标语言的标记既可以作为数据,也可以作为控制语句来使用。 | 标准通用标记语言 | |
信息检索 | information retrieval | 计算机根据要求自动地从语料库或数据库等信息源中查询和提取有关信息的过程。 | ||
概念词典 | conceptual dictionary | 通过揭示词汇单位之间的各种语义关系,构成语言知识库的语义描写系统,并使之与某个具体知识领域的概念层级系统对应起来的词典。 | 意念词典义类词典 | |
语义词典 | semantic dictionary | 是为建立某种语言的词汇语义分类体系,从而为自然语言处理系统提供语义知识支持的词典。词典中的语义信息可以用来进行多义词的义项判别和歧义排除,增强对句子中词汇语义理解的准确性。 |