酷兔英语

章节正文

 

知网HowNet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。由董振东教授领导的研究组提出和建立。  
言语识别①speech recognition②automatic speech recognition ③ASR运用电子技术分析和识别人类言语并作出适当响应的过程。通常是用计算机把口语的语音形式自动转换成文本形式。自动言语识别、语音识别 
言语合成speech synthesis运用电子技术产生能让人听得懂的人工言语的过程。通常是用计算机把文本转换成语音。这一过程使用的设备称作言语合成器(speech synthesizer)。语音合成 
n元模型N-gram是一种概率模型,其中规定当前元素(如:词,词性等)出现的概率只同它前面出现的N-1个元素有关。N=1时就是一元模型(unigram),N=2时就是二元模型(bigram)。  
脚本script是描述人类某种活动的事件序列,是已成陈规的事件序列的知识。  
Brown语料库Brown Corpus始建于20世纪60年代初,由W.N.Francis和H.Kucera发起,在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语  
LOB语料库LOB Corpus始建于20世纪70年代初,由英国Lancaster大学的著名语言学家G.eoffrey和倡议,由挪威Oslo大学的Stig Johansson主持完成,最后装在挪威Bergen大学挪威人文科学计算中心(LOB语料库也因此以三家单位的首字母缩写得名)。规模与Brown语料库相当,主要代表了当代英国英语。  
COBUILD语料库COBUILD Corpus是80年代第一个以词典编撰为应用背景构建的大规模语料库,是英国Birmingham大学与 Collins出版社合作的结果,规模达到2000万词级。语料库名称也是两家单位的首字母缩写(Collins Birmingham University International Language Database)。  
Upenn树库Upenn treebank美国Pennsylvania大学80年代末90年代初开始发起了树库计划,对百万词级的语料进行句法结构标注。该项目由Pennsylvania大学计算机系M.Marcus主持,到1993年,完成了对近300万英语词的句子的基本法结构标注。  
文-语转换系统text to speech system将文本形式转换为语音形式的语音合成系统,称为"文-语转换系统"。这一系统的运作过程是,先对一输入文本作形态和音系分析,分析时考虑到规则和不规则形式这类问题。然后由字母-语音转换规则和其他一些专门特征生成词平面上的音系表征式,后者再转换成语音表征式(容纳连续言语的特征,包括句子韵律)。合成的实现靠一个基于规则的系统,输出由一个终端模拟合成器提供。  
语音清晰度diction一个人说话时的发音清晰程度。  
倒谱平滑cepstral smoothing一种处理语图的方法,它消除嗓音纹理,得到一条突出主要频带的平滑曲线。  
模数转换器①analog-to-digital converter ②ADC一个变换模拟信号为数字信号的电子器件。它通过很高的频率对模拟信号采样完成模数转换。根据采样定律,如果信号采用频率不低于两倍的信号最高频分量马厩不会有信息丢失,原始信号能够由采样值精确地重建。  
模拟信号analog signal一个连续变化的波形,因此它从一个值变到另一个值时经过其中的一切数值。通常的声波是一个模拟信号。  
信号signal在利用声波或电子技术进行信息的传播和重建过程中,指有意要传输和重建的信息。它与伴随的噪声相对立。  
Longman语料库Longman corpusLongman语料库建于80年代,由三个大语料库构成,规模达到5000万词级。包括 LLELC语料库(Longman/Lancaster英语语料库)、LSC语料库(Longman口语语料库)和LCLE(Longman英语学习语料库)。该语料库的主要目标之一是编撰英语学习词典,为外国人学习英语服务。  
ACL/DCI语料库ACL/DCI corpusACL/DCI是由美国计算语言学会(The Association for Computational Linguistics,简称ACL)倡议发起的语料库项目,收集语料范围相当广泛,包括华尔街日报、Collins英语词典、Brown语料库、 Pennsylvania大学开发的树库,以及一些双语和多语文本等。既有标注的语料,也有未标注的生语料。ACL/DCI最初构建语料库时,制定了语料文件的格式标准,所有收集的语料文本都用SGML语言进行描述,语料标注则依照TEI(Text Encoding Initiative)标准进行,为语料库在不同计算机环境下进行数据交换奠定了基础。  
双语语料库bilingual corpus包含两种语言文本的语料库,可以分为平行语料库(Parallel Corpus)和比较语料库(Comparable Corpus)两种类型。其中,平行语料库指的是语料库中的文本构成译文关系,根据标注层次可以细分为:文本级对齐平行语料库、段落级对齐平行语料库、句子级对齐平行语料库、词语级对齐平行语料库等;比较语料库指的是将表述同样内容的不同语言文本收集在一起形成的语料库,这些不同语言文本之间并不构成翻译关系。  
基于实例的机器翻译example-based machine translation以双语对照的翻译实例库作为主要知识源的机器翻译方法。实例库保存大量源语言句子和该句对应的译文。每当输入一个源语言句子S时,系统利用S和实例库中的源语句子进行比较,找出其中和S最为相似的句子S',并模拟S'的译文T'生成S的译文T,然后输出。  
基于规则的机器翻译rule-based machine translation以表达语言学知识的符号系统——规则系统为主要知识源的机器翻译方法。翻译过程在规则的驱动下完成。  
基于统计的机器翻译statistical machine translation建立在统计语言模型基础上的机器翻译方法。这种方法认为,机器翻译问题是一个噪声信道问题,一种语言S经过了一个噪声信道而发生了变形,从而在信道的另一端呈现为另外一种语言T,翻译实际上就是如何根据观察到的T,恢复最为可能的S的问题。用 Pr(S|T)表示S翻译成T的概率,那么翻译问题就成为:在观察到T的前提下,寻找一个S,使得Pr(S|T)取最大值。即 ,利用贝叶斯公式,有 ,因Pr(T)和S无关,故有 。其中Pr(S)称为语言S的语言模型,Pr(T|S)称为S到T的翻译模型。  
词频索引word frequency index为改进单词索引,同时采用非用词表和用词词表两种办法建立索引。其处理过程是,首先进行词频统计,然后用非用词表删除非用词,去掉高频词,建立用词词表,从而抽取用词,按字母排序生成词频索引。  
概念描述concept description使用描述符描述概念,在研究计算机的归纳学习时,大量的研究是让学习系统具有从给定的例子或观察出发,使用一些转换规则,最后得到某个概念,无论是初始的例子还是经规则转换得到的中间结果以及最终的概念,都需要一定的符号表示,这些符号就是描述符。概念描写 
语义对立semantic opposition概念上的对立在词汇意义上的反映,包括义位的对立和义素的对立,前者如"冷"与"热","大"与"小",后者如"简"与"牍","颈"与"项"。  
语义范围semantic coverage某一词语的语义能够在一定范围内对其它词语产生词义影响,如"我们也去北京"中的"我们"和"北京"均在"也"的语义范围之内,都有可能称为该句的信息中心,产生歧义的表达。  
语义连续统semantic continuum语义的连续性序列关系,如"冷"、"凉"、"温"和"热"这四个概念并没有一个离散的标准,而是一个连续的序列。  
故事树story tree用来描述故事语法的树结构图,包括背景和各种情节,主要用于研究记忆和语篇理解。  
焦点focus话语的关键部分,是交际过程中受话者注意力的所在,发话者详细描述的部分。  
长时记忆long term memory1.理解一个句子所需的各种背景知识,这些知识是人们在长期的实践中逐渐积累起来的。2.短期记忆神经元经过反复刺激后,由于反馈作用存在,致使阀值下降至0,从而成为长期记忆。  
自动记忆automatic memory系统自动地、自主地把相关信息保存起来。  
拒识率rejection rate被拒识的输入模式的数量占被识别的所有输入模式的总数的百分比,是衡量模式识别系统性能的重要指标。  
误识率error rate被误识的输入模式的数量占被识别的所有输入模式的总数的百分比,是衡量模式识别系统性能的重要指标。  
聚类clustering把相关对象聚成集合体,用相似性尺度来衡量事物之间的亲疏程度,并以此来分类。


文章标签:术语  

章节正文