勇敢心资源网

当前位置:首页 > 百科 / 正文

国外计算机科学教材系列:统计机器翻译

(2020-01-16 08:31:24) 百科
国外计算机科学教材系列:统计机器翻译

国外计算机科学教材系列:统计机器翻译

本书是介绍统计机器翻译理论和方法的教材。全书分三部分(总计11章),分别讨论基础知识、核心方法和前沿研究。全书首先简要介绍语言学和机率论基础知识,然后全面讨论各种经典统计机器翻译模型和系统实现方法,最后深入探讨统计翻译领域的最新进展和研究热点。对核心方法的论述按照统计机器翻译模型发展的过程逐步展开:基于词的模型、基于短语的模型和基于句法树的模型。从技术实现的角度,本书还介绍了统计翻译模型的参数训练方法、语言模型和参数平滑方法、解码算法和译文自动评测方法及系统整合方法等。

基本介绍

  • 中文名:宗成庆 张霄军
  • 外文名:Statistical Machine Translation
  • 书名:统计机器翻译
  • 作者:菲利普•科恩
  • 出版社:电子工业出版社
  • 页数:301页
  • 定价:55.00
  • 译者:宗成庆 张霄军
  • 出版日期:2012年9月1日
  • 语种:简体中文
  • ISBN:9787121175923, 7121175924
  • 品牌:电子工业出版社

内容简介

近年来,机器翻译领域因统计技术的出现而充满了活力,从而使人类语言自动翻译的梦想与实现更加接近。这本由该领域一位活跃的研究者撰写、经过课堂检验的教科书,向读者简要、通俗地介绍了该领域的最新研究方法,使读者能够通过《国外计算机科学教材系列:统计机器翻译》的学习为任何语言对构建机器翻译系统。

作者简介

作者:(德国)菲利普·科恩(Philipp Koehn) 译者:宗成庆 张霄军
菲利普·科恩,英国爱丁堡大学信息学院讲师(Iecturer)。欧洲EuroMatrix项目的科学协调员,同时参与了美国DARPA资助的研究项目。与机器翻译领域的知名公司如Systran和AsiaOnline等都建立了合作。实现了广为使用的解码器Pharaoh,同时领导着开源机器翻译工具Moses的开发
宗成庆,1998年3月毕业于中国科学院计算技术研究所,获博士学位。1998年5月至2000年4月在中国科学院自动化研究所从事博士后研究,博士后出站后留自动化所工作至今,现为模式识别国家重点实验室研究员、博士生导师。曾于1999年和2001年两次在日本国际电气通信基础技术研究所(ATR)做客座研究员,2004年在法国Grenoble信息与套用数学研究院机器翻译研究组(GETA—CLIPS,IMAG)做短期高访。主要研究方向为自然语言处理基础、机器翻译、文本分类和自动文摘等相关技术。作为项目负责人承担国家自然科学基金项目、国家“863”项目、国家支撑计画项目和国际合作研究项目等l0余项,在国内外重要学术期刊和会议上发表论文100余篇,其中在ComputationalLinguistics、Information Sciences、IEEE TASLP、ACM TALIP、Machine Translation及ACL、COLING、EMNLP等本领域权威期刊和会议上发表论文20多篇,出版学术专着1部,获8项国家发明专利。目前担任国际计算语言学联合会(ACL)汉语特别兴趣组(SIGHAN)候任主席(ChairElect)和亚洲自然语言处理联合会(AFNLP)执行理事,并担任国际学术期刊IEEE IntelligentSystems副主编(Associate Editor)、ACM TALIP副主编、UCPOL副主编、Machine Translation编委、JCST编委、《自动化学报》编委,以及中国中文信息学会常务理事、中国人工智慧学会理事和中国计算机学会中文信息技术专委会副主任等职务。2008年获中国科学院研究生院集中教学突出贡献奖。2009年获亚太地区语言、信息与计算国际会议(PACLIC)最佳论文奖,2010年获中国科学院“朱李月华优秀教师”奖。
张霄军,2008年6月毕业于南京师範大学,获博士学位。现为陕西师範大学外国语学院副教授,硕士生导师。2010年至2011年在英国曼彻斯特大学访学,研究方向为现代翻译技术。目前承担国家社科基金项目1项,参与国家自然科学基金项目1项及国家社科基金项目1项。在国际学术期刊Computational Linguistics、Information Retrieval、Language Learning&Technology和Applied Linguistics等发表学术论文4篇,在《当代语言学》和《计算机套用研究》等国内期刊发表学术论文50余篇。出版学术专着《语义组合与机器翻译》(科学出版社,2010),主(参)编教材多部。

图书目录

第1章绪论
1.1概述
1.1.1第1章:绪论
1.1.2第2章:词、句子和语料
1.1.3第3章:机率论
1.1.4第4章:基于词的翻译模型
1.1.5第5章:基于短语的翻译模型
1.1.6第6章:解码
1.1.7第7章:语言模型
1.1.8第8章:评测
1.1.9第9章:判别式训练
1.1.10第10章:整合语言学信息
1.1.11第11章:基于树的翻译模型
1.2机器翻译简史
1.2.1肇始
1.2.2ALPAC报告及其后果
1.2.3首批商用系统
1.2.4基于中间语系统的研究
1.2.5数据驱动方法
1.2.6目前的开发商
1.2.7技术现状
1.3套用
1.3.1全自动高质量机器翻译
1.3.2要旨翻译
1.3.3集成语音技术
1.3.4手持设备中的翻译
1.3.5后编辑
1.3.6译者的工具
1.4可用资源
1.4.1工具
1.4.2语料
1.4.3评测竞赛
1.5小结
1.5.1核心概念
1.5.2延伸阅读
1.6习题
第2章词、句子和语料
2.1词
2.1.1词例化
2.1.2词的分布
2.1.3词性
2.1.4形态学
2.1.5辞彙语义学
2.2句子
2.2.1句子结构
2.2.2语法理论
2.2.3句子结构的翻译
2.2.4语篇
2.3语料
2.3.1文本的类型
2.3.2获取平行语料
2.3.3句子对齐
2.4小结
2.4.1核心概念
2.4.2延伸阅读
2.4.3习题
第3章机率论
3.1机率分布估计
3.1.1估计分析
3.1.2常见机率分布
3.1.3基于统计的机率估计
3.2机率分布计算
3.2.1形式定义
3.2.2联合机率分布
3.2.3条件机率分布
3.2.4贝叶斯法则
3.2.5插值
3.3机率分布的特性
3.3.1均值和方差
3.3.2期望和方差
3.3.3熵
3.3.4互信息
3.4小结
3.4.1核心概念
3.4.2延伸阅读
3.4.3习题
第二部分核心方法
第4章基于词的翻译模型
4.1基于词的机器翻译
4.1.1辞彙翻译
4.1.2数据统计
4.1.3估计机率分布
4.1.4对齐
4.1.5IBM模型1
4.2学习辞彙翻译模型
4.2.1语料不完备问题
4.2.2期望最大化算法
4.2.3IBM模型1中的期望最大化算法
4.2.4困惑度
4.3确保流畅的输出
4.3.1流利译文的经验证据
4.3.2语言模型
4.3.3噪声信道模型
4.4更高级的IBM模型
4.4.1IBM模型2
4.4.2IBM模型3
4.4.3训练模型3:採样对齐空间
4.4.4IBM模型4
4.4.5IBM模型5
4.5词对齐
4.5.1词对齐任务
4.5.2词对齐质量评估
4.5.3基于IBM模型的词对齐
4.6小结
4.6.1核心概念
4.6.2延伸阅读
4.6.3习题
第5章基于短语的翻译模型
5.1标準模型
5.1.1基于短语的翻译模型提出的动因
5.1.2数学定义
5.2学习短语翻译表
5.2.1从词对齐中抽取短语
5.2.2一致性定义
5.2.3短语抽取算法
5.2.4套用实例
5.2.5短语翻译机率估计
5.3翻译模型的扩展
5.3.1对数线性模型
5.3.2双向翻译机率
5.3.3辞彙化加权
5.3.4词语惩罚
5.3.5短语惩罚
5.3.6作为分类问题的短语翻译
5.4调序模型的扩展
5.4.1调序限制
5.4.2辞彙化调序
5.5基于短语模型的期望最大化训练
5.5.1短语对齐的联合模型
5.5.2对齐空间的複杂度
5.5.3模型训练
5.6小结
5.6.1核心概念
5.6.2延伸阅读
5.6.3习题
第6章解码
6.1翻译过程
6.1.1翻译一个句子
6.1.2计算句子的翻译机率
6.2柱搜寻
6.2.1翻译选项
6.2.2通过假设扩展的解码过程
6.2.3计算複杂度
6.2.4翻译假设重组
6.2.5栈解码
6.2.6直方图剪枝和阈值剪枝
6.2.7调序限制
6.3未来代价估计
6.3.1不同的翻译困难
6.3.2翻译选项的未来代价估计
6.3.3任意输入跨度的未来代价估计
6.3.4在搜寻中使用未来代价
6.4其他解码算法
6.4.1基于覆盖栈的柱搜寻算法
6.4.2A*搜寻算法
6.4.3贪婪爬山解码
6.4.4有限状态转换机解码
6.5小结
6.5.1核心概念
6.5.2延伸阅读
6.5.3习题
第7章语言模型
7.1n元文法语言模型
7.1.1马尔可夫链
7.1.2估计
7.1.3困惑度
7.2计数平滑
7.2.1加1平滑法
7.2.2删除估计平滑法
7.2.3古德图灵平滑法
7.2.4评估
7.3插值和后备
7.3.1插值
7.3.2递归插值
7.3.3后备
7.3.4预测词的差异性
7.3.5历史的差异性
7.3.6修正的Kneser—Ney平滑算法
7.3.7评估
7.4控制语言模型的大小
7.4.1不同的n元文法的数目
7.4.2在磁碟上进行估计
7.4.3高效的数据结构
7.4.4减小辞彙表规模
7.4.5抽取相关的n元文法
7.4.6根据需要载入n元文法
7.5小结
7.5.1核心概念
7.5.2延伸阅读
7.5.3习题
第8章评测
8.1人工评测
8.1.1流利度和忠实度
8.1.2评测目的
8.1.3其他评测标準
8.2自动评测
8.2.1準确率和召回率
8.2.2词错误率
8.2.3BLEU:一个双语评测的替代指标
8.2.4METEOR
8.2.5关于评测的争论
8.2.6评测指标的评测
8.2.7自动评测不足的证据
8.3假设检验
8.3.1计算置信区间
8.3.2成对比较
8.3.3自举重採样
8.4面向任务的评测
8.4.1后编辑的代价
8.4.2内容理解测试
8.5小结
8.5.1核心概念
8.5.2延伸阅读
8.5.3习题
第三部分前沿研究
第9章判别式训练
9.1寻找候选译文
9.1.1搜寻图
9.1.2词格
9.1.3n—best列表
9.2判别式方法的原理
9.2.1译文的特徵表示
9.2.2标注译文的正确性
9.2.3监督学习
9.2.4最大熵
9.3参数调节
9.3.1实验设定
9.3.2Powell搜寻方法
9.3.3单纯型算法
9.4大规模判别式训练
9.4.1训练问题
9.4.2目标函式
9.4.3梯度下降
9.4.4感知机
9.4.5正则化
9.5后验方法与系统融合
9.5.1最小贝叶斯风险
9.5.2置信度估计
9.5.3系统融合
9.6小结
9.6.1核心概念
9.6.2延伸阅读
9.6.3习题
第10章整合语言学信息
10.1直译
10.1.1数字和名字
10.1.2名字翻译
10.1.3直译的有限状态方法
10.1.4资源
10.1.5反向直译与翻译
10.2形态学
10.2.1词素
10.2.2简化丰富的形态变化
10.2.3翻译形态丰富的语言
10.2.4单词拆分
10.3句法重构
10.3.1基于输入语言句法的调序
10.3.2学习调序规则
10.3.3基于词性标记的调序
10.3.4基于句法树的调序
10.3.5预留选择
10.4句法特徵
10.4.1方法论
10.4.2数的一致性
10.4.3一致性
10.4.4句法分析机率
10.5因子化翻译模型
10.5.1因子化翻译的分解
10.5.2因子化模型训练
10.5.3模组的融合
10.5.4高效解码
10.6小结
10.6.1核心概念
10.6.2延伸阅读
10.6.3习题
第11章基于树的翻译模型
11.1同步文法
11.1.1短语结构语法
11.1.2同步短语结构语法
11.1.3同步树替换文法
11.2同步文法的学习
11.2.1层次短语模型的学习
11.2.2句法翻译规则的学习
11.2.3规则的简化
11.2.4文法规则的打分
11.3基于句法分析算法的解码
11.3.1线图分析
11.3.2核心算法
11.3.3线图的组织
11.3.4假设重组
11.3.5栈剪枝
11.3.6文法规则的使用
11.3.7立方剪枝
11.3.8文法二叉化
11.3.9外向代价估计
11.4小结
11.4.1核心概念
11.4.2延伸阅读
11.4.3习题
参考文献
索引
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号