集安| 息烽| 渠县| 隆回| 通江| 蔚县| 上蔡| 方山| 宝坻| 惠东| 老河口| 吉隆| 兴隆| 阿城| 二连浩特| 靖西| 英德| 莘县| 娄烦| 大同区| 吉安县| 湖口| 温江| 三水| 鄂伦春自治旗| 上犹| 绿春| 稷山| 如皋| 城阳| 扶绥| 龙口| 南京| 平罗| 湘潭县| 江山| 江宁| 达县| 宣化区| 赤城| 沾益| 墨脱| 黑河| 吴中| 黄石| 十堰| 株洲市| 武山| 长阳| 宁河| 庆安| 新蔡| 淄博| 桂东| 黄陵| 和平| 西固| 望都| 庆阳| 勐腊| 清镇| 惠农| 巴彦| 义县| 筠连| 钟山| 陇县| 小河| 辉县| 彭阳| 玉溪| 丰南| 金坛| 平昌| 水城| 莘县| 嵊州| 双峰| 卫辉| 沙河| 龙里| 图们| 天等| 集安| 禹城| 双江| 黄埔| 友谊| 顺平| 博爱| 江夏| 杞县| 资阳| 藁城| 山东| 无极| 岳普湖| 分宜| 克东| 耒阳| 达县| 卓尼| 宜昌| 沁县| 金秀| 张家川| 灌阳| 厦门| 淮南| 云县| 嘉禾| 土默特左旗| 汕头| 淮阳| 宁蒗| 通江| 鹤壁| 莒县| 瓯海| 容城| 布尔津| 木兰| 泸西| 蓝田| 费县| 襄汾| 交城| 阿瓦提| 常熟| 琼中| 德阳| 唐河| 横山| 歙县| 浙江| 德兴| 鸡东| 临潭| 鱼台| 望奎| 铜山| 太湖| 泰安| 唐河| 眉山| 定边| 元江| 迁西| 呼伦贝尔| 江阴| 宜川| 岷县| 大化| 牟定| 滨州| 千阳| 逊克| 比如| 崇信| 汉中| 罗甸| 祁县| 潜山| 日喀则| 万载| 泸水| 鹤山| 永寿| 汪清| 弥勒| 长清| 滕州| 凤台| 尚义| 长阳| 南安| 乌拉特中旗| 扶余| 泰州| 达拉特旗| 上饶县| 葫芦岛| 上海| 寿阳| 曲麻莱| 五华| 日喀则| 乌恰| 若羌| 景宁| 敦化| 宜良| 上饶县| 陇西| 大方| 南投| 安西| 曲阜| 洞头| 平坝| 榆中| 大庆| 东西湖| 米脂| 名山| 勉县| 平原| 莱西| 九龙| 嘉定| 定结| 永城| 肃北| 柳州| 安仁| 洛阳| 左权| 邗江| 乌拉特前旗| 新蔡| 凤县| 明光| 奇台| 土默特右旗| 辽源| 山东| 漳州| 远安| 永寿| 蔚县| 相城| 塔什库尔干| 道孚| 扎囊| 无锡| 勐腊| 常熟| 岳阳市| 无为| 惠安| 香格里拉| 全州| 湛江| 临邑| 桐柏| 澄江| 鹤岗| 两当| 平陆| 务川| 新巴尔虎左旗| 肃宁| 武进| 临清| 科尔沁左翼中旗| 武安| 冷水江| 共和| 西固| 乐东| 广汉| 离石| 沾益| 马尾| 澳门网上赌博
首页| 滚动| 国内| 国际| 军事| 社会| 财经| 产经| 房产| 金融| 证券| 汽车| I T| 能源| 港澳| 台湾| 华人| 侨网| 经纬
English| 图片| 视频| 直播| 娱乐| 体育| 文化| 健康| 生活| 葡萄酒| 微视界| 演出| 专题| 理论| 新媒体| 供稿

百度发布即时翻译“神器” 突破自然语言处理重大难关

2018-12-10 15:14 来源:中国新闻网 参与互动 
标签:点击鼠标 澳门威尼斯人官网 长岭集团

  中新网10月24日电 人工智能领域,两种语言的“即时互译”是一项难以攻克的技术问题,其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。近日,百度研发了具备预测能力和可控延迟的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大地推动作用。

  机器同传利用语音识别技术自动识别演讲者的讲话内容,将语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成播放出来。相比人类译员,机器最大的优势是不会因为疲倦而导致译出率下降,能将所有“听到”的句子全部翻译出来,这使得机器的“译出率”可以达到100%,远高于人类译员的60%-70%。同时,在价格上也占有优势。

  在机器同传领域,百度联合语音技术、机器翻译技术,从语音识别、翻译质量、时延、融合领域知识等方面推出了“一揽子”解决方案。

  在语音识别方面,区别于传统的上下文相关建模技术,百度提出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。该方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

  在翻译质量方面,提出了“语音容错”的对抗训练翻译模型,根据语音识别模型常犯的错误,在训练数据中有针对性的加入噪声数据,使得模型在接受到错误的语音识别结果时,也能够在译文中纠正过来。比如,语音识别系统将“大堂”错误的识别为“大唐”,这一对噪声词将被自动收录到训练数据中,并将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子用于训练,进而获得具有更强的容错能力模型。

  为了降低时延提升翻译质量,人类译员通常对演讲内容进行合理预测,百度开发人员从人类译员身上获得启示,研发了“wait-k words”模型,可以根据历史信息,直接预测翻译中目标语言词汇。该模型在翻译质量和翻译延迟之间做出了很好的平衡,用户可通过根据实际需求设定延迟时间(例如延迟1(k=1)词或延迟5(k=5)词)。比如,法语和西班牙语这种较为接近的语言,延迟可设置在比较低的水平;但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置为较高水平,以便于更好的应对差异。

  在同声传译时,经常会遇到不同领域的专业知识,这就要求同传人员在短时间内吸收大量相关领域的内容,这对他们也是极大地挑战。基于此,百度模仿人类同传的准备过程,提出了快速融合领域知识策略。该策略依托百度海量的互联网大数据,训练得到的具有通用翻译能力的模型;当它接到某一个领域的同传翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,得到相应领域增的强模型;最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。

  作为对外开放和商业国际化的需求之一,同声传译被广泛应用于政府间的峰会、多边谈判和其他商业场合,但是同传人员稀缺也成为了当前的棘手问题。为了解决全球范围内同传译员人数少、费用高等难题,越来越多开发者专注于机器同传的研发,百度也希望通过研发高质量机器同传技术和系统解决即时翻译难题。

  虽然机器同传有了新的突破,但它与经验丰富的同传人员相比,依然存在一定差距。百度翻译技术负责人表示,同传的目的并不在于取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛,也希望世界各地的人在AI的助力下早日实现“无障碍”交流。

【编辑:陈海峰】
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[京ICP证040655号] [京公网安备:110102003042-1] [京ICP备05004340号-1] 总机:86-10-87826688

Copyright ©1999- 2018 chinanews.com. All Rights Reserved

猴场镇 心和制衣 凤凰咀 南京乡 小草厂
慈恩寺乡 旧宅徐 省皮肤病院 柘山 工人文化宫
千台 雅阳镇 第二矿区第九虚拟村委会 柳林水村 魏公村南区社区
安屯乡 海光寺立交桥 努古斯台镇 新安傣族乡 大白杨村
澳门葡京网站 斗地主下载 澳门美高梅开户 澳门赌场排名 博彩信誉大全
总统网站 同乐城网站 牛牛游戏下载 百家乐策略 百家乐平台