华东师范大学MEM首席技术官系列 | 程国艮:AI助力机器翻译发展

来源: 华东师范大学MEM    作者: 原编    责任编辑: 杨雅欣     05/21/2022

4901



程国艮,现任中译语通科技股份有限公司首席技术官。2013年加入中译语通,从零开始组建团队,曾经带领团队先后承担了公司的译云、译库和译见等重大科技项目,在机器翻译、人工智能和大数据分析等技术领域取得了重要的技术成果,其中机器翻译技术达到世界领先水平;2014年程国艮带领团队开始向自然语言处理技术中最难的机器翻译技术发起攻坚,并确定了要做最好机器翻译的目标;2016年程国艮带领团队利用深度学习的方法开始了语音识别、图像识别和视频分析技术的研究。


01

跨语言大数据平台推动机器翻译发展


人类的认知正在随着技术形态的改变而不断变化。随着大数据、人工智能时代的到来,数据驱动与知识引导体系相融合已成为新的发展方向,并将为未来的技术革新带来更多启示。程国艮认为,当下人工智能再次被推到风口浪尖,这也让以大数据、人工智能为代表的第四次工业革命变得与众不同。


机器翻译,又称为自动翻译,是指计算机程序将一种书写形式或声音形式的自然语言翻译成另一种书写形式或声音形式的自然语言。机器翻译形式包括词典翻译、计算机辅助翻译和文本或语音的句子以及段落翻译。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。


程国艮表示,现阶段中国机器翻译行业并未诞生出专门的数据供应商,数据并不对外出售,多数机器翻译算法供应商以及数据供应商与机器翻译软件供应商集成一体。


2015年跨语言大数据的概念被提出,至今各家公司已经拥有了更加完善的数据版图。通过跨语言大数据平台,不仅完成了产品的升级与重构,同时也将服务深入到各个领域。程国艮认为,要打造完备的跨语言大数据平台,主要是将大数据平台与大数据应用进行分离,以组合拳的方式提供技术输出,并将数据范围由多语言的文本数据扩展到语音、影像等更多媒体的非结构化数据,并注入更强大的语言、视觉、语义等相关认知智能能力。跨语言大数据平台应该包括数据采集平台、数据治理平台、数据分析和可视化平台、DaaS数据服务平台、大数据管理平台和数据地图,覆盖大数据分析的全生命周期,为各个行业提供“一站式”解决方案,通过对海量数据进行深度挖掘,实现对数据价值的唤醒。他指出,跨语言大数据平台作为机器翻译技术生态的核心,将为各行业打造更加智能的大数据平台,突破无监督学习、综合深度推理等数据算法、分析难点问题,建立数据驱动、以自然语言理解为核心的认知计算模型,形成从大数据到知识、从知识到决策的能力升级。


02

机器翻译技术目前面临的问题


程国艮指出,虽然目前国内的机器翻译技术已经达到了很高的水平,但是现在依然面临着一些问题。图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像、图形相关运算工作的微处理器。


从1956年至1976年的符号智能,到1976年至2006年的计算智能,再到2006年至今的认知智能,随着技术的不断突破和发展,人工智能经历了几轮发展高潮。他认为,随着深度学习在图像识别领域的成功应用,全行业迎来了认知人工智能的飞速发展。在这一轮人工智能发展浪潮中,推动其高速发展的关键因素是数据和计算力。在新一轮技术发展面前,GPU更加适用人工智能所需的大规模通用并行计算能力。因此GPU成为很多人工智能公司的选择。“当今是GPU驱动的大数据和AI技术。”程国艮表示。


但是,当前GPU的基础——传统Z-buffer算法不能满足新的应用需求。在实时图形和视频应用中,需要更强大的通用计算能力,比如支持碰撞检测、近似物理模拟;在游戏中需要图形处理算法与人工智能和场景管理等非图形算法相结合。当前的GPU体系结构不能很好地解决电影级图像质量所需要解决的透明性、高质量反走样、运动模糊、景深和微多边形染色等问题,不能很好地支持实时光线跟踪、Reyes(Renders everything you ever saw)等更加复杂的图形算法,也难以应对高质量的实时3D图形需要的全局光照、动态和实时显示以及阴影、反射等问题。需要研究新一代的GPU体系结构突破这些限制。随着 VLSI 技术的飞速发展,新一代GPU芯片应当具有更强大的计算能力,可以大幅度提高图形分辨率、场景细节(更多的三角形和纹理细节)和全局近似度。图形处理系统发展的趋势是图形和非图形算法的融合以及现有的不同染色算法的融合。新一代的图形系统芯片需要统一灵活的数据结构、新的程序设计模型、多种并行计算模式。我们认为发展的趋势是在统一的、规则并行处理元阵列结构上,用数据级并行、操作级并行和任务级并行的统一计算模式来解决当前图形处理系统芯片面临的问题。


他提到,当前集成电路发展到纳米级工艺,不断逼近物理极限,出现了红墙问题:一是线的延迟比门的延迟越来越重要。长线不仅有传输延迟问题,而且还有能耗问题。二是特征尺寸已小到使芯片制造缺陷不可避免,要从缺陷容忍、故障容忍与差错容忍等三个方面研究容错与避错技术。三是漏电流和功耗变得非常重要,要采用功耗的自主管理技术。现代的图形处理器芯片在克服红墙问题的几个方面有了显著的进步:利用了大量的规则的SIMD阵列结构;它的分布存储器接近了运算单元,减少了长线影响;它的硬件多线程掩盖了部分存储延迟的影响。但是随着工艺进一步发展,当前GPU的体系结构难以适应未来工艺发展,没有在体系结构上应对长线问题、工艺偏差和工艺缺陷问题的措施,特别是没有考虑如何适应三维工艺。当前最先进工艺的晶体管的栅极厚度已经大约是五个原子。在制造时,少了一个原子就造成20%的工艺偏差。因此工艺的偏差成为SoC设计不能不考虑的问题。特别是到2018年后的纳米级电子集成电路,可以通过随机自组装产生规则的纳米器件。因此,新一代系统芯片的体系结构必须利用规则的结构并且容忍工艺偏差,具有容错、避错和重组的能力。我们认为采用大量同构处理器元之间的邻接技术,适应纳米级工艺和未来的三维工艺,采用新型体系结构和相关的低功耗、容错和避错的设计策略,对于未来的图形处理系统芯片具有重要的科学意义。


03

机器翻译未来的发展方向


程国艮表示,大数据发展的未来,必定是开放与共融的,在此基础上,他提到了未来机器翻译发展的方向。在数据共享的时代,真正能够去挖掘数据的价值,能够推动大数据产业发展的引擎是人工智能。谈到机器翻译的发展前景和出路,离不开三个关键词:语料库、大数据和云计算


语料库的开发和应用,开创了机器翻译一个全新的思路,语料库可以用于查询,也可以对语料进行分类和分析,对翻译实践和翻译研究都非常有帮助。翻译平行语料库的原理是呈现原文和译文进行对比,我们可以通过输入所需要翻译的原文,计算机在语料库中查询与此相同或相近的表达,语料库不一定给提供直接的译文,但是能够提供大量可供选择的参考资料,语料越丰富,与对比的原文就有更多更高的相似度,语料库的发展使得原文与语料的相似度无限接近。


由于翻译的复杂性,影响翻译的因素很多,现在很多翻译软件都已经考虑到这一点,在语料库的操作上加入了很多参数标签,缩小搜寻的范围,这些标签包括各种语境标签、文化标签、文体标签、行业术语标签、技巧策略标签等,往往标签越详细,得到的结果越精确。应用语料库的优势在于翻译会更加统一,讨论和借鉴的空间会更大,不再存在句法语义的错乱问题。


“云”指的是系统中的计算机群,其规模和能力理论上不受限制,而且可以在网络中任意地方,如谷歌的网络服务(包括搜索引擎谷歌地球等)架构在由多达200多万台计算机构成的云计算平台之上,Amazon、微软、IBM等的云计算平台也都达到了几十万台计算机的规模。借助云计算,网络服务提供者可以在瞬息之间,处理数以千万计甚至亿计的信息,实现和超级计算机同样强大的效能。传统的数据存放和处理都在本地电脑或某个固定的网络服务器上,云计算则把这一切都放在互联网上,只有通过账户和特别的加密和安全系统保护的账户信息,除拥有权限的人以外,其他人都无法接触,这是非常安全的。所以,语料库规模越来越庞大,云翻译将是未来机器翻译的发展方向。云翻译可以对海量的语料库信息进行采集、传输、存储和利用。在云翻译平台上,翻译公司可以将人才储备达到数万人,还有涵盖各行各业的专家队伍,翻译的速度和效率会倍增。


资料来源


1. 中译语通参加“英伟达GTC 2018” 程国艮副总裁畅谈GPU驱动的大数据和AI技术革命.中译语通.2018-11-22.

2.中译语通程国艮:人工智能——推动大数据产业发展的新引擎.银河教育.2017-08-04.


整理撰文 | CTO学院智库团队



华东师范大学工程管理硕士专业学位点于2021年设立,由华东师范大学实体教学科研机构上海国际首席技术官学院负责招生和培养。学院聚焦人工智能、集成电路、生物医药和若干战略性新兴产业,培养首席技术官和未来科技型战略企业家,服务国家科技创新发展战略。



版权声明

1、凡本网注明“来源:中国MBA教育网”的所有作品,均为中国MBA教育网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:中国MBA教育网”。违反上述声明者,本网将追究其相关法律责任。 
2、凡本网注明“来源:XXX(非中国MBA教育网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。 
3、本网不保证向用户提供的外部链接的准确性和完整性,该外部链接指向的不由本网实际控制的任何网页上的内容,本网对其合法性亦概不负责,亦不承担任何法律责任。

中国MEM教育网 问题反馈平台

您的身份

  • 院校老师
  • 备考生
  • 其他用户

如何称呼您

  • 先生
  • 女士

您提交的反馈意见

您的联系方式

您的每一个有效信息都至关重要
服务热线:010-8286 3124