转载自:云头条(ID:YunTouTiao)
作者:Minghe Hu,《南华早报》驻北京技术栏目记者
本文剖析了中美两国围绕AI技术的开发和部署展开的愈演愈烈的较量。
依赖美国的深度学习框架被视为是中国AI生态系统存在的一大缺口,可能阻碍2030年之前与美国缩小AI技术差距的计划。
中国在AI基础设施方面相对薄弱,这个事实越来越让人担忧;业内一些人士称,中国需要开发一种流行的机器学习框架或加强现有的机器学习框架,以防止AI领域出现世界末日的情形。
工程师Kuang Kaiming被分派到为上海一家初创公司开发AI技术的团队时,该公司选择了两种领先的开源软件库:谷歌的TensorFlow和Facebook的Pytorch。
决定采用美国的核心技术而非中国的替代技术,这颇能表明中国在基本AI基础设施方面很薄弱,尽管中国成功造就了商业上取得成功的大批AI公司。
Kuang所在的公司绝非个案,该公司的AI产品可检测X射线的异常。几乎所有中小型中国AI公司都依赖源自美国的开源平台,这些平台还包括MXNet和Caffe,因为除了需要顶尖人才外,从头开始自行开发一种框架还需要投入大量的时间和专用资源,才能确保框架顺畅运行,并支持众多使用场景。
TensorFlow和Pytorch之类的老牌开源平台提供了为机器学习和深度学习(这些技术或方法教计算机通过示例来学习)而设计的众多工具和库。
实际上,这些开源平台使深度学习实现大众化,几乎任何人都可以将数据馈入这些模型,并开始训练自己的AI系统,不必从头开始自行开发平台或框架。
百度在TensorFlow推出仅一年后,于2016年推出了其PaddlePaddle开源AI平台,但该平台未能在全球AI程序员当中受到追捧。
Kuang说:“使用PaddlePaddle就像是从一个功能较少的鲜为人知的品牌购买智能手机。” 8月份他加入点内生物科技有限公司,成为其医疗技术团队的一员。在这种情况下,“哪怕购买手机壳或充电线之类的配件也很困难。”
中国依赖源自美国的框架是其AI生态系统的一大缺口;除了数据、半导体和计算能力外,AI生态系统还包括算法和框架之类的基础性技术。
美国乔治敦大学安全和新兴技术中心的战略主管Helen Toner说:“中国显然想要在AI领域称霸世界,但如果开源框架基本上被美国主导,很难想象中国会被视为全球领导大国。”由于平台和工具包是开源的,因此使用它们的开发人员常常给予一些回馈,编写代码、修复错误或参加社区讨论,从而使软件变得比以前更出色、更强大。
Kuang说:“开源框架奉行赢家通吃的原则;由于已经有很多人使用TensorFlow和Pytorch,并为它们做出贡献,所以使用它们来执行商业应用软件比较明智。”他对TensorFlow的模块化功能大加赞赏,因而可以像添加构建模块那样添加功能特性。
百度的PaddlePaddle仍然相对不成气候。在代码托管平台Github上,它只有264个直接贡献者,而TensorFlow和Pytorch分别拥有2000多个和1000多个贡献者。
使用TensorFlow的不仅是像点内生物科技有限公司这样的小型中国AI初创公司。据TensorFlow网站上的用户名单显示,京东、中国移动、美团和搜狗等已采用了该平台的技术堆栈,用于各种深度学习应用领域。
虽然PaddlePaddle特别指出华为、英伟达和英特尔是采用其技术的用户,但用户名单上的国际知名公司明显少得多。
当然,鉴于TensorFlow和Pytorch之类的平台是开源且免费使用的,业内人士认为,中国不需要重新发明轮子。他们称,担心美国政府可能让中国无法使用TensorFlow和Pytorch之类的平台这种担心毫无根据,因为美国的出口限制不适用于开源软件。
Tony Han是自动驾驶公司WeRide的首席执行官,他之前是密苏里大学的副教授,专门研究深度学习和计算机视觉技术。他说:“TensorFlow和Pytorch只是开放的平台,说这是美国技术是不对的……世界上所有人都在为它做贡献……只要遵守许可条款,任何人都可以使用它。”
他说:“既然我们可以将宝贵的时间花在更具挑战性和紧迫性的问题上,为什么要重新发明轮子呢?对于学术界和AI行业来说,如果你想有所作为,就要组建一个国际团队,从世界各地吸引人才并进行合作。”
“谁开始限制他们的技术,谁就会被甩在后面。”
这场大辩论适逢旷日持久的美中贸易摩擦以及华盛顿方面对中国的技术雄心日益怀疑这个大环境,尤其是在像5G和AI这些行业。
为了实现成为全球AI领导者这一目标,包括百度、商汤科技、旷视科技和海康威视牵头领导中国关键项目并推动AI的发展,以期2030年之前缩小中美之间AI技术差距。
上个月美国将包括商汤科技、旷视科技、海康威视和科大讯飞在内的八家中国AI公司列入贸易黑名单,禁止它们从美国公司购买技术或部件/组件。
美国的这一举措还迫使一些美国私营科技公司采取先发制人的行动,尽量减小受中国技术的影响。
本月早些时候,总部位于旧金山的GitLab称,由于“当前地缘政治形势”方面的客户反馈,它正考虑暂停在中国和俄罗斯为处理用户数据的敏感岗位招聘新人。
虽然中国可以访问海量数据,重新发力以开发半导体(AI的两项关键基础性技术),但对于开发基本AI技术基础设施的关注却少得多。
百度无法通过PaddlePaddle受到追捧的部分原因是,像TensorFlow这样的领先的开源机器学习平台有内在的网络效应:公司企业和研究人员使用它们越频繁,它们的地位就显得越牢固。
谷歌和Facebook都投入了大量资金来聘请工程师团队以维护TensorFlow和Pytorch,还竭力将它们推销给从事AI算法研究的企业和学术界。这就意味着,比较小、不太受欢迎的平台(如PaddlePaddle)就很难获得市场份额,除非它们可以提供独特的东西。
有利于开源方法的理由之一是,它让谷歌和Facebook之类的公司得以享用已经熟悉其平台的人才库,而不是非得从头开始培训开发人员,以便使用一种其他地方并不使用的独特的公司内部框架。
同样,如果中国公司的开源框架备受欢迎,从而使它们可以享用熟悉其技术的本地顶尖人才,就能够获得同样的好处。拥有一种广泛采用的源自中国的框架不仅表明中国的AI生态系统趋于成熟,还有望让中国变得更自给自足。
在浙江省乌镇,一名男子在平安好医生系统运行的基于AI的24/7医疗平台服务站与医生在网上交流。
AI初创公司Fano Labs的首席执行官Miles Wen说:“拥有自己的框架对你国家有利,即使只是作为一种保险措施(万一被别国卡住脖子)。”
他说:“如果中国想开发自己的框架,它可以自己搞,这主要看愿不愿意为此投入资金和资源,但没人从开发框架中真正赚到钱。”他补充道,好处常常是无形的。
Daniel Povey是开源语音识别工具包Kaldi的开发者,他之前是约翰·霍普金斯大学的语言和语音处理研究副教授。不过据他声称,在中国开发一种被广泛采用且易于使用的平台将是一项艰巨的任务,因为中国的开源文化不如西方国家来得发达。
Povey说:“中国没有出色的开源文化。人们常常发布能用的代码,但实际上并没有清楚说明工作原理的说明文档。”最近他被小米聘请以构建和开发下一代Kaldi。
“似乎更像是一种注重动手改装的现代文化,而不是专注于构建良好的代码库。这是个短视的问题,非常快地编写代码以完成工作,而不是非常仔细地搞。”
许多中国的科技巨头已经开始尝试开发自己的深度学习框架,不过这些框架不是开源的,因此并非公开可用。
商汤科技声称是全球价值最高的AI初创公司,它拥有专有的Parrots框架,并不依赖TensorFlow或Pytorch。
然而,这种零敲碎打的方法从一个侧面体现了这个现状:在一个软件缺乏成熟度的市场,生态系统尚未完全成气候。
AI风险投资基金Zeroth.ai的合伙人、AI连续创业家Rodolfo Rosini说:“这种不成熟归咎于缺少已经存在很长时间的大型软件公司,但是这种局势在未来10年会成为常态。”
他说:“眼下,中国公司在使用开源软件,但它们并没有爱心大传递。”他补充道,强大的开源开发者生态系统会带来事半功倍的效果,覆盖到大公司忽视的领域。
近几个月来,一些技术巨头已经朝这个方向迈出了一步。8月份,华为发布了自己的AI计算框架Mindspore,它计划在2020年第一季度实现开源。
一些业内人士对中国仍有时间缩小差距感到乐观。一位不愿透露姓名的百度分析师表示,中国的AI生态圈处于早期阶段,中国仍有机会在基础设施技术方面迎头赶上。
这位分析师说:“眼下,AI被大型科技公司纷纷采用,但尚未在更广泛的行业普及开来。”
“仍有很大的发展空间,中国仍有时间赶上来。以华为为例--在2012年,华为智能手机名气不大,但近年来,华为手机成了一线品牌。”
不过,中国在AI基础设施方面相对薄弱,这个事实越来越让人担忧;业内一些人士称,中国需要开发一种流行的机器学习框架或加强现有的机器学习框架,以防止AI领域出现世界末日的情形:它可能被美国卡住脖子,无法使用TensorFlow或Pytorch之类的平台。
一种有可能出现、不过令人难以置信的场景是,谷歌和Facebook阻止中国访问这些开源平台。
“如果美国果真阻止中国用户访问开源框架,这将极大地影响中国的AI行业,因为公司企业需要时间改用另一种平台并训练数据,”之前开发过百度PaddlePaddle的AI科学家Kelvin Wang如是说。
“如果中国(因这种挫折而)失利,它将丧失AI方面的竞争力。”
昨日文章:
一位技术总监是如何失去团队掌控力的?
当我们说某项技术已死,我们在说什么
研发公交车自动驾驶关键技术及瓶颈
饿了么交付中心语言栈转型总结
42岁当选最年轻院士究竟有多牛?
微信几亿人在线的点赞、取消点赞系统如何实现