Top
首页 > 正文

《2020年AI全景报告》摘译

全球主要AI学术会议论文的接收,仍旧由美国的相关机构和公司主导。④ 作为对美国国防部活动和美国军事AI初创公司融资的回应,一部分中国和欧洲的国防AI企业将在未来的12个月内融资超过1亿美元。
发布时间:2021-05-10 09:14        来源:赛迪智库、国际处        作者:

自2018年始,剑桥大学博士IanHogarth与NathanBenaich合著发布《AI全景报告》。在最新一期赛迪译丛中,赛迪智库工业经济研究所对该报告进行了编译。

2020年10月发布的年度报告指出,当前人工智能研究的开放性并不高;美国仍是当前人工智能国际研究中心;人工智能在医疗领域发展迅猛;人脸识别面临隐私风险,亟待有效监管等。在报告的最后,作者对未来人工智能领域做出了八大预测。

01、研究进展

AI学习框架、语言和模型

AI的开放性并没有我们预想的那么高

大多AI技术都封闭源代码,只有15%的AI论文公布了其源代码。自2016年中以来,这种情况几乎没有得到改善。一般来讲,与学术机构相比,行业机构更不倾向于发布其代码。OpenAI和DeepMind1这两大著名机构就没有发布其所有代码。对于大型科技公司而言,它们的代码通常与不能对外发布的专利性内容交织在一起。

在深度学习框架上,PyTorch逐渐受到欢迎

在AI相关研究论文中,对Facebook的机器学习框架PyTorch的使用迅速超过谷歌的机器学习框架TensorFlow。PyTorch提供更大的灵活性和动态计算图,使实验变得更加容易。在这些论文中有20-35%提到了他们使用的框架,其中有75%使用了PyTorch,而非TensorFIow。2018年,在161位作者中,多数人发表的论文都是基于TensorFLow框架,但现在有55%转向了PyTorch。在代码托管平台GitHub上发布的论文中,PyTorch也比TensorFlow受欢迎。其中,47%的论文实现基于PyTorch,而18%基于TensorFIow。

自然语言处理全新评估基准SuperGLUE正式发布

GLUE是在一系列任务中评估自然语言处理系统的基准,这些任务涉及逻辑、常识理解和词汇语义。就在12个月前,在GLUE基准测试中,人类被AI超越1分。2019年8月,自然语言处理(NLP)全新评估基准SuperGLUE正式发布。基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

模型参数和模型性能调整花费巨大

现阶段,哪怕略微提升一下模型性能,我们都需要付出高昂的计算、经济和环境成本。如果没有新的重大突破,将ImageNet错误率从11.5%降至1%将需要超过千亿美元的费用。许多从业者认为想要在机器学习的成熟领域进行突破变得十分困难。要实现相同的性能,较大模型比较小模型需要的数据更少,这会对训练数据样本生成成本昂贵的领域产生影响,而对使用基于监督学习的模型进入新领域的大公司来说是优势。

生物学相关AI技术

生物学正经历其“AI时刻”。自2017年以来,涉及生物学AI方法(如深度学习、自然语言处理、计算机视觉、强化学习)的出版物同比增长超过50%。

2019年以来发表的论文占2000年以来总产出的25%,2020年,有超过21000篇涉及生物学的AI论文发表。

因果推理助力机器学习

大多数机器学习应用程序使用统计技术来探索变量之间的相关性。这就要求实验条件保持不变,并且训练后的机器学习系统只能应用于与训练数据相同的数据。这个过程忽略了人类学习的一个主要组成部分——因果推理关系。有时我们需要了解策略变化对结果的影响,如,医生是否应该给病人进行某个特定疗程的治疗。基于相关性的机器学习系统并不能达到该设计目标,因为一旦策略发生变化,输入和输出变量之间的关系将与训练数据不同。因果推理明确地解决了这个问题,这将是一种有效的新方法,使机器学习系统能够更快普及,功能更加强大,并为决策提供更具参考价值的意见。

图形神经网络可以利用3D输入数据解决问题

大多数深度学习方法侧重于从2D输入数据学习。图形神经网络(GNNs)是一个新兴的处理3D数据的方法。一个团队利用分子及其二元抗生素毒性的经验数据训练出了一个图形神经网络。这个模型对数百万种潜在的抗生素化合物进行筛选,最终找到一种结构不同的抗生素—Halicin(暂命名为海利霉素),其在小鼠体内具有广谱活性。

AI可通过用DNA编码的小分子文库(DEL)对化学空间进行筛选

用DNA编码的小分子文库是由数百万到数十亿个小分子组成,这些小分子带有独特的DNA标签,可以看作是大分子的砌块。基于用DNA编码的小分子文库数据训练图形神经网络,并将其应用于三种不同的蛋白质靶点,在30微米时产生72%(sEH)、33%(ERa)和16%(c-KIT)的命中率。这与传统的高通量小分子筛选(无机器学习)形成鲜明对比,后者的命中率通常为1%左右。

语言模型有助于仅依靠氨基酸序列预测蛋白质特性

蛋白质是一种生物分子,可以通过晶体结构(167000)或氨基酸序列(2400万)对其进行描述。与学习单词向量的过程类似,这项工作表明,通过循环神经网络(RRN)学习得出的氨基酸序列表征,可以预测不同蛋白质的各种结构和功能特性。

其他相关AI技术

计算机视觉任务获得更多关注,如目标检测和图像分割

像FasterR-CNN这样的流行模型需要利用各种各样的方法将先验知识手工编码到体系结构中,以便做出针对初始猜测的预测。DEtectionTRansformer(DETR)是一个基于transformer的目标检测模型,能够在不需要手工编码的先验知识和只需要一半的计算预算的同时,匹配最佳目标检测模型的性能。DETR通过端到端的损失函数进行训练,该函数能够将预测对象和真实对象匹配起来。

通过深度学习在建筑中使用消费级360°摄像头

360°摄像头是快速记录整个场景的强大工具,但不能始终返回水平图像,这对计算机视觉模型的性能产生负面影响。但是,最先进的几何深度学习方法,能够调整未对齐的360°图像。通过同时使用几何线索和深度分割网络,可以在球形图像中找到垂直方向并使之旋转,从而使图像与地面齐平。该系统的性能明显优于之前最先进的方法。

联邦学习于2016年由谷歌发起,目前正在蓬勃发展

从2018年到2019年,提及联邦学习(FederatedLearning)的论文数量几乎增长了5倍。2020年上半年发表的相关论文数量超过了2019年全年的数量。OpenMind是领先的隐私保护机器学习开源社区,它展示了第一个针对网络、手机、服务器和物联网的开源联邦学习平台。这使得利用网络浏览器或移动设备上的隐私数据来训练任意神经模型成为可能。

02、人才形势

高校AI人才形势

① 高校的人才流失似乎对学术和创业产生了重大的负面影响。

② 对神经信息处理系统大会(NeurIPS)做出贡献的研究人员中,在中国接受教育的研究人员越来越多。

③ AI人才供给加强,但仍供不应求。

美国AI人才形势

① 全球主要AI学术会议论文的接收,仍旧由美国的相关机构和公司主导。

② 美国AI生态系统由外国人才推动。

③ 美国AI人才毕业去向。

03、产业动态

生物医药领域

① AI研发出一款用于治疗强迫症的药物。

② 深度学习将超分辨率显微镜成像的采集到分析都进行了改进。

③ 美国医疗保险和医疗补助服务中心(CMS)鼓励对基于深度学习的医疗成像产品进行补贴。

自动驾驶领域

① 自动驾驶仍然做不到无人驾驶。

② 机器学习成为自动驾驶开发的新前沿。

③ 随着AI越来越普及,监管机构对开发人员提出更高要求。

企业应用领域

① 机器人流程自动化(RPA)和计算机视觉是最常被企业使用的技术。

② AI对话助理已开始服务英国客户。

③ 数控机床编程开始自动化。

其他应用领域

一是计算机视觉能够检测出身份证件被篡改的细微痕迹。随着越来越多的身份证件数字化,Onfido的AI系统学会了检测网上泛滥的假证件。

二是AI有助于防止网络洗钱和恐怖融资。在传统反洗钱工作中,合规人员需要根据关键字进行大量的手动搜索,工作常超负荷。而ComplyAdvantage公司利用深度学习技术,可以覆盖所有重点地区高达85%的风险数据。

三是机器翻译实现全球范围内金融犯罪分类。机器翻译被用于生成针对金融犯罪分类的多语言训练数据。这种方法显著地减少了前置时间,从英语语言环境下的20周减少到每种欧洲语言环境下只需要不到2周,同时保持了80%以上的准确率。

04、政府政策

人脸识别领域

Facebook解决了一项集体诉讼,赔偿用户6.5亿美元

伊利诺伊州的《生物识别信息隐私法案》是美国在该领域最严格的法律,按照其规定企业在收集生物识别数据之前必须获得许可。2015年提起的集体诉讼称,Facebook在2010年推出的照片标签功能并没有遵守伊利诺伊州的《生物识别信息隐私法案》。最终,每个受影响的用户获赔200-400美元。

华盛顿州通过了一项人脸识别新法律

2020年3月,华盛顿州通过了美国第一部严格限制执法部门使用人脸识别技术的州法律,这项新法律要求政府机构必须获得授权才能进行人脸识别扫描,而且所使用的人脸识别软件必须通过应用程序接口(API)访问一个独立的第三方。该法律还要求对执法人员就人脸识别的使用进行训练,并公开报告使用情况。

英国的一起新案例强调“人脸识别工具不能过于激进或造成伤害”

英国高等法院首次审理了一起关于警方使用自动人脸识别技术的案子。来自威尔士加的夫的EdBridges起诉称,他在圣诞节购物时被拍照,这一做法侵犯了他的人权。尽管法官作出了不利于原告的裁决,但也为警察确立了一项重要的新职责,即确保主动“消除”歧视。这也意味着,不能等待技术完全成熟之后再采取法律行动。重点是现在就要对人脸识别技术进行监管,而不是要等到伤害事件发生之后再采取行动。然而,南威尔士警方发言人明确表示,警方计划将继续使用人脸识别技术。

中国亟待立法对人脸识别进行规范

浙江理工大学的郭兵教授起诉当地一家野生动物园违反了《消费者权益保护法》,因为该公园将人脸识别登记作为游客入园的强制性要求。郭兵的诉讼主要关注数据泄露风险:“数据一旦泄露,非法滥用将很容易危及消费者的安全”。此后,野生动物园改变了其入园政策,允许游客在人脸识别或指纹识别之间进行选择。中国对人脸识别的使用极其广泛,但有迹象表明,隐私问题引起了越来越多的关注。教育部科技司司长雷朝滋呼吁“遏制和规范”在校园里使用人脸识别技术。《信息安全技术个人信息安全规范》是中国一项新的数据隐私标准,目前正在腾讯和支付宝等公司试用。

半导体领域

美国参议院提出《为美国生产半导体(芯片)的激励措施法案》

虽然世界上一半以上先进芯片是在美国设计的,但只有12%是在美国制造的。《为美国生产半导体(芯片)的激励措施法案》将拨出220亿美元补贴美国芯片制造业。补贴项目包括100亿美元的联邦匹配资金、国防部相关资金和120亿美元的相关研发资金。这项两党法案旨在提升美国的竞争力。美国还要求英特尔和三星生产更多美国制造的芯片。

中国政府设立二期基金支持半导体产业发展

中国是全球最大的半导体进口国,每年进口总额达2000亿美元。此前,第一支由中国政府主导的国家集成电路产业投资基金2014年设立。2019年,中国政府投资290亿美元,设立第二期国家集成电路产业投资基金,旨在投资半导体行业,以降低对美国半导体技术的依赖。

AI投资及推进情况

美国AI预算继续扩大

AI继续成为美国最重要的科技投资领域。2019年2月,特朗普总统签署了13859号行政令,旨在保持美国在AI领域的领先地位。2021年的拟议支出为15亿美元。这些非军事性投资涵盖农业部、能源部和卫生部。美国国防部联合人工智能中心的预算持续扩大,从2019年的9300万美元增加到2020年的2.38亿美元。

中国将在多个城市推行AI试验区

中国着手创建“国家新一代AI创新发展试验区”。中国科学技术部制定了城市建立AI试验区的流程。到2023年,将有20个AI试验区建成。成为AI试验区的城市被激励加快AI在各个领域的应用,从制造业到照顾老人和残疾人等。AI试验区还被激励开展AI政策试验和开展AI社会试验。德清县被列示范县。该县将重点发展自动驾驶和智慧农业。

05、对未来十二个月的预测

① 搭建更大语言模型的竞争仍将持续,我们将会见证第一个10万亿参数级模型的诞生。

② 基于注意力的神经网络将从自然语言处理领域迁移到计算机视觉领域,实现新SOTA效果。

③ 随着母公司战略的调整,一家大型企业的AI实验室将关闭。

④ 作为对美国国防部活动和美国军事AI初创公司融资的回应,一部分中国和欧洲的国防AI企业将在未来的12个月内融资超过1亿美元。

⑤ 一家领先的AI药物发现初创公司(比如 Recursion、Exscientia)要么IPO上市,要么以超过10亿美元的价格被收购。

⑥ DeepMind将在结构生物学和药物发现方面取得重大突破,超越AlphaFold。

⑦ Facebook 将凭借3D计算机视觉技术在AR和VR上取得重大突破。

⑧ 英伟达最终不会完成对ARM的收购。

译自:State of AI Report 2020,October 2020 by Ian Hogarth and Nathan Benaich

以上是部分内容,完整版译丛,点击《2020年AI全景报告》查看

专题访谈

合作站点
stat