3D视频聊天、百万比特量子计算机、十倍性能TP

2021-05-19机器之心编辑：美文推荐

机器之心报道

作者：泽南、张倩

去年的谷歌 I/O 大会因疫情取消了，今天我们看到的，是谷歌积攒两年的重要技术。它们也是 AI 等领域里最接近未来的那一部分。

5 月 19 日凌晨，一年一度的谷歌 I/O 大会在线上召开，在谷歌园区户外进行的开场 Keynote 上，这家公司发布了一系列引人瞩目的全新产品。

「我们的目标一直是构建一个能够帮助所有人的谷歌，」谷歌首席执行官桑达尔 · 皮查伊说道。用 AI 为更多人提供便利是今天谷歌活动的主题。

在长达几个小时的发布会中，首先你要知道的黑科技是全息视频聊天技术 Project Starline。在疫情期间，很多人无法和亲人、朋友相聚，而谷歌推出的「聊天室」可以让你和远在天边的他们近距离碰面，互相问候、眼神交流，就像真的互相见到一样。

这看起来有点像实时的 3D 电影，又有点像《美国队长：内战》里钢铁侠在展示自己少年时的回忆。

实际上，这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型。谷歌表示这一项目已开发了数年之久，其背后是大量计算机视觉、机器学习、空间音频和数据压缩技术。谷歌还为此开发出了一套突破性的光场系统，让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感。

谷歌计划在今年晚些时候将 Project Starline 进行小范围的推广。除了和亲戚朋友打招呼，这类技术更多的应用场景应该还是远程会议，用惯了 zoom 的我们以后要体验「人在家中坐，领导飞过来」了。

Starline 当然只是 I/O 大会上众多新技术的一小部分。20 年前，谷歌率先将机器学习技术应用于搜索中，10 年前，Google Brain 团队 Quoc V. Le、Jeff Dean、吴恩达等人发表了著名的「识别猫」论文，其中研究人员利用一千台电脑的 1.6 万个处理器核心训练了一个图像识别的神经网络，它被很多人视为深度学习技术爆发的标志。

如今，谷歌的 AI 能力正让更多「不可能」变为现实，他们还要用量子计算等技术取得更多突破。

TPU v4，性能提升十倍

2016 年，谷歌发布了旗下首款定制 AI 芯片 TPU，与传统的 CPU+GPU 组合相比，这类专用芯片在搜索、翻译、语音助手、图像识别等 AI 任务上有数量级的性能优势。这些芯片的应用为谷歌业务带来了优势，进而作为云服务算力的一部分供开发者使用。谷歌在 2018 年和 2019 年继续推出了 TPU v2 和 v3。

谷歌 TPU 虽然并不外卖，但一直被认为是人工智能时代机器学习专用加速芯片的典范。在今天的 I/O 大会上，谷歌发布了这款芯片的最新、最强版本。

如果只看芯片的数据，TPU v4 的算力是 v3 的两倍，而如果看实际性能，v4 实际上相比前一代提升了十倍之多，谷歌表示，这主要得益于系统内部的互联速度，以及架构方面的提升。

皮查伊表示，新的 TPU 实现了计算性能的里程碑式突破，要想实现 1 exaFLOP 级的算力（每秒 10 的 18 次方浮点运算），以前我们需要超级计算机和大量 GPU，现在只需一组 4096 块 TPU 组成的服务器就可以了。如今全球超算 Top 500 榜单第一名——日本的「富岳」最高性能只有它的一半。

与英伟达等芯片公司提出的新一代 AI 加速器类似，谷歌 TPU 效率提高的秘诀在于极快的芯片间互联技术，可以将数百块独立的芯片转变成紧密结合的单个系统来使用。皮查伊表示：「TPU pod 所有芯片间的大规模互联带宽是其他任何组网技术的十倍。」

TPU v4 已经部署在谷歌的数据中心中使用，今年晚些时候将向人们开放芯片实例。

另外，谷歌表示 TPU v4 更高的运算效率带来的好处是更环保。在未来部署的数据中心上，TPU 将使用近 90% 的无碳新能源运行。

MUM，比 BERT 强 1000 倍的多模态、多语言大模型

在 I/O 大会上，谷歌展示了使用 TPU v4 的人工智能应用。我们知道，如今很多 AI 应用是基于 Transformer 的，该模型在 2017 年由谷歌研究人员提出，用全 attention 的结构代替了 LSTM，在翻译任务上取得了更好的成绩。这项技术随后引发了预训练模型的技术突破。

很多人都知道阅读理解模型 BERT，其中的 T 是 Transformer；谷歌正在开发的搜索模型 T5，其中的 T 是 Transformer；如果你知道此前 OpenAI 提出的全球最大预训练 AI 模型 GPT-3，其中的 T 也代表 Transformer。

目前谷歌正在研究的模型是 MUM（Multitask Unified Model，多任务统一模型）。谷歌表示，虽然同样是基于 Transformer 架构，但 MUM 比 BERT 强 1000 倍。

从名字可以看出，MUM 是一种多模态模型，可以同时处理网页、图像等多种数据（未来还有可能扩展到音频、视频等）。这种多模态的设计使其非常适用于搜索。谷歌表示，如今的搜索引擎还不够智能，无法通过一次提问提供更加全面的信息，因此人们需要搜索多次。但有了 MUM 之后，这种问题可以得到缓解。

举例来说，你之前去过亚当斯山徒步，现在想去富士山，你想知道自己该做哪些准备。在这种情景下，你只需要把「我需要做什么准备」这个问题抛给搜索引擎，其背后的 MUM 就可以理解你所谓的「准备」包含哪些内容，比如两山之间的差别、需要进行哪些锻炼、携带哪些装备以及徒步的路线等，然后指向网络上有用的文章、视频和图像。

这种多模态还可以让你用文字之外的信息进行搜索，比如拍下自己的鞋子，问「我能穿着这双鞋子去富士山吗？」

此外，MUM 还是多语言的，使用了 75 种语言进行训练。这使其具备了在不同语言之间传递知识的能力。还是以上述问题为例，关于「富士山」的信息很多都是日语的，但有了 MUM 的加持，你用英语或其他语言也能搜到它们。

‍‍

LaMDA：聊天不设限的语言模型

除了 MUM 之外，谷歌还在此次的 I/O 大会上公布了另一个基于 Transformer 的语言模型：LaMDA（Language Model for Dialogue Applications）。和 MUM 不同，LaMDA 是专门为对话打造的，而且是开放域对话。

谷歌表示，LaMDA 可以和人在无穷无尽的话题转换中聊下去。在接受对话训练的过程中，它掌握了开放式对话与其他语言的细微差别，尤其是「sensibleness」（合理）和具体。

举例来说，如果你对别人说，「I just started taking guitar lessons」人类的回答可能是：「How exciting! My mom has a vintage Martin that she loves to play」。在这句对话中，「How exciting」就是一种合理的回答，但同时我们也注意到，这句话几乎也是放之四海而皆准的（就像「我不知道」），因此并不能完整地体现对话机器人的智能性。而后面那句「My mom has a vintage Martin that she loves to play」才是人类对话更重要的特点：合乎语境且具体。谷歌表示，这就是他们的 LaMDA 所学到的内容。

谷歌还表示，LaMDA 是基于他们 2020 年的一项研究。研究链接：https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

「拍一拍」诊断皮肤病

手机拍照除了可以翻译、做数学题、检测空气质量，现在还能看病。利用 AI 诊断疾病是很多公司在过去几年发力的方向，在这次 I/O 上，谷歌也分享了他们在结核病等方面取得的进展。但比较有意思的是，他们把部分疾病的诊断直接和手机摄像头整合到了一起，帮助你随时了解和自己的皮肤、头发及指甲相关的问题。

谷歌表示，开发这一应用是因为他们每年都能看到接近 100 亿个关于皮肤、指甲和头发问题的搜索。全球有 20 亿人患有皮肤病，因此皮肤病专家的数量是远远不够的。为了训练这一模型，他们使用了大约 65000 张图像和诊断皮肤状况的病例脱敏数据、数百万张精心制作的皮肤相关的图像和数以千计的健康皮肤样本，这些数据来自不同年龄、性别、种族的人群。在此之前，他们关于皮肤病的研究登上过《自然 · 医学》等期刊。

当然，这些诊断结果只是初步判断，患者的后续治疗仍然需要咨询医生。谷歌表示，他们将在今年晚些时候上线试用版。

100 万个物理比特的量子计算机

早在 2019 年，谷歌量子计算实验室实现「量子优越性」的消息就登上了《自然》的封面。谷歌已经利用一台 54 量子比特的量子计算机实现了传统架构计算机无法完成的任务。在当时的世界第一超算需要计算 1 万年的实验中，谷歌的量子计算机只用了 3 分 20 秒。

虽然这项研究一经发表就受到了 IBM 等同行的质疑，量子计算距离实用化还存在这样那样的挑战，但毫无疑问，在摩尔定律逐渐失效的今天，寻找未来计算机架构正愈发显得迫在眉睫，而量子计算机是其中极具希望的方向。

在 I/O 大会上，谷歌展示了更大的野心：他们想用 100 万个物理量子比特建造一台有纠错能力的量子计算机。相比于今天还不到 100 个物理比特的量子计算机来说，这个构想真的很大胆。

图源：https://www.cnet.com/news/quantum-computer-makers-like-their-odds-for-big-progress-soon/

根据计划，这些量子比特仍将运行在接近绝对零度的温度下。谷歌乐观估计会在这个十年结束之前实现此构想。

众所周知，虽然量子计算机具有在某些问题上（比如大数因子分解和无序数据库搜索）远超经典计算机的运算能力。然而，存储量子信息的物理系统不可避免会与环境相互作用，受到噪声的影响而失去量子特性，进而失去准确计算的能力。这里的噪声可能仅仅是一点点热量。

要想纠正一个量子比特的错误，我们需要很多个围绕在该量子比特周围的其他物理量子比特。这些物理量子比特可以组成一个「逻辑量子比特」。谷歌表示，他们将通过把 1000 个物理量子比特束缚到一起来构建这个逻辑量子比特，从而达到纠错的目的。

如果真能做到这一点，我们就拥有了一个可以持续工作的「完美量子比特」，就像普通的计算机一样。这将会是一个重要的里程碑。有了一个能够纠错的量子比特之后，我们就可以将两个（或更多）这样的逻辑量子比特组合到一起，就像量子时代的晶体管一样。构建 1000 个逻辑量子比特可能需要上百万的物理比特，整个机器可能会占满一个房间。

在本次 I/O 大会上，谷歌介绍了他们为实现这一愿景打造的「量子 AI 园区」。该园区位于加州圣塔芭芭拉市，里面有谷歌的第一个量子数据中心、量子硬件研究实验室以及他们自己的量子处理器芯片制造设施。

谷歌表示，建造这样的量子计算机是为了拥有前所未有的计算能力，从而解决新药研发等问题。

Android 12 和 WearOS

虽然安卓 12 的特性已经在此前的开发者预览版中被剧透过不少，但在 I/O 大会上谷歌发布的大幅度更新提供了更多正式版的细节。

对于使用者来说，最为明显的更新就是全新的主题了，Android 12 将采用全新的「Material You」设计，提供了大量自定义风格和功能。谷歌在原来的黑白两色之外加入了动态主题颜色，其可以根据用户选择的壁纸选择对应的特殊颜色。此外所有按钮、滑块和所有其他 UI 窗口小部件均已重塑和重新排列。

此外全新的滚动列表设计出现在了安卓 12 上，就像三星手机的 OneUI 上一样。在桌面上谷歌反倒向苹果学习，新的标准化 widget 就像 app 的大「图标」一样包含大量详细内容，这样的设计可以在如今手机普遍较大的屏幕上展示更多。

此外，谷歌还在新安卓系统中还提供了大量有关隐私保护的功能。目前 Android 12 的 Beta 版已经正式推出，支持 11 家手机厂商的设备。

在 IO 大会上，谷歌也放出了最新版 Wear OS 的消息。虽然根据统计，2020 年全球可穿戴设备出货已达 1.93 亿只，智能手表和手环在人们的生活中出现得越来越频繁，但手表届的安卓 Wear OS 存在感一直比较稀薄。Wear OS 的最后一次重大设计变更还是在 2018 年。

新版本的 WearOS 更名为 Wear，获得了更多厂商的支持，三星下一代智能手表 Galaxy Watch 4 将使用基于这一架构的 Tizen 系统，从而使得应用运行更快，更加省电。

除此之外，谷歌还发布了协作式办公套件 Smart canvas 等一系列工具，并在 Google Map 中首次加入了详尽的自行车导航功能，并对 Google Meets 进行了大量技术更新。

有关本次 I/O 大会的更多细节，可以参考谷歌的 I/O 专题界面或观看回放。

专题页面地址：https://www.blog.google/

2021 AI 100 Connect Webinar

5月19日晚，锁定英特尔AI百佳直播间，星环科技、云图睿视、大象声科技术专家带你90分钟了解隐私计算、边缘计算、智能语音产业趋势及落地场景！

交流分享、直播互动、产业对接，识别海报二维码加入交流群，英特尔AI百佳AI算法与平台专场等你来撩！

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com