谷歌打响OpenAI反击战,最新大语言模型PaLM 2直指GPT-4痛点
北京时间5月11日凌晨1点,Google I/O 2023开发者大会如期而至。在美国加州山景城总部,谷歌在多项产品和服务方面推出了重磅更新,涉及谷歌地图、人工智能、搜索、安卓、谷歌云和Pixel等多个领域。其中,谷歌在巴德和生成式AI方面的最新进展备受外界关注。
PaLM 2打响GPT-4反击战
谷歌CEO皮查伊在发布会现场表示,此次谷歌发布的PaLM 2是目前最先进的语言模型,也是其PaLM语言模型的第二个版本。相比PaLM 1,新版本具有升级的多语言、推理和编码能力,将为25种谷歌产品提供支持。
(资料图片仅供参考)
图源:谷歌
在多语言能力方面,PaLM 2进行了更多训练,文本横跨100多种语言,很大程度上提高了其理解、生成和翻译细微差异化文本的能力,解决了对成语、诗歌和谜语这类文本的理解能力,这种文本的处理门槛较高。此外,PaLM 2能够通过很高级别的语言能力考试。
推理能力方面, 由于PaLM 2在包含科学论文和数学表达式的网页上进行了训练,因此具备了在逻辑、常识推理和数学方面的改进能力。
编码能力上,PaLM 2支持20多种编程语言。由于它是在大量公开可用的源代码数据集上进行预训练,因而擅长Python和JavaScript等流行编程语言,同时也可进行Prolog、Fortran和Verilog等小众语言的编程。
图源:谷歌
据皮查伊介绍,PaLM 2将拥有从小到大四种尺寸,分别为Gecko、Otter、Bison和Unicorn。
图源:谷歌
Gecko:最小尺寸,可以在移动设备上运行,速度足够快,即使离线状态也可以进行交互应用。
Otter:中等大小模型,适合各种任务,包括自然语言处理、机器翻译和代码生成。
Bison:更大的模型,可以处理更复杂任务,例如生成逼真的图像和视频。
Unicorn:最大尺寸,可处理最复杂的任务,比如编写创意文本,如诗歌、代码、脚本、音乐作品、电子邮件、信件等。
不同尺寸模型带来的功能性意味着PaLM 2可以进行微调,以多种方式支持整类产品,帮助到更多用户。
图源:谷歌
PaLM 2的多模态能力体现在能看懂和生成音频和视频内容之上,皮查伊在现场对这些能力进行了少量展示。他用谷歌内部基于PaLM 2针对医疗领域微调而成的Med-PaLM 2举例,后者是第一个在医学执照考试上表现出专家水平的专用语言模型,已经可以在医院看片室帮助放射科医生解读图像,可以根据X光片分析病人的状况,此后还将用于更多领域。
图源:谷歌CEO皮查伊称Med-PaLM已经可以达到人类专家医生的水平
皮查伊指出,虽然PaLM 2的能力已经很强,但只有在对特定领域的知识进行微调时,才能真正发挥作用。与基础模型相比,微调帮助Med-PaLM 2实现了将近十倍的精确度,从而在医学问题回答上能做到接近临床专家的表现。
“我们还在努力增加Med-PaLM 2的功能,使其能够综合来自医学影像的信息,如乳腺X射线。”皮查伊强调。
据谷歌搜索部门高管介绍,Med PaLM 2的训练集使用的是各国医疗诊所数据样本
与之类似,谷歌还基于PaLM 2训练了一个针对安全领域的垂直模型Sec-PaLM,它可以利用AI来检测恶意脚本,帮助安全专家理解和解决各类攻击和威胁问题。
据谷歌介绍,PaLM 2的用户既包括世界各地的消费者,也包括开发者和各类规模的企业。
皮查伊还宣布,谷歌已经在着手开发下一代多模态大模型Gemini,这一模型在工具和API集成方面非常高效,并在记忆力和规划能力上拥有相当创新突破,目前仍在训练之中。“Gemini展示出了相较其他模型前所未见的多模态能力。一旦经过微调和严格安全测试,也将拥有各种尺寸和功能,可以部署在不同的产品、应用和设备上,使每个人受益。”皮查伊表示。
从PaLM2到Gemini,谷歌本次找准了GPT-4的痛点下手,用多模态能力直击靶心,又用专用领域模型拉开差距,可以说打了一个漂亮的反击战。
谷歌研究部副总裁左宾·盖若曼尼指出了一个值得关注的问题,即模型并不是“越大越好”那么简单,研究的创造性才是建立伟大模型的关键。他表示,谷歌近期在构建和训练模型方面取得的进展使之了解到如何真正释放多模态能力,如何比以往更有效地构建模型。此后,谷歌会致力于那些为人们的日常生活带来真正好处的模型构建。
谷歌在本次I/O大会上并没有给出PaLM 2的更多技术细节,这也与OpenAI对待ChatGPT和GPT-4的态度相似,但谷歌的上述表态与其内部坚持的技术路线一脉相承。虽然自去年年底开始,谷歌就因为ChatGPT横空出世陷入极为被动的局面,但谷歌实际上早于OpenAI看到了超大规模语言模型的必要性,并坚持在稀疏模型架构上做了深入探索。在DeepMind与谷歌分治之前,其语言模型麻雀就走上了小模型参数打败精调的道路,而与谷歌合兵一处之后,势必在思路上对PaLM 2也做出了相当贡献。
皮查伊也强调,PaLM 2的成果建立在谷歌大脑和DeepMind这两个世界级研究团队所取得的进展之上。
Bard一雪前耻
在I/O大会上,另一个为世界瞩目的进展来自此前折戟的Bard。
谷歌宣布了Bard的多项功能更新,总体来看可谓是针对BingChat新晋更新的重量级回应。首先是与图像配合的多模态查询功能,用户可以使用图像向Bard提问,也可以让Bard使用图像内容向用户进行回应。
如果用户想查询关于某个旅游目的地的信息,Bard的表现像一个大众点评,可以向用户展示该处目的地附近的所有热门景点。
图源:谷歌
图源:谷歌
在文字之外,Bard可以做到很好的理解图片,可以根据图片信息抽象出文字。谷歌在现场进行了演示,如果发给Bard一个狗狗的照片,Bard可以根据图片来分析其中的有趣之处。
图源:谷歌
在这个过程里,谷歌也展示出通过最近几个月的训练,Bard对语言文字理解力有了进一步增强,这是上次Bard问世被群嘲的核心点。
在I/O大会现场,Bard有两项功能演示获得了分贝最高的欢呼声,第一次来自Bard的深色模式更新,第二次是因为Bard的新晋搜索功能与谷歌地图形成了完美整合。
图源:谷歌
图源:在现场演示中,谷歌高管询问Bard哪个城市比较适合自己18岁时读书,并给出了几项条件,Bard首先使用文字作答给出了若干选项,之后被要求用谷歌地图来展示位置。
图源:谷歌
Bard的另一项重大进益在编程侧。谷歌正在增强下一代Bard版本的编程能力,希望Bard不仅能够生成代码,还能够解释一些代码片段并帮助用户调试代码,还希望Bard能具备更强的代码引用能力。
新版本中Bard的编程能力非常强大,足以与CoPilot媲美。现场演示引发了阵阵掌声。
在先前的迭代中,Bard已经能够将Python代码导出到谷歌的Colab。而谷歌正在扩大这一功能,希望将Python代码导出到Replit,使得开发者更容易使用。
本次,谷歌取消了Bard的用户等待名单,使其在180多个国家和地区都可以使用。英语之外,Bard目前可以支持日语和汉语,不久之后可以支持40种语言。
据悉,谷歌目前在与第三方合作伙伴合作,将其技术支持引入Bard。但谷歌强调自己唯一的第三方合作伙伴是Adobe的图像生成器Firefly,后续会开展与专注数学计算的引擎WolframAlpha等的合作。有趣的是,微软Bing日前的那场升级也调用了Wolfram Alpha插件。
有分析指出,谷歌自身的图像生成能力本就很强,此次却选择与Adobe Firefly联手令人意外,这更多应该是出于安全方面考虑。
图源:谷歌
谷歌方面表示,还将很快推出Bard的其他扩展功能,主要是将其融入自己的各类应用程序,尤其是Google maps、Google Docs、Google Sheets和Gmail。目前看来,这类更新的力度会比微软Edge浏览器与GPT-4的结合力度更大。
图源:Google Bard与Gmail结合
(界面新闻记者 | 李京亚)