谷歌“反击战”开启热议多模态模型商业化-青岛知道网络有限公司|企业网络营销整合专家

继ChatGPT上线一周年之后，近日，谷歌的多模态Gemini忽然上线，被业界视为“谷歌最强反击战开启”。投资机构针对Gemini的讨论“炸开了锅”。业内人士认为，Gemini在视觉识别和推理推断方面有显著优化，落到商业场景上，实时交互场景或成为多模态人工智能模型应用的焦点。

Gemini“太震撼”

近日，谷歌CEO桑达尔·皮查伊宣布Gemini1.0版正式上线。Google DeepMind产品副总裁伊莱·柯林斯表示，这是Google迄今为止功能最强大、最通用的大模型。

据了解，和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。在灵活度上，从数据中心到移动设备上，它都能够运行。

在观看Gemini系列演示视频后，不少投资人表示“太震撼”。“看了Gemini的演示视频，其所表现出来的对多模态理解的能力非常惊人，此外，Gemini所表现出来的推理能力目前看来是超过ChatGPT的。”北京邮电大学计算机学院副教授孙海峰表示，一方面，在多模态信息处理上，Gemini远超OpenAI的ChatGPT。Gemini既可以支持多模态信息输入，也支持多模态信息输出。Gemini一个典型的特点是支持文本、图像、音频和视频的交错序列作为输入，这对于ChatGPT或者传统架构的多模态大模型来讲，是很难实现的。通常来讲，ChatGPT仅仅支持文字的输出，其他模态的输出需要调用第三方API来实现。Gemini这种交错序列的输入方式更符合绝大多数场景的需求。另一方面，在Gemini的技术报告中，其在MMLU数据集测试中的准确率达到了90.04%，超过了人类专家，其推理能力的进化具有里程碑意义。

在Gemini上线后的一天，谷歌被外界质疑称，多模态视频是剪辑拼贴的，Gemini涉嫌夸大宣传。谷歌官方也给予了解释：视频的确有后期制作和剪辑的成分，Gemini所有交互不是实时感知到，而是工作人员给予图片和提示之后的效果，即Gemini在读取视频方面还有待进一步发展。

实时交互场景或是商业化焦点

受此消息的影响，国内投资人针对多模态技术及其应用展开热议。

某科技赛道的一级投资人表示，相较ChatGPT-4，Gemini的识图和推理能力，以及目前看上去的响应速度有很大进步。他个人认为，Gemini与OpenAI的产品各有千秋，商业化落地方面还需要找到合适的场景。“有合适的场景适配，并找到增值需求还是关键，但Gemini确实是将AI模型的想象空间进一步打开了。”

“可以大胆想象，当多模态模型运行在机器人(11.640, -0.05, -0.43%)身上，可能实现具身智能，另外，当多模态模型和谷歌眼镜结合时，或将升级为超级智能体。”另一位投资人表示。

某技术人士介绍，人类有五种感官，我们所建造的世界、所消费的媒体，都是以这样的方式所呈现。而多模态模型意味着Gemini可以用和人类一样的方式理解周围的世界，并且吸收任何类型的输入和输出——无论是文字，还是代码、音频、图像、视频。其中最关键的技术，是如何混合所有这些模式，如何从任意数量的输入和感官中收集尽可能多的数据，然后给出同样多样化的响应。

“Gemini更像人了，更贴近人的视觉识别和一些推理判断，OpenAI的ChatGPT更多像一个大知识库，它能够给人提供信息参考。两者不是谁超越谁，而是侧重方向有显著不同。”某投资人表示。

孙海峰表示，目前还不太清楚Gemini的具体实现结构是什么样的，但是这种对多种模态信息可以交错序列作为输入方式的模式，是许多场景、尤其是实时交互场景非常需要的。

另一位科技投资人认为，Gemini的发布意味着大厂在人工智能方面具有先发优势更加确定，比如谷歌的Gemini视觉推理方面能力突出，是因为他们有基于搜索引擎的各种资料作为大量的训练数据。此外，大厂在数据、流量、资金、算力以及应用场景上的优势都很明显。

来源：中证网