只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

最近AI领域备受瞩目的新闻中,OpenAI和谷歌的新品发布会,无疑占据了最多的头条。我们团队当然也不例外,不仅第一时间观看了两家公司的发布会,还亲身上手体验了号

最近AI领域备受瞩目的新闻中,OpenAI和谷歌的新品发布会,无疑占据了最多的头条。

我们团队当然也不例外,不仅第一时间观看了两家公司的发布会,还亲身上手体验了号称“颠覆世界”“世界又科幻了”的GPT-4o。

一句话总结:

OpenAI发布会,失望;

谷歌发布会,无聊。

并不是我们要故作惊人之语。实际上,AI业内专业人士普遍都有类似的看法。

一些国内从事AI工程化项目的人表示,“不关心,因为又用不到”。而AI科学家和专家也有不少人直言,“看着看着睡着了,谷歌几乎所有的东西都是对标和追赶,没有太多的新鲜感”。

又又又一次在与OpenAI的较量中处于下风,一个只有谷歌受伤的世界达成了。

尽管两大AI巨头的新技术方向,仍然值得关注,但可以明确的是,随着大型AI模型的产业化进程不断深入,国内外参与者也越来越冷静,更加专注于自身的AI策略与节奏。

有人将这两场发布会比作是一场斗地主游戏,OpenAI打出一对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?

每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给GPT-4o算笔账。

全能模型,究竟“惊艳”在哪里?

谷歌反击OpenAI的发布会,被称为“腹泻式更新”,一口气推出了十来款新品及升级。之所以让人看到睡着,是因为大家已经在前一天被GPT-4o“惊艳”过了。

而这次谷歌开发者大会上所演示的其他产品,OpenAI早都发布过。对标GPT-4o的Gemini Astra,表现又略逊一筹,也难怪大家兴趣缺缺。显然,这是一次针对谷歌的精准狙击。此前,谷歌已经对外放出了语音助手demo演示的预热视频,而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。

那么,OpenAI机关算尽、谷歌有备而来的多模态大模型,究竟有什么神奇之处?

GPT-4o中的“o”代表“omni”,意为“全能”,以此为版本号,凸显了GPT-4o的多功能特性,可以从三个方面理解:

1.多模态。

GPT-4o接受文本、音频和图像的任意组合作为输入,实时对音频、视觉和文本进行推理,生成相应的输出。相比ChatGPT的文生文、文生图,Sora的文生视频等,GPT-4o是一个原生多模态的融合体。这一点,谷歌的Gemini Astra也能实现,支持多模态的推理。在演示视频中,谷歌的智能助手可以理解手机摄像头拍摄的世界

当然,最关键的还是,经过一年多的大模型落地实践,国內AI产业链上下游可能都对OpenAI和大模型“祛魅”了。

这就像打牌,面对别人摆下的龙门阵,刚刚坐上牌桌,对游戏规则和策略不够熟悉,自然要先观察和模仿对方的策略,赶紧先把大语言模型搞出来,也会下意识地听取围观群众的建议。明明自己才是干AI的,但一听媒体分析师或网友说“落后了”,立马焦虑,忙着对标ChatGPT、对标GPT-4,又容易“翻车”引发舆论危机。刚上牌桌,进退失据,亦步亦趋跟进OpenAI是难免的。

但一年多时间过去,很多真正做大模型和产业落地的人与企业,或许还没彻底弄清楚中国大模型产业化、商业化应该怎么做,但一个共识很清楚——像OpenAI、谷歌那样做不行。最简单的,GPT-4o能第一时间拿到英伟达最先进的显卡,这就是国内厂商很难拥有的资源。

此外,ToB领域对模型可控性的要求、私有化部署的需求等,国内企业的智能化要从数据清洗、知识库等基础工作开始,而不是直接调用最先进模型的API……

这些问题,导致国內AI产业界对追赶OpenAI“炸裂新品”的兴趣,越来越小,找到了自己做大模型的节奏和策略。

这些背景综合起来,导致只有紧跟在OpenAI身后苦苦追赶的谷歌,被GPT-4o伤得最深。

多模态大模型的收益比,到底怎么样?

当然,不再一味追着OpenAI的节奏疲于奔命,并不意味着OpenAI和谷歌都在发力的技术方向,就不重要了,就可以不关心了。

只不过,在盯紧趋势的基础上,还得统筹牌局,算好收益比,究竟何时出牌、什么出牌顺序,对大模型商业化的潜在收益风险比是最高的。

那么,GPT-4o及Gemini Astra这类端到端多模态大模型,对企业的潜在收益与风险,究竟如何呢?

先说收益。

目前来看,与丰富的软硬件生态相结合,能够更快落地、价值最大化。

比如谷歌Gemini Astra尽管在理解能力、时延上不及GPT-4o,但谷歌凭借强大应用生态的支持,让跨模态理解生成,有了用武之地,股价也有所上涨。

硬件方面,谷歌Gemini的多模态能力与XR眼镜整合,让商业化遇阻的“谷歌眼镜”再次回魂重塑;

软件方面,GPT-4o被传将与苹果绑定,加速IOS的AI化进程。而谷歌则将多模态能力融入搜索,用户可以通过语音、图片等与搜索引擎交互,支持搜索视频内容。

不过,这些都是展望。在实际落地、与软硬件结合的过程中,AI公司可能会输掉一些筹码,潜在风险包括:

长期亏损。就连OpenAI都遭遇了流量危机,开始通过免费换用户规模,这意味着在算力、人员等方面的长期投入。AGI是一个长期任务,可能需要十年、二十年的时间,如果在每一个阶段,不能成功实现规模商业化,想一把赌个大的,靠后期非线性增长来扭亏为盈,很有可能“大业未成而中道崩阻”。

同质化竞争。OpenAI与谷歌的大模型竞争,撕咬得很紧,而技术领域想要彻底封闭是不可能的,这意味着底层模型能力很快会趋同,这时候用户会转变为价格敏感型,进入残酷的价格战。如果没有差异化的营收模式,一味跟进底层模型的绝对领先,利润会越来越微薄。

可能有人会说,还没做出国产版GPT-4o就惦记着商业化、赚钱,真的很庸俗。

必须得说明一下,从收益比最优的角度,决定怎么出牌,OpenAI可算是熟手了。事实上,ChatGPT的推出是为了用聊天机器人来抢到关注度,而GPT-5迟迟不推出,除了坊间猜测的能力不达预期之外,也有对发布时机的考量。奥特曼已经表达过多次,“GPT-5很厉害,但我们还没有确定如何将这些产品推向市场”。

师夷“算账”以制夷,国內AI公司也得学会踩点市场节奏,做出更明智、收益比更高的商业策略,才能长期良性发展。网友大型“双标”要不得。

从国内LLMtoB(面向B端市场的大模型)的一些实践经验来看,GPT-4o在当下确实还存在一些阻碍落地的实际问题。

比如可控性,AIGC生成的文本、图片,都比较容易进行内容控制,由其他模型或人类专家来把控内容质量与合规风险,超低时延的实时语音交互如何保障内容质量?如果在辅导作业、医生问诊、心理咨询等严肃场景中出现幻觉和胡说八道,甚至违法违规的内容,该怎么及时防范?

奥特曼在GPT-4o的技术博客中提到,该模型在网络安全等风险维度上都“不超过中等水平”,也就是说,目前只能实现中等及以下的安全能力。无论是C端用户,还是B端政企客户,谁放心将喜怒哀乐、私密信息都告诉多模态大模型?怎么打消用户的安全顾虑,还需要在数据源头、模型训练、规则机制设计、产品功能上都有充分细致地打磨。

更要问一句,创业公司和开发者的努力总是被新的模型能力覆盖掉,是不是来自AI大模型厂商的一种“背刺”?什么样的智能语音产业生态,才能吸引他们来用?

这些落地问题不解决,所谓的《Her》一般的科幻未来,就只能一直存在于OpenAI的demo中了。

从实际情况来说,跟上技术路线并不算真难题。算好收益比,搞清楚自己和对手手里的牌面,以及多模态大模型的商业牌局,才是更难也更紧迫的问题。

GPT-4o这一波,国内AI企业不用急着再上牌桌。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与互联网消息无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。