谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评

当下最火的「长文本」来力嘞! 谷歌最牛的大语言模型Gemini 1 5 Pro,即日起对外开启公测。 目前使用是完全免费,开发者可以通过API调用的方式免费体验

图片

当下最火的「长文本」来力嘞!

谷歌最牛的大语言模型Gemini 1.5 Pro,即日起对外开启公测。

目前使用是完全免费,开发者可以通过API调用的方式免费体验,普通用户也可以直接在谷歌的AI Studio中进行体验。

图片

更具有讽刺意味的是,对外发布产品公测消息的谷歌工程师Logan Kilpatrick,不久前还是OpenAI的开发者关系项目负责人,跳槽之后就得到“重用”可谓兵不血刃弑旧主。

划重点!本次更新最令人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。

图片

一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲,我们不再需要课代表or字幕组,就可以轻松掌握核心内容。

如下图所示:

我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音,Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。

图片

要知道,目前Gemini 1.5 Pro同样支持「长文本」功能,上下文窗口提取100万,这次也直接对外免费开放。

据悉,目前大模型能处理的最长音频约为11小时,最长视频则为1小时,相当够用。

谷歌Gemini 1.5 Pro API免费耍

谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布,任何人都可通过谷歌AI Studio开发平台申请API的密钥。

图片

你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。

点击AI Studio里边的「Audio」。

图片

我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频,时长为1分钟。

图片

我们没有提供任何暗示性提示词,谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物,是什么身份。

图片

并且只花了10秒的时间,就精准整理出了这段对话的核心信息,干脆利落一句废话都没有。

第一次体验,测试表现就令人折服。

接下来,测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。

图片

我们提取音频文件时发现,这则1小时的影片足足有10万多个Tokens。

图片

这个Tokens数据量还是蛮惊人的。

但是难不倒Gemini 1.5 Pro,最终也只花了53秒——一分钟不到,就按要求给出了演讲稿里边的10个亮点分析。

这种「长文本」音频转文本的功能,让我们再也不用大费周章扒文字稿和字幕了。

图片

回到API接口本身。

除了让开发者可以更好地控制音频理解的大模型接口输出,Gemini 1.5 Pro还提供了另外3项功能改进。

①首先是系统指令。

我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。

图片

设置完成后,这个指令就会应用于接下来的整个请求。

示例如下:

图片

②其次是JSON模式。

也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。

③再者,函数调用上也有改进。

为了提高可靠性,谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。

最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名「Gecko」)。

该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。

图片

谷歌最强大模型,能干的不止文稿分析

为了挑战OpenAI的领导地位,谷歌在2月15日发布Gemini 1.5 Pro,上线距今还不到两个月。

Gemini 1.5 Pro是Gemini Pro 1.0的升级版,多模态多语言大模型。

为了找到对抗GPT-4 Turbo的突破口,其最大的亮点无疑是100万量级的上下文窗口长度——

100万「长文本」Tokens,相当于可一次性处理70万个单词or超过3万行代码,如果折算成音频则大约为11小时,视频则为1小时。

无疑是很大的一个量级,而且谷歌的数据中心有能力支持运转。

图片

官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示,可谓「遥遥领先」。

网友也对新的模型分享了一些十分不错的内测表现案例,比如:

帮助鉴定Sora视频是否由AI生成,请列举关键证据——

图片

Gemini Pro 1.5对此回答:「这可能是AI生成的视频,猫咪毛发过于完美。」

大模型还可以在一段NBA扣篮大赛的视频中,判断出谁的扣篮得分最高, 并给出扣篮方式的细节描述。

图片

谷歌Gemini Pro 1.5还支持多个文档同时解读,比如将《星际穿越》和《星际探索》两部电影的完整脚本,合计接近10万个Tokens。

大模型只花了30多秒就给出了两部影片脚本的差异性。

图片

可以说,谷歌整体是没有让大伙失望的。

这还没完,最高能的应用案例来了!

没想到Gemini Pro 1.5还能看懂视频里边的代码脚本,并且给出BUG修改意见——

一位国外网友在编写网页前端代码时故意留下3个BUG。

图片

他将代码编写的过程用手机录制下来,再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。

全网哗然!「长文本」加持的Gemini Pro前途不可限量啊!

随着Gemini 1.5 Pro API的全面开放应用,相信很快就会有牛人打造更强大的AI应用,读懂一切音视频,帮助人类快速迈向「AGI时代」。

标签: Gemini 谷歌