马斯克旗下xAI的多模态模型Grok-1.5V突然发布！轻松读懂梗图，对现实世界的理解力超越GPT-4V

发布时间：2024-04-15 21:07:24 来源：互联网

.

以下文章节选自丨智东西马斯克近期可谓大动作连连！刚刚宣布推出开源Grok-1 0大模型，并且发布新一代Grok-1 5版本，马斯克旗下的大模型创企xAI就再次

以下文章节选自丨智东西

马斯克近期可谓大动作连连！

刚刚宣布推出开源Grok-1.0大模型，并且发布新一代Grok-1.5版本，马斯克旗下的大模型创企xAI就再次发布了一款多模态大模型Grok-1.5V。

这也是该公司首个多模态具备视觉能力的大模型，直接对标OpenAI的GPT-4V。

除了文本生成能力以外，Grok AI现在还可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图、照片，并能进行多学科的推理任务。

xAI官方重点展示了新模式「Grok-1.5V」的7个视觉认知案例，在介绍之前让我们先来看下官方给的测评跑分成绩。

xAI晒出与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、谷歌Gemini Pro 1.5相比，Grok-1.5V的表现打得有来有往，在某些基准测试项目甚至略胜一筹。

在对标业界标杆GPT-4V的成绩，大部分测评基准都有领先。

值得一提的是，在真实世界空间理解能力「RealWorldQA」的QA基准测试中，Grok明显优于其他同类模型。

自从2023年11月xAI发布AI聊天机器人Grok以来，老马的团队就在不断加速追赶OpenAI的步伐。目前马斯克掌控的推特(X)平台独家向Grok提供训练数据。

官方发布了一系列Grok-1.5V的实战案例：

①看图表草图，生成网页前端代码

提供一张手绘的流程图，让Grok将手绘图转换成Python代码。这里边首先需要读懂手写体内容，并创建代码规则。

Grok返回内容：

「当然!您提供的流程图描述了一个简单的猜谜游戏，其中计算机生成一个随机数，用户必须猜测它。

下面为Python代码编写的逻辑流程图。」

「这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测，直到他们猜对了数字。」

②计算菜品的卡路里

提问：「图中这个菜谱，5片这个(菜品)一共有多少卡路里？」

Grok回复：

「如果一份是3片，含有60卡路里，那么5片就含有大约100卡路里。这是通过首先确定每片的卡路里来计算的：60卡路里/3片=每片20卡路里。然后，将每片的卡路里乘以片数：每片20卡路里×5片= 100卡路里。」

③根据图像生成一个睡前故事

根据上传的图像，Grok创作一个睡前故事。

“啪~”的一下!

很快啊~来看看这个故事你喜欢吗?

翻译：

Grok编的故事

很久很久以前，在一片充满冒险和奇迹的土地上，有一个勇敢的小男孩，名叫蒂米。蒂米和家人住在一个舒适的小房子里，他最喜欢探索周围的世界。

一个阳光明媚的日子，蒂米决定去附近的森林里冒险。他收拾了他最喜欢的零食、指南针和他值得信赖的笔记本，画下了他将要看到的所有令人兴奋的东西。

当蒂米冒险深入森林时，他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人，以至于蒂米决定建造一艘小纸船，顺流而下，作为对森林精灵的特殊信息。

蒂米小心翼翼地折叠他的纸船，并在上面画了一个笑脸，给森林精灵带来欢乐。然后，他把船放在河上，看着它飘走，带着他对友谊和对大自然的热爱的信息。

当太阳开始落山时，蒂米知道是时候回家了。他对自己在森林里度过的神奇一天感到感激，他知道他将永远把冒险的记忆铭记在心。

回到家里，蒂米与家人分享了他的故事，他们很高兴听到他在森林里神奇的一天。他们都认为蒂米的勇敢和善良的精神是真正的灵感来源，他们知道他将来会继续有更多精彩的冒险。

于是，带着一颗充满爱的心和一颗充满梦想的头脑，蒂米渐渐睡着了，渴望发现在他想象的世界中等待着他的新冒险。

④解释网络梗图

给Grok上传一张知名的网络迷因梗图，它也能“秒懂”人类的幽默感。

Grok很显然能读懂人性的本质。

「这张图片是对初创公司和大公司的幽默比较。在左边标有“初创公司”的地方，有一群人在一起挖洞。他们都在积极参与，这个洞已经相当深了。

在右边标有“大公司”的地方，有一群人站在一个洞周围。然而，与创业方不同的是，实际上只有一个人在挖洞，而其他人则在观看或从事其他活动。

这幅图中的幽默来自于对初创公司和大公司之间差异的夸大。在创业公司，通常有一种紧迫感，每个人都被期望直接为手头的任务做出贡献。相比之下，大公司通常被描述为有更多的官僚主义，并且每个项目中所有团队成员的直接参与较少。」

⑤将表格转换成CSV格式

要求Grok将下图这张表格转换成CSV格式。

Grok随即输出以纯文本格式显示的CSV文档。

⑥识图并给出解决方案

上传图像，可以让Grok帮助解决生活中的日常问题。

比如上传一张甲板破损的照片，并询问：

「这些洞出现在我甲板上的螺丝周围。它烂了吗?我应该换电路板吗?」

Grok回复说：

「看起来，你的甲板上的木头已经开始腐烂了。螺丝周围有洞表明了这一点，这是木头腐烂的常见迹象。

为确保甲板的安全和使用寿命，建议更换受影响的甲板。这将有助于防止甲板进一步受损，并保持其结构完整性。

如果您不确定如何继续更换板，咨询专业的甲板建造商或承包商可能会有所帮助。他们将能够评估损坏的程度，并为您的甲板提供最佳行动方案的专家建议。」

⑦修复代码BUG问题

作为一款通用大模型，Grok自然也可以进行代码BUG纠错。

让Grok使用Python解决上面出现的代码问题，Grok的输出如下——

xAI团队认为，推进其多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。

在接下来的几个月里，xAI预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。

在刚刚过去的一个月，xAI相继宣布将Grok-1.0开源、推出128K「长文本」Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。官方宣布，Grok-1.5V很快将提供给内测玩家以及Grok AI的付费用户。

以下您可能有感兴趣的文章:

标签： Grok 马斯克 xAI AI大模型

科技新鲜事最新文章

字节跳动回应「大模型遭实习生攻击」：属实丨员工爆料：苹果AI技术落后业界两年丨张艺谋执导《三体》成立AI工作小组

OpenAI发布ChatGPT Windows客户端丨微软Azure OpenAI接口终止向国服提供服务丨苹果AI整合ChatGPT将支持文本/图像生成

华军软件园发布9月AI产品榜丨零一万物发布新版大模型Yi-Lightning丨李开复：中美顶尖大模型性能差距只有五个月

苹果发布新一代iPad mini 7搭载「苹果AI」丨Adobe发布多款在线AI修图工具丨微软AI部门副总裁离职加盟OpenAI

重塑AI大模型智能终端新体验，TCL实业亮相中国移动全球合作伙伴大会

OpenAI o1推理能力极限测试丨大模型的推理能力究竟有多脆弱？

苹果10月28日发布iOS 18.1推送「苹果AI」丨Adobe发布AI视频创作工具丨荣耀手机本月底举行两场AI产品发布会

国产AI视频软件再迎重大升级丨可灵1.5版本解锁高质感视频生成，效果堪比大片!

华军AI产品榜【2024年9月】榜单发布丨AI视频赛道杀出黑马，二次元动画利器YoYo燃爆B站

特斯拉机器人发布会“擎天柱”背后有人远程操控丨李开复：零一万物没有放弃训练大模型丨快手推出开源文生视频模型

科技新鲜事热点排行

在线教程
开发软件

查看更多软件 