互联网2024年9月13日报道丨AI资讯早报
OpenAI发布强推理大模型o1,能力超越理化学科博士
当地时间9月12日,OpenAI官方无预警官宣,对外发布此前预热的「草莓」(Strawberry)大模型项目。
OpenAI新一代大模型是具有深度思考能力的o1推理模型,具有改善和调整策略的能力。
新模型在物理、化学、生物和编程数学等方面的表现已接近博士生水平,能解决国际数学奥赛测试83%问题,编程能力超过89%其他模型。o1系列大模型可以认为是“理科生”,可以进行通用复杂推理,但是缺点是每次回答要花费更长时间思考。
在此前,解决博士水平的物理问题时,GPT-4o还是“不及格”的59分,o1一跃来到“优秀档”,直接干到92.8分。
具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。
换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。
o1有多强呢?刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。
如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。
在竞争性编程问题(Codeforces)中排名前89%,在美国数学奥林匹克(AIME)预选赛题目中跻身美国前500名学生之列。
与GPT-4o相比,新模型o1在数理化生等主要理科,以及英语法律经济等各种商科文科均由不同的成绩改进。
汇总官方发布的o1系列大模型,又分为三个型号:
- o1新的大模型天花板,过于强大目前不方便对外公开
- o1-preiview,o1的早期版本,可以立即提供给ChatGPT付费用户和API用户
- o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务
如何访问o1?
根据OpenAI官方说法,ChatGPT Plus和Team用户可以第一批体验到o1系列模型,这次并不会放鸽子了。其中,o1-preview限制为每周30条消息;o1-mini每周50条。
API访问权限将首先给OpenAI Tier 5级的用户,也就是在OpenAI API上花费超过1000美元的用户群体。
Midjourney预告7.0版本:两个月内登场,新图像编辑器、3D建模系统
当地时间9月12日,科技媒体 The Decoder 发文报道称,在最近的“Office Hours”活动中,Midjourney 的 CEO David Holz 在 Discord 分享了当前项目的最新进展,并回答了社区的提问。
首先他预告称,Midjourney 7.0 版本将会在未来 1-2 月内发布。
David Holz 还提到,希望更多人体验 Midjourney,希望免费体验 AI 生图的用户,都可以通过 Midjourney 的 Web 网页版本进行使用。
那么,Midjourney V7.0 版本将包括以下改进:
- 新图像编辑器:Midjourney 目前还在开发一款图像编辑器,可以让用户利用涂抹和扩展功能编辑外部图像
- 3D 创建系统:Midjourney 正在开发一种全新的 3D 自动化构建系统,让用户能够虚拟地沉浸在 AI 虚构的虚拟世界中。他们没有采用多边形渲染、NeRFs 或高斯喷射技术,而是创造了一种新的“类 NeRF”格式
- 个性化风格:个性化功能同样位居 Midjourney 新特性之列。该工具旨在向用户提供更加个性化的结果。近期,Midjourney 已为旗下专注于二次元动漫角色创作的 Niji 模型启用了这一功能
David Holz 表示公司并不急于推出下一代的图像 AI 模型,而是提高现有技术的易用性,让工具深入融入到专业人士的日常工作中。
安卓版谷歌Gemini Live语音功能免费上线
当地时间9月12日,根据科技媒体 9to5Google 报道称,谷歌在一个月前面向 Gemini Advanced 订阅用户推出后,正逐步面向所有安卓用户免费开放 Gemini Live。
谷歌官方通过 Gemini App 的官方账号发布了 Gemini Live 向安卓用户开放上线的消息。
今年8月份,谷歌在 Pixel 9 系列手机发布会上,首次公开发布了 Gemini Live,这是一种类似于 GPT-4o 的实时语音交互模式,该服务提供了一种移动对话体验,让用户和 Gemini AI 展开自由流畅的对话。
Gemini Live 对标 OpenAI ChatGPT 最新上线的 Advanced Voice 增强语音模式,采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。
Mistral AI发布首个多模态模型
法国 AI 初创 Mistral AI 昨晚突然发布了旗下首个多模态模型。该模型名为 Pixtral 12B,拥有 120 亿参数,体积大小约为 24GB,基于 Mistral AI 的通用大语言模型 Nemo 12B 构建。
作为一个多模态大模型,它能够回答与指定 URL 或 base64 编码图像相关的任意数量、任意大小的图片问题。
在 Mistral AI 的闭门会议上,官方展示了更多关于 Pixtral 12B 的细节。从官方展示的多项基准测试结果来看,Pixtral 12B 的性能几乎全面碾压了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。
依靠 OCR 能力,Pixtral 12B 可以轻松识别出图片中的所有内容,甚至复杂的数学符号也不在话下,即便面对潦草的手写草稿,它也能拿捏到位。
此外,Pixtral 12B「看图说话」的能力也很强,给它一张密密麻麻、标注不同地区的投资分布图,它不仅能摘录关键信息,还能以图表的形式分门别类地罗列并生成图表。
然而,Mistral AI 这一新模型产品的发布会,引来了 HuggingFace 的技术主管 Philipp Schmid 的至议,他指出官方放出的 Pixtral 12B 存在一些异常:Pixtral 12B 的实际跑分并不如阿里通义的 Qwen 2 7B VL,而且 Qwen 2 7B VL 的参数规模还小了 40%。
三个月前,这家法国初创 AI 公司 Mistral AI 刚刚完成了一轮由 General Catalyst 领投的 6.45 亿美元 B 轮融资,这也使得该公司估值达到 60 亿美元。
李彦宏:开源解决不了效率问题,大模型之间差距越来越大
近日,百度CEO李彦宏在公司的最新内部讲话曝光,一时间引发行业热议。
内部谈话中,李彦宏提出了三点思考:
- 大模型之间的差距在缩小吗?
- 大模型技术已经接近天花板了吗?
- 为什么说商业化模型更有性价比?
李彦宏反对外界对大模型能力差距缩小的看法。他认为,大模型之间的差距仍然显著,并且会越来越多。他指出,尽管新发布的模型在测试集上表现良好,但这并不能证明它们与最先进的模型如GPT-4o之间的差距已经缩小。
他解释说,很多模型在发布后,都会发布一系列的测评榜单,并标榜自己的模型能力已经很接近了,“但到实际应用中,实力还是有明显差距的。”
一方面,模型之间的差距是多维的。模型能力的评估除了包括理解、生成和逻辑推理等多维度,以及相应的成本和推理速度。此外,对测试集的过度拟合可能导致对模型能力的误解。
如今大模型已经来应用阶段,他认为,真正的衡量标准应是模型在实际应用中能否满足用户需求和产生价值。因此在百度实际使用过程中,他不允许技术人员去打榜。
另一方面,大模型的天花板很高。今天能做到的,距离想要实现的效果还很远,所以模型还需要不断去迭代更新。只有持续几年甚至十几年地投入,才能让模型满足用户需求、满足场景、满足提升效率或降低成本等需求。
李彦宏认为,领先12个月,还是落后18个月并不重要,重要的是你可以永远保持对竞争对手领先6个月,那就赢了。
其次,开源的大模型解决不了商业应用中的效率问题。李彦宏强调,开源模型需要用户自行部署和维护,这导致其GPU使用率低,无法有效分担推理成本。而闭源模型通过用户共享资源和分摊研发成本,实现了更高的效率与效果。
而目前文心大模型3.5、文心大模型4.0的GPU调用量与使用率都能达到90%多。