智谱AI发布新一代GLM-4系列基础大模型丨外媒曝：苹果英伟达微软联合投资OpenAI丨阿里发布通义视觉模型Qwen2-VL

发布时间：2024-08-30 13:30:06 来源：互联网

.

互联网2024年8月30日报道丨AI资讯早报智谱AI发布新一代基础大模型，向C端全面放开视频通话服务 8月29日，国内人工智能独角兽智谱 AI 在 KDD 2

互联网2024年8月30日报道丨AI资讯早报

智谱AI发布新一代基础大模型，向C端全面放开视频通话服务

8月29日，国内人工智能独角兽智谱 AI 在 KDD 2024 大会上发布了新一代基础模型，基础模型版本基于当前的 GLM-4。

自称在相应领域均达到了国际第一梯队的水准，并宣布在 MaaS 平台上免费开放 GLM-4-Flash API：

语言模型 GLM-4-Plus：在语言理解、指令遵循、长文本处理等方面性能得到全面提升。
文生图模型 CogView-3-Plus：具备与当前最上面的 MJ-V6 和 FLUX 等模型接近的性能。
图像 / 视频理解模型 GLM-4V-Plus：具备卓越的图像理解能力，并具备基于时间采集的视频理解能力。该模型将上线开放平台(bigmodel.cn)，并成为国内首个通用视频理解能力模型 API。
视频生成模型 CogVideoX：在发布并开源 2B 版本后，5B 版本也正式开源，其性能进一步增强。
GLM-4-Flash API：推理服务免费，并提供完全强大的服务。

除此之外，智谱 AI 还宣布在旗下的智谱清言 App 上线了视频通话功能，这是国内首个面向 C 端用户开放的视频通话服务。

智谱 AI 还表示，GLM-4-Plus 基础模型在各项指标上，实现与 OpenAI 的 GPT-4o 等头部大模型第一梯队水平相持平。

此外，在 GLM-4-Plus 模型的训练过程中，智谱 AI 通过采用更精准的长短文本数据混合策略，显著增强了模型在长文本推理方面的表现。

外媒曝：苹果英伟达微软联合投资OpenAI

据外媒援引知情人士消息，苹果、英伟达、微软已洽谈加入OpenAI的新一轮融资，融资额将达到数十亿美元。这将使OpenAI的估值创纪录地突破1000亿美元的大关，成为仅次于字节跳动的全球第二大独角兽。

本轮融资由风投公司Thrive Capital领投。Thrive Capital将投资约10亿美元。据彭博社援引知情人士消息，英伟达已讨论投资约1亿美元。

目前尚不清楚苹果、微软将在本轮向OpenAI投资多少。

如果谈判进展顺利，这将意味着，全球市值最高的三家科技公司——苹果、英伟达、微软——都将成为OpenAI的投资方。

OpenAI官宣：ChatGPT全球周活跃用户人数破2亿

当地时间8月29日，来自科技媒体 Axios 的报道称，报道称 OpenAI 的 AI 聊天机器人 ChatGPT 目前周活跃用户数量已经超过 2 亿，短短一年的时间实现数量级的翻倍。

OpenAI 还表示，在全球财富 500 强的企业中，92% 正在使用本公司的产品。自 7 月份发布 GPT-4o mini 小参数模型以来，其自动 API 的使用量已翻了一番。

阿里通义发布视觉模型Qwen2-VL：处理任意分辨率图像无需分割成块

8月29日，阿里云通义千问团队发布了新一代的图像视觉识别大模型 Qwen-VL，推出 Qwen2-VL 版本。

Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。

与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。

另一个关键架构增强是 Multimodal Rotary Position Embedding(M-ROPE)。通过将 original rotary embedding 分解为代表时间和空间(高度和宽度)信息的三个部分，M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。这使 LLM 能够充当多模态处理器和推理器。

在 7B 规模下，Qwen2-VL-7B 保留了对图像、多图像和视频输入的支持，以更具成本效益的模型大小提供“具有竞争力”的性能。

Qwen2-VL-2B 模型针对潜在的移动部署进行了优化。尽管参数量只有 2B，但官方表示该模型在图像、视频和多语言理解方面表现出色。