Vidu视频大模型重磅升级:如何实现主体场景迁移丨GPT-4o语音功能的高管跑路丨夸克发布AI写作助手CueMe

互联网2024年9月12日报道丨AI资讯早报 生数科技Vidu视频大模型重磅升级:实现主体场景迁移 9月11日,由生数科技和清华大学联合研发的视频大模型Vidu

互联网2024年9月12日报道丨AI资讯早报

生数科技Vidu视频大模型重磅升级:实现主体场景迁移

9月11日,由生数科技和清华大学联合研发的视频大模型Vidu迎来重大更新,加入了“主体参照”(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。目前该功能面向用户免费开放。

现阶段,无论是文生图,还是文生视频,都存在严重的主体一致性问题。

生数科技举办的媒体开放日活动上,对外展示了“主体参照”功能,该功能允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。

该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。

无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。Vidu 也是全球首个支持该能力的视频大模型。

OpenAI高管又跑路 :GPT-4o语音模式主管离职

当地时间9月10日,据外媒报道,OpenAI 的音频 AGI 团队的研究主管 Alexis Conneau 宣布将离开公司,进行个人创业,他同时也是该公司实时互动语音大模型 GPT-4o 研究团队的重要技术成员。

图片

Alexis Conneau 在 2023 年 4 月加入 OpenAI,帮助 OpenAI 实现了类似于「HER」(她是机器人)的人工智能愿景,他也参与了 GPT-4o 实时音频技术,以及下一代大模型 GPT-5 的相关研发工作中。

根据彭博社最新的报道显示,OpenAI 目前的估值为 1500 亿美元,正在洽谈从投资者处筹集 65 亿美元资金,以及从银行处获得 50 亿美元信贷额度。

李彦宏内部讲话:未来大模型之间的差距将拉大

据媒体报道,近日新浪独家披露,百度 CEO 李彦宏在公司内部进行了一次内部讲话内容,谈到了业界对于大模型的认识误区,涵盖大模型竞争、开源模型效率、智能体趋势等。

图片

李彦宏在演讲中表示,未来大模型之间的差距可能会越来越大,模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级。大模型的投入,需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。

李彦宏指出,模型之间的差距是多维度的,一个维度是「能力」方面:理解能力、生成能力、逻辑推理能力、记忆能力等;另一个维度是「成本」方面:想具备这个能力或者想回答这些问题,付出的成本是多少。

可以读懂唇语的AI产品Readtheirlips,火了

最近,国外一款据称可以轻松读出人类的唇语的 AI 软件 Readtheirlips  火了!

Readtheirlips 是一款利用人工智能技术进行唇语识别的软件。它通过分析视频中人物的嘴部动作来识别和转录所说的内容。根据搜索结果,这款软件在某些情况下表现出色,例如当视频中的人物正脸对着镜头时,Readtheirlips 能够准确地识别和转录对话内容。

让我们简单了解这款产品是如何读取唇语的:

首先,研究团队根据已知的嘴唇运动动作大数据与文本内容,采取大量的标注数据来对模型进行训练。

在此基础上,用户要上传一段视频,这段视频要包含说话者的面部特写,尤其是嘴部动作。

然后模型会对视频进行嘴部运动的分析:先是通过面部检测识别嘴唇的位置,然后再提取嘴唇的几何特征,(形状、开合程度、运动轨迹等),最后分析嘴唇在说话过程中的动态变化(语速、方向和形状变化)。

最后,大模型会将提取的嘴唇特征与训练数据中的特征进行匹配,来识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子,进行一下上下文理解,确保语法和语义的正确性。最终将识别出的内容输出为文本格式。

夸克发布智能写作助理CueMe,支持20万字长文

9月12日,阿里旗下夸克发布全新智能对话助手 CueMe,用户现可通过登录 cueme.cn 或在夸克 App、小程序等平台使用。

CueMe 是基于夸克大模型自主研发,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长可生成 2 万字的内容。

夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,并且还在持续扩展中。

此外,CueMe 还支持文风定制,用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。

图片 3

据夸克官方介绍,CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上,CueMe 从三个方向进行内容深度优化。

首先是结构,对于研究报告等长文,高质量大纲生成是确保内容结构合理、逻辑清晰的关键。

其次是引用素材时效性强、内容丰富。

最后在生成内容中增加细节描述和鲜明观点,从而让生成内容不再“AI 痕迹明显”或者泛泛而谈。

图片 4

以大纲内容优化为例,CueMe 首先会根据需求生成有明确方向的的高质量大纲,同时通过“增加每一部分具体内容描述”、“增加一个国际比较章节”等推荐指令,引导用户进一步打磨大纲。当然,用户也可直接与 CueMe 对话,输入具体修改要求。

马斯克:特斯拉2025年列装Dojo 2 AI训练芯片,对标英伟达B200

当地时间9月10日,马斯克出席 All-In Summit 2024 活动时,并发表了重要的产品推荐讲话。

他透露,特斯拉的下代 AI 运算芯片 Dojo 2 将于 2025 年末批量装备。

会议现场

马斯克表示在特斯拉的 AI 基础设施结构中 Dojo 负责模型训练,而车端芯片负责模型推理。特斯拉未来将推出数代 Dojo 芯片。

其中预计 2025 年末实现批量装备的 Dojo 2 可与英伟达 B200 AI 训练系统在一定程度上具有可比性;而再下一代的 Dojo 3 则有可能于 2026 年晚些时候推出。

马斯克认为技术通常需要 3 次重大迭代才能达到卓越水平,因此等到 Dojo 3 才能知道 Dojo 系列芯片到底有多么优秀。