热搜：编程 Python Microsoft 编程语言 C++

OpenAI高层剧震，三位高层宣布离职和隐身丨即梦AI推出移动客户端丨Figure发布新一代人形机器人「Figure 02」

发布时间：2024-08-07 16:31:19 来源：网络

.

互联网2024年8月7日报道丨AI资讯早报 OpenAI高层剧震，三位高层宣布离职和隐身在去年11月经历了震惊科技圈的「高层宫斗风波」后，全球瞩目的人工智能企

互联网2024年8月7日报道丨AI资讯早报

OpenAI高层剧震，三位高层宣布离职和隐身

在去年11月经历了震惊科技圈的「高层宫斗风波」后，全球瞩目的人工智能企业OpenAI的人事动荡问题持续延烧，始终未能完全平息。

近日，OpenAI总裁Greg Brockman宣布长期休假，很久都没有出现在办公室。而公司的另外两位高管——联合创始人之一的Johnson Schulman以及人工智能产品负责人Peter Deng离职，引发对OpenAI团队状况的猜测。

根据媒体统计，目前在OpenAI于2015年成立之初的首批初创成员中，只剩下CEO山姆·奥特曼、Wojciech Zaremba以及奥特曼的好哥们Greg Brockman。

OpenAI的大部分离职员工均投身到其他的竞争对手公司或者人工智能创业公司，比如谷歌Deepmind和开发Claude机器人的Anthrophic。不太和谐的公司团队士气和外界对公司的关注度让这家初创企业面临了十分严峻的危机。

从产品端的角度来看，OpenAI也面临着重重的压力。目前还未能拿出下一代大语言模型GPT-5的发布时间表，而奥特曼等高层则不断强调该模型强到令人难以想象。除此之外，今年春节发布的Sora视频模型，目前依然未能实现商用化。

字节跳动“即梦AI”推出AI视频创作移动客户端

字节跳动旗下的剪映团队开发的一站式AI创作平台“即梦AI”，可以帮助用户通过AI技术轻松地生成各种创意作品，包括图片、视频等。“即梦AI”近日正式发布针对手机用户的移动版本APP，目前已经上架苹果 App Store及安卓各大应用商店。

这款 App 由剪映、醒图团队（脸萌科技）研发，采用内购模式，会员服务按月或年收费。

图像创作

文生图：输入一段文字描述，AI就能根据你的描述生成各种风格的图片，从写实到抽象，应有尽有。
图生图：上传一张图片，AI可以基于这张图片进行二次创作，比如改变风格、添加元素、或者生成多个变体。
AI拼图：将多张图片无缝拼接成一张大图，风格统一和谐。
局部重绘：对图片的局部区域进行重新创作，修改细节或改变风格。
一键扩图：将图片放大，同时保持画质和细节。
图像消除和抠图: 快速去除图片中的不需要的元素，或者将前景从背景中抠出来。

视频创作

图生视频：将静态图片转化为动态视频，添加各种特效和转场。
文生视频：输入一段文字描述，AI可以生成一段短视频，包含画面和声音。
故事创作：提供多种故事模板和素材，帮助你快速创作出属于自己的视频故事。

Figure发布新一代人形机器人「Figure 02」

8月7日消息，AI人形机器人创业公司Figure宣布其最新一代产品——Figure 02人形机器人正式发布。据介绍，这是一款集机载算力、视觉推理、语音交互于一体的

经过日前简单的预热，这家由微软、英伟达、OpenAI联合投资的人形机器人明星企业如期发布最新款人形机器人Figure 02。

Figure 02 行走间虽有颠簸，但速度也算的上中规中矩，与背景里拿着工厂零部件的同类机器人相映成趣。

在性能提升上，Figure 02人形机器人全身装备了6个RGB摄像头，分别位于头部、胸前和后背，配合AI驱动的视觉系统，能够实现对真实物理世界的精准感知和理解。此外，Figure 02还搭载了机载的视觉语言模型（VLM），使其具备了快速的常识性视觉推理能力，能够自主执行多种复杂任务。

值得一提的是，Figure 02在语音交互方面也取得了显著进步。机器人内置了OpenAI定制的语音到语音推理模型，通过机载麦克风和扬声器，实现了与人类的高效对话。

基于机载算力和各个组件的全方位升级，AI人形机器人朝着“进厂打工”又迈进了一大步。随着人工智能大模型的飞跃式发展，这款被不少媒体称为“地表最强人形机器人”的AI设备，也已经具备视觉推理和聊天沟通的能力——操作机器人的默认UI就是语音控制。

智谱AI开源「国产Sora」视频大模型CogVideoX

8月6日，国内人工智能创业公司智谱AI宣布对外开源了旗下的“智谱清影”视频生成工具背后的视频生成大模型CogVideoX，这是全球首个可商用的开源视频大模型。这款大模型在GitHub开源社区发布仅5小时，便获得了3.7K的星星点赞数值。

CogVideoX是一款「类Sora」的文生视频大模型，它就像一位创意十足的导演，能够根据你提供的文字描述，自动生成一段生动的视频。输入一段文字描述，CogVideoX就能生成对应的视频。无论是简单的场景描述，还是复杂的故事情节，它都能胜任。

CogVideoX提供一下的能力：

视频生成工具：可以根据文本描述或其他输入生成视频。
视频编辑工具：可以对视频进行智能化编辑，如自动剪辑、添加特效等。
视频分析工具：可以对视频内容进行分析，提取关键信息、识别对象等。

智谱AI的CogVideoX包含多个不同参数尺寸，此次开源的是CogVideoX-2B 20亿版本，推理仅需18GB的显存，民用级显卡即可实现。该模型已支持在HuggingFace的Diffusers库中部署。智谱AI的技术报告提出了一系列新的算法和处理方式，包括三维变分自编码器结构、专家Transformer等。