Sora视频大模型训练数据被质疑非法采集,OpenAI CTO接受外媒专访面对敏感提问表现大翻车

最近,OpenAI CTO Murati接受采访时,对Sora训练数据语焉不详、支支吾吾的表现,已经成了全网热议的话题。毕竟,要是一个处理不好,OpenAI就又

最近,OpenAI CTO Murati接受采访时,对Sora训练数据语焉不详、支支吾吾的表现,已经成了全网热议的话题。毕竟,要是一个处理不好,OpenAI就又要陷入巨额赔偿金的诉讼之中了。

最近,OpenAI CTO在采访中大翻车的表现,已经在网上掀起了轩然大波。Sora再陷版权争议!

图片

前几天Murati接受华尔街日报采访时,被问及Sora训练数据的这段视频,已经在全网爆火,引起网友热议。

准备好,WSJ女记者要放大招了——「Sora是用什么数据训练的?」

图片

Murati接下来的表现,十分值得玩味。

她眨了数次眼睛,目光闪烁,思考几秒之后略带迟疑地给出了一个官方味十足的答案——

「我们使用的是公开可用的数据,以及经过许可的数据。」

图片

记者继续出招:「所以,你们是用了YouTube上的视频吗?」

Murati的反应亮了。她撇了撇嘴,眼神茫然地望向空中,犹豫了几秒后只得承认——

「关于这个情况,我不太确定。」

图片

记者步步紧逼:「那Facebook和Instagram上的视频呢?」

Murati的表情仿佛已经在崩溃的边缘——

「你知道,如果这些数据可以公开使用……对……可以公开使用的话……可能是用了这些数据,但我不确定,真的不太确定。」然后她无奈地伸开双手,表示差不多得了。

图片

但记者还在发问:「Shutterstock呢?我知道你们公司和他们有合作。」

Murati摇了摇头,表示,「关于使用数据的细节,我是不会详细说的,但我们用的数据肯定是公开的,或者许可使用的。」

图片

仓促上阵的Murati肯定没想到,记者会准备得如此充分,让她几乎直接掉在坑里。如果处理不够得当,OpenAI极有可能会继续吃官司。

图片

网友形容Murati的窘迫表现

有人预言:Murati的反应绝对会被做成表情包,全网热转。

图片

完整视频如下:

<iframe src="//player.bilibili.com/player.html?aid=1101625297&bvid=BV1aw4m1d7AS&cid=1469173689&p=1&autoplay=0" frameborder="no" scrolling="no" allowfullscreen="allowfullscreen"> </iframe>

训练AI模型数据所面临的巨大版权争议,是这一年多全球相关人士讨论最多的话题。

如今,ChatGPT让OpenAI的估值暴涨到了800亿美元;而Sora又几乎要颠覆动辄上百亿票房的好莱坞影视行业 。

然而这些收益却进了OpenAI的腰包,而做出关键贡献的数据所有者,却分文无收,甚至反而被掀了饭碗。

OpenAI被纽约时报起诉、ChatGPT被怒喷应当「销毁」的故事,会再一次上演吗?

看过视频的网友都认为:她的微表情在说谎

这段采访的视频一出,业内人士和网友都震惊了。

有网友锐评道,这个采访看起来很愚蠢,整个对话仿佛是下面这个样子——

你是坏人吗?

不是。你是坏人吧?

呃……不是吧?不是。

你到底是坏人吗?

听着,我不是坏人。

图片

还有网友展开了微表情分析,认为Murati很有可能是在说谎。

图片

图片

科技专栏作家Brian Merchant批评道,Murati的表现「要么是对自己公司的产品惊人的无知,要么就是在谎言——无论哪种可能,都非常可怕!」

图片

的确,对于一个AI公司CTO来说,她的表现是完全不合格的。

图片

那么问题来了,如果是后一种可能,Murati为什么要撒谎呢?

如果她意识到自己需要撒谎来掩盖某些事实,那就说明,她心里明白OpenAI的做法是在违法的边缘试探。

图片

而在未来,当OpenAI被法官问话时,这很可能就会给OpenAI埋下一个大坑。

图片

「看起来,OpenAI要面临一场大型诉讼了」

目前,OpenAI正面临着好几场由作家和纽约时报发起的诉讼,后者声称,他们受版权保护的作品未经许可,就被OpenAI用来训练ChatGPT等模型。

与此同时,外媒纷纷发表文章,嘲讽Murati在采访中表现出的样子太不专业。

图片

图片

OpenAI的CTO上电视节目的这个表现,对官司缠身的OpenAI可真不算个好消息。

如果CTO都无法坚定地回答,现在公司旗下最热门新模型的训练数据来自哪里,那也就证明了,OpenAI高层甚至对这个问题根本就没关注。

据WSJ报道,在采访结束后,Murati证实,Shutterstock上的视频确实包含在Sora的训练集中。

不过,网上有海量的视频内容,OpenAI从Shutterstock得到的,恐怕也只是Sora训练数据池中的一小滴水而已。

图片

其实,这件事情之所以能引起轩然大波,也是因为它直接指向了问题的本质——在公共领域的数据,所属权到底属于个人,还是完全共有?

从前,数据飞轮还没能给LLM加速到日进斗金的程度时,这个问题没有放到台面上讨论过。而现在,它背后代表了巨大的利益。

也有一些人为Murati和OpenAI辩护。

他们认为,既然你把东西发到了网上,就应该默认它属于公共资产。如果你不想公开,那就应该让它们保持私密。

图片

也就是说,一旦事情在公共场合发生,它就属于整个人类。

图片

这么说来,我们在往网上发东西时,都得时刻小心翼翼了。

一家价值数十亿美元的AI公司,很可能会把你随手拍的家人朋友的视频,用作生成式AI模型的养料,获得惊人的利润。

对于这个数据监管的争议,斯坦福教授Christopher Manning表示,目前最合适的AI监管办法之一,就是要求模型厂商记录下他们使用过的所有训练数据。

图片

欧洲议会刚刚通过的AI法案,也同样强调了这一点。

图片

不管怎样,总之这则采访还是给我们带来了Sora视频模型的最新一波演示出炉!

虽然在之前的采访里已经提到,Sora生成的视频还有很多bug,但这些不断被放出的演示,依然在不断惊艳世人。

比如瓷器店里的公牛。

图片

扛着摄像机的女记者忽然变成了机器人。

图片

拿着手机的小美人鱼,旁边是她的蟹助手。

图片

还拉着Runway对比了一波,生成两个镜头前的女记者。

图片

图片

Sora还在不断掀起关于人工智能技术的高速发展与现实冲突的故事。

AI在电影、游戏、广告这些行业还会掀起怎样的飓风,让我们拭目以待吧。