新壹科技CEO雷涛:我们对视频素材解构能力有深厚沉淀

随着ChatGPT聊天机器人的大热,人工智能行业开启了半年之久的技术“狂飙”。但是ChatGPT引起的科技伦理、网络安全、知识产权等系列问题同样需要关注。

随着ChatGPT聊天机器人的大热,人工智能行业开启了半年之久的技术“狂飙”。但是ChatGPT引起的科技伦理、网络安全、知识产权等系列问题同样需要关注。财联社《元宇宙之约》对话了新壹科技CEO雷涛。作为一下科技孵化的公司,新壹科技最近推出了自己的智能AI内容生成平台“一帧秒创”。

在雷涛看来,大模型只是解决基础能力,真正到每一个领域应用还是需要去做自己的数据训练;基础模型需要真正去理解用户,因为用户的问题是千差万别,答案也会千差万别。

至于AIGC与元宇宙之间的关系,雷涛表示,AIGC有助于元宇宙快速构建基础设施。

推出AI视频生成平台“一帧秒创”

新壹科技CEO雷涛:我们对视频素材解构能力有深厚沉淀

 

简单介绍一下公司在AIGC方面的布局。

雷涛:新壹科技是由一下科技孵化的在元宇宙VR及人工智能领域探索的实体。新壹科技的主要产品及业务涵盖了中短视频平台、VR数字孪生技术应用与直播平台运营等。在2021年年底的时候,我们考虑做一个新的视频平台应用。当时PGC、UGC视频平台已经形成激烈竞争,同时创作者向视频平台转移;但大量创作者没有视频制作的能力,我们当时就做了一个文字直接转换成视频的产品——一帧秒创。

据说一帧秒创拥有几十亿条视频素材?

雷涛:一帧秒创是基于秒创AIGC引擎的智能AI内容生成平台,以文字生成视频为核心功能,为创作者和机构提供多模态生成服务,包括文字扩写、文字转语音、文生图、图文转视频等系列创作服务;通过对文案、素材、AI语音、字幕等要素进行智能分析解构,助力创作者快速成片,实现零门槛产出视频。秒拍向我们开放了权限,所以拥有的视频库体量在几十亿级别。

AIGC需要有丰富的数据和强大的算法,目前新壹科技在这方面的储备怎样?

雷涛:新壹科技也有涉猎大模型,当然我们的研发能力还不足以去完成一个全新的大模型开发,而是基于目前开源的大模型(比如GPT、清华的GLM)去做自己的垂直化训练,形成自己的大模型产品去为用户服务。

在AIGC应用方面,一帧秒创产品的核心功能是图文转视频,用户只需要输入一个标题,然后通过AI把这个视频完成。其产品逻辑在于通过文案去匹配素材,把素材拼接在一起形成视频,但前提是需要有足够多的素材量。

我们是一下科技孵化的企业,一下科技历史上拥有几十亿条视频为一帧秒创提供素材。我们对这些视频进行了深度的结构化,给它打上丰富的标签,供用户检索、匹配等,通过这样的方式来形成一个比较好的AIGC视频体验。

AI视频生成需要解决两个问题

GPT模型生成视频是否比生成文本要难?

雷涛:GPT本身只有文本能力,但可以基于它的文本能力去拓展它的应用。要实现生成视频输出的话,主要解决两个问题:一是GPT对镜头语音的理解,二是视频数据的处理和理解。

AIGC或者人工智能给视频行业带来怎样的影响?

雷涛:其实我们本身的业务跟视频相关,之前也用了GPT系列模型。在我看来GPT模型可以为视频行业解决以下几个问题:一、视频脚本的撰写,文本撰写本身是GPT的一个基础能力;二、视频字幕的提取、翻译,这是基于GPT本身的一个应用;三、刚刚发布的GPT-4是多模态模型,这个多模态可理解、分析视频内容,同时做视频的推荐和搜索;四、GPT既然能理解视频应用,也能用于视频内容的AI审查、过滤。

一些视频平台上电影解说、科普类、财经类快速成稿都大量运用人工智能来生成。这个最重要的影响就是提高视频的制作效率,让单个用户具备一些工作室才具备的视频制作能力,降低了视频制作的门槛。

人工智能生成的视频会不会有版权问题?

雷涛:我们只是去匹配结果,尽量为客户匹配一些版权可以用的素材;如果用户需要将这些素材运用到商业领域的话,确实需要解决版权的问题。

模型需要真正理解用户的问题

据了解,ChatGPT背后的大型语言模型的训练集最近数据截止于2021年底,所以任何关于2022年里发生的事件,它无法给出准确的答案,如何看待这个事情?

雷涛:ChatGPT你可以把它理解成OpenAI的一个产品Demo,它是向你展示能力,所以就算它的数据训练有时间线,但这不影响它的展示能力。数据不是核心问题,能力才是。模型只是提供解决基础能力,真正到每一个领域的应用还是需要去做自己的数据训练。基础模型真正要解决是怎么去理解用户的问题,因为用户的问题千差万别,答案也会千差万别。

在你看来GPT模型目前还存在哪些问题?

雷涛:首先GPT是一个大语言模型,训练数据特别大,这意味着你如果去做一个类似的大模型,需要耗费大量的这种数据标注、算力、能源以及存储的成本,这种高成本的事情容易造成技术霸权,这是大模型天然存在的一个问题。

第二,训练完成以后,基于它的大量数据伦理方面的问题也越来越凸显。

第三,现在GPT-4的知识范围覆盖很大,很多问题回答可以说井井有条,但也有一本正经的“胡说八道”现象。这就考验它的逻辑思维能力,对用户有没有产生误导性。

这些问题将导致怎样的后果?

雷涛:存在一种可能,如果大家都倾向于去做模型的话,可能会产生类似军备竞赛,把大量的存储、算力、能源等成本都消费在上面。逻辑推理的误导性,可能让用户对很多新闻的真实性存疑,无法区分哪些是真的信息,哪些是假的信息。

AIGC有助于元宇宙基础设施构建

如何看待目前元宇宙行业的发展?

雷涛:整体元宇宙行业发展可能不尽如人意:一是VR终端销售疲软,META的Quest和字节的Pico4出货量都不及预期;二是与元宇宙相关的NFT概念有极大的投机性;此外,元宇宙行业尚未出现杀手级应用,不管是手机端、还是VR设备端都没有出现这样的产品。

从广义上来,AIGC也是元宇宙的一部分,也许未来下一次技术浪潮来临的时候,元宇宙又会焕发新机,但目前来讲还是偏概念阶段。

AIGC的发展能给元宇宙能带来什么?

雷涛:AIGC这个概念从去年开始逐渐火起来,我们看到AIGC可以生成文本、图片、视频、代码、游戏等。

元宇宙需要大量的内容生产。如果是靠传统的PGC或者UGC方式,要么生产成本过高,要么就是生产质量偏低。AIGC这种方式有助于元宇宙快速构建基础设施,包括文字、语音、视频等多媒体内容。

此外,元宇宙可以通过AI来生成代码或者AI来生成里面的人物,这个也是AIGC未来可能达到的一个方向。

 

来源:业界供稿

0赞

好文章,需要你的鼓励

2023

04/10

13:07

分享

点赞

邮件订阅