首先要知道虚拟主播几种形式,一种是基于真人融合虚拟背景的虚拟主播,这种方案中人是真的,还有一种就是主播的主题人是动漫模型(二次元),场景可以是虚拟的也可以是真是的,虚拟捕捉简单的方法是通过大数据语音识别来驱动虚拟人物的面部表情,如微笑,说话,伤心等,但依托光学动作捕捉技术动作捕捉系统,面部识别技术等,借助克拉克拉,虎牙可以做虚拟直播的平台可以实现前端虚拟实时直播,后端真人动作表演的效果,这种技术形式更适合现在直播的互动和生动要求
虚拟主播:西瓜首个人工智能主播?
这是怎么弄出来的?需要下载软件吗?
题主可能不是动漫迷,这个其实比较简单,不需要下载程序即可使用,具体是什么原理呢?
1 认识Vtuber及虚拟主播
很多二次元铁粉们,大部分肯定比较了解Vtuber,西瓜的虚拟主播其实是类似的意思。Vtuber顾名思义就是Virtual Youtuber,“虚拟油管主播”的意思,是通过平面或3D模型塑造一个虚拟人物形象,结合面部或动作捕捉设备,将真人的言行叠加到虚拟人物身上,并进行相关视频的制作与发布。这些合成视频可能是成片,也有现场直播的,目前直播类的虚拟主播有逐渐普及的趋势。
2 虚拟主播的技术原理
西瓜虚拟主播跟Vtuber类似,但不完全相同:
双方相同的地方,都是通过虚拟人物形象进行直播互动,呈现给用户的界面差别不是特别大。
不同点在于:
首先,Vtuber的虚拟角色是提线木偶,实际是由真人在背后控制,通过结合面部表情和动作捕捉设备,实现真实人物和虚拟角色的连接,因此Vtuber虚拟人物形象更加丰富自然,语言表达跟人类的语言是一样(因为本身也是真人在发声),而西瓜两个虚拟主播是两个应用程序,它是由机器控制的,所以还有些不自然。
其次,Vtuber可以自由与用户沟通交流,可以做复杂的表情和动作,而西瓜虚拟主播就是傻瓜式的。
24小时唱聊主播,用户只要给钱(西瓜币或钻)并输入歌曲名,程序(就是虚拟主播啦)就会按照设定的逻辑“说话”并调取音乐,并通过电子合成音演唱歌曲(人工智能语言合成技术,通常虚拟主播的电子音会根据角色需要提前设定好)。
24小时罚站主播,除了语音合成外,还有人工智能深度学习技术,它在初始状态下就是一个复读机,把提前录好的几句话反复讲。用户必须要与虚拟主播互动,“教”AI说话,它才能根据用户的习惯慢慢的提高表达能力(深度学习),逐渐的AI虚拟主播会成为用户理想中形象,因此用户“教”得越频繁(数据量越多,AI对用户就越理解)对AI主播就会越喜欢。
感谢阅读,欢迎在评论区留言与我交流!
虚拟主播背后都是真人吗?
虚拟主播背后不一定都是真人,但是要保证真正的接近与人情感,表情,动作才更加生动。简单的虚拟主播依靠声优后台播音,虚拟主播自动匹配动作表情库,但这些动作表情库都是有限的,主流的虚拟主播需要接触光学动作捕捉系统光学动作捕捉系统,实时渲染引擎,变声系统,面部捕捉系统等,虚拟主播是实时的,就是把以前用于电影拍摄的光学动作捕捉系统用在了直播上,捕捉后台真人的动作,来驱动二次元模型,虚拟主播在国内刚起步,日本最出名的初音未来都是由真人在后台表演的
"