发布时间:2025-05-20 点此:1202次
【亿邦原创】阿里云在生成式AI范畴又有新进展。
8月16日,阿里云推出数字人视频生成东西Live Portait,上传一张相片和一段文本或语音即可生成一段开口说话的数字人视频,可使用于视频直播、谈天机器人、企业营销等场景。现在,该东西已在魔搭社区创空间敞开体会,在魔搭社区用手机注册账号,即可免费试用。
自对话大模型和AI绘画模型相继炽热后,业界对生成式AI的研讨逐渐朝更多模态的方向演进,AI视频生成就是抢手技能之一。
这项技能可将文本或音频等信息转换为面部运动信息,从而驱动生成相片人物形象的动画,能有用下降视频拍照和制造门槛。
这次上线的Live Portait东西由运动模块和生成模块组成,选用阿里云自研的口型猜测算法,生成的口型准确度比较传统办法大幅进步。
在练习阶段,Live Portait添加了姿势的显式操控,不需要底板视频也能够生成恣意动作的视频,大幅提高数字人说话的真实感。
此外,经过目光自动操控技能,Live Portait能够为眼球添加一些天然运动,使得生成结果在观感上更挨近真人作用。据介绍,Live Portait相关技能已被CVPR、ICCV等世界AI顶会录入。
依据魔搭社区上的信息显现,在Live Portait上传相片后,用户可挑选文本驱动和音频驱动两种方法,文本驱动形式下,该东西供给了普通话、英语、粤语、童声等28种声响。
此外,Live Portait还供给了轻量模型挑选,协助用户更快速生成视频。
该东西算法负责人张邦表明:“Live Portait集成了团队多项自研立异技能,例如仅需单张图片就能生成传神的面部动画,突破了传统对立生成网络的限制。跟着技能的进一步迭代,图生视频有巨大的使用空间,有望成为企业降本增效的生产东西。”
据悉,该团队研讨方向包括数字人、3D模型AI生成、高真实感烘托、天然人机交互等范畴,现在已宣布50多篇世界顶会论文。
相关推荐