刚刚结束的2024年全国两会中,虚拟数字人记者成为一种新的报道手段,吸引了公众的目光。“他们”形象靓丽、仪态大方、语音流畅,不仅能够面对镜头播报新闻,有些还能与代表、委员进行“云”对话。人们不禁好奇,这些虚拟数字人记者是如何生成的?
南京航空航天大学计算机科学与技术学院、人工智能学院副教授李博涵介绍,虚拟数字人是元宇宙中最接地气、最先落地的技术之一,也是一种基于计算机前沿技术的应用。在技术上,生成虚拟数字人一般采用自然语言处理、多模态融合交互、扩展现实XR和大模型等技术和工具相结合。最终开发设计出来的可交互虚拟形象,具备人类的外观、表情、语言和行为等特征。
在生成虚拟数字人的这些底层技术中,自然语言处理技术使得数字人能够理解和生成人类语言;多模态融合交互技术是通过语音、手势、触摸、凝视等多种形式的输入与虚拟数字人交互;扩展现实技术是通过计算机将真实与虚拟相结合,创造出可供人机交互的虚拟环境;大模型技术则是基于大量语料或图像训练得到的高参数量模型。
“通过控制模型参数,我们就可以调整虚拟数字人的外观、表情等特征,创造出具有逼真外貌且有一定智能的虚拟数字人。”李博涵说。
目前,虚拟数字人已经具有广泛的应用场景。除了新闻报道外,虚拟数字人还活跃在影视、媒体、游戏、文旅等领域,被用于创作虚拟角色、打造专属虚拟形象IP,比如世界上第一个使用全息投影技术举办演唱会的虚拟偶像“初音未来”。
此外,虚拟数字人在虚拟客服、教育培训、医疗保健、虚拟购物以及艺术创作等领域都有一定的使用。例如,清华大学计算机系的虚拟学生“华智冰”会写诗作曲,手语解说数字人“聆语”担任了多场冬奥会赛事的手语解说。在第12届世界唐氏综合征日大会上亮相的数字人“皓皓”,能够模拟真实的人际交往,帮助唐氏综合征患儿打开心扉。同时,也有一些企业尝试用虚拟数字人主播代替真人主播进行带货、团购等商业活动。
“现在这些领域的应用场景还相对固定,而且虚拟数字人本身内在的情感表达和创造力暂时还比较缺乏。但是,凭借丰富的表现力、突出的互动性,相信虚拟数字人未来会为人们的生产生活带来了全新体验。”李博涵预测,随着大模型生成能力的不断提升,未来虚拟数字人将变得更加逼真、智能和具备情感表达能力,也会更加广泛深度地进入到我们的日常生活。例如,可能代表人类在会议、社交等不同场景中进行互动,甚至成为人们的另一种数字孪生。
当然,未来人们对于虚拟数字人的接受度,以及道德和法律等方面的考量,还有待更深入的研究和讨论。
https://kjt.hebei.gov.cn/www/kxpj22/kxbl56/300610/index.html