项目介绍

中国科技大学《计算机图形学》2024年春夏学期课程项目展示

基于UE5的动作捕捉系统

胡博洲(JL22024008) 江黄鑫(PB21010387) 吴佳骏(PB22010379)

指导老师：刘利刚

图 1: 游戏展示图

项目简介：

基于UE5的实时动作捕捉系统,采用Rebocap惯性元件以及mediapipe单目摄像头AI动捕的混合方案，以低廉的价格实现了效果不错的全身的动作捕捉，实现了女装自由！做赛博男娘，享数字人生！主要的工具：UE5

项目视频：

下载专区：

视频链接：下载
报告链接：下载
项目文件：下载

项目分工：

胡博洲：负责项目规划管理、动捕游戏基础框架的搭建、角色动画蓝图核心部分的实现、手部AI动捕基本框架的实现、四肢动捕数据与手部AI动捕与UE5的通信实现、早期版本的惯性动捕元件的硬件设计、焊接与编程
江黄鑫：负责布料解算、毛发解算、身体部位的模拟仿真、碰撞模拟、人物的运动控制逻辑、游戏性能优化、手部AI动捕的滤波实现、游戏交互
吴佳骏：负责场景的搭建、天气系统的实现、光照系统、音效、材质制作、游戏资产的整理、游戏中镜子的实现、手部AI动捕的图像预处理

未来规划

上肢优化：关于手部的追踪与上肢的动捕其实目前很成问题，rebocap提供的数据是保证骨骼之间的相对角度不变但忽略了玩家与游戏人物骨骼比例不同的问题，比如你在现实中在拍手，而游戏中人物的手部会出现穿模和交叉，也许确保手掌的位置然后做IK效果会更好，或者确保手掌位置的前提下直接用AI实时对手臂的姿态进行“脑补”输出一组姿态角。未来计划采用混合方案来应对上肢的实时捕捉，多数时候尤其是在容易出现视野盲区的场景中，可以选择动捕手套，我准备选择宇叠的手套，价格大概3000左右，但是需要自己写VMC通信接口，对手部在现实中有触觉需求时(例如操控键盘需要对键盘表面有触感)可以采用道乐师的半身动捕方案。将上肢的姿态角“嫁接”到rebocap的其它姿态中。
融入VR和面部捕捉：对于VR的融入，需要找到合适的设备和接口，目前还在寻找那种分辨率高、视场角广、内外安装了支持面捕和眼追的摄像头同时性价比还高的设备，关于VR一体机，性价较高，我手上有一台Quest2，但是性能一般，Quest3性能不错性价比高但是不支持面部捕捉，Pico4 Pro支持面捕，性价比高但是显示效果不是很好，Quest Pro支持面捕但价格比Quest3 贵的同时显示效果还比不上quest3,而苹果的Vision Pro显示效果惊艳，支持面捕但是价格过于昂贵。而关于头显，普遍性价比偏低价格昂贵。那种支持眼追的VR设备有一个很大的优势，即光栅化的时候在眼睛看着的地方给予较高的分辨率，而在眼睛没看到的地方可以让分辨率更低，这样可以加速渲染，有效提高总体的帧率。关于面部捕捉，目前有大量的轮子可以缝合进该项目，不多赘述，但关键在于如何利用VR设备的摄像头在佩戴时仍然可以获取到面部的特征。
感知模拟：那么我们该如何打造并融入这样一个数字世界呢？首先我们需要从人的感知出发，人的感知基本由视觉、听觉、触觉、嗅觉、味觉、温度觉、痛觉、平衡觉组成，其中视觉占主导大概占80%目前可以利用较好的头显设备实现接近完全的模拟，其次是听觉输入的模拟，也可以利用耳机实现非常好的模拟。模拟触觉痛觉温度觉加速度觉的方法有很多，我们可以打造一个和室内环境布局一模一样的游戏地图，当你在游戏中拿起了一个水杯，你在现实中也在同一个位置拿起了一个水杯，此时手部的触觉是来自真实世界的，但是你的视觉是来自数字世界的，你看到的水杯大体形状与现实世界中相同，正如你通过触摸感觉到的，但是这个杯子表面的纹理是不同的(比如是一个钻石做成的水杯，现实中可能就是一个塑料被子)，你周围的墙壁也可以在虚拟世界中变成外太空和海底世界，但是你身边的桌子、床的位置还是在那里，只是表面的材质纹理甚至画风等要素发生了变化。当然我们也可以采用体感内衣，通过电刺激来模拟触觉和痛觉当前也有很多公司在做。关于平衡觉的模拟我自己有一个想法，根据广义相对论的相对性原理，引力等效于惯性力，同时感知平衡或者说“加速度”的前庭系统主要对加速度的方向敏感。因此我们可以利用重力加速度来代替玩家运动的加速度来“欺骗”前庭系统。我们可以改变真实世界地面的法向而VR中显示出地面仍然保持水平，同时玩家在游戏中以水平方向加速，前庭系统在人站在倾斜表面上和在水平加速的时候受力是近似等价的，进而感知到的加速度觉也近似等价。这个方法可以很好的解决VR游戏中非腿部运动导致的移动所导致的晕眩感。这套方法也可以和万向跑步机结合，让玩家在跑步时也能感受到真实的加速度。模拟味觉从神经科学的角度出发，事实上只需要模拟5种味觉(酸甜苦鲜咸)就能表征所有的味觉(除去和嗅觉的联动)，剩下就只剩下嗅觉。嗅觉的模拟非常困难，因为嗅觉不能通过类似三原色或五原味来模拟，人类鼻子的气味受体非常之多，因此我们只能退而求其次，保留一些比较典型的气味(或者让玩家自行选择和购买)在需要的时候释放出来让玩家闻到。
资产的生成：随着AIGC的发展，各种资产逐渐都可以由AI生成，这也是我开发3A游戏的底气。不论是3D模型、材质贴图、骨骼、动画、代码、平面立绘、音乐音效等等，就凭当前的技术也都可以生成个七七八八，很难想象未来这些技术会发展到何种程度。也许我需要的是写一个可以统筹这些AIGC的AI Agent，然后让这个AI Agent帮我做资产方面的开发。也许我只需要一些提示词和随机种子就可以生成完整的资产。
社会模拟：这是后80%内容中最重要的部分，实现了前面所描述的种种内容，这个数字世界仍然是空荡荡的，我们需要在里面添加NPC，区别于传统的NPC，这些NPC之间会有交流和互动同时有自然的肢体动作，它们相比NPC可能更像是为这个数字世界服务的智能体，我们需要一个大模型来总体“规划”这些NPC智能体的行为，同时NPC智能体可以向大模型请求自己需要反馈的内容和行为逻辑，玩家在这个Muti-Agent社会中会感到和在真实社会中一样自然。现实中我们有熟人也有陌生人，数字世界也是如此，大模型需要对不同NPC的智能水平进行动态地分配进而合理地规划算力的使用。至于具体应该怎样实现，当前还没有特别合适的轮子，需要自行研究。

项目感想：

我们从这个项目中学到了很多东西，涉及到了硬件的搭建与编程、计算机图形学的各种数学工具的应用、滤波与平滑、布料毛发的模拟仿真、场景搭建、环境的模拟、机器视觉，编程涉及到了C++、python、UE蓝图、Arduino，甚至还学习和了解了大模型和神经科学甚至相对论相关的内容。同时也学会了如何协同开发一个项目，如何做任务分工和时间规划。当然，这个项目本身也不会止步于此，这还没有达到项目的前20%，正如报告开头所说的那样，未来10年20年甚至更久这个项目的开发会一直进行下去。

致谢：

感谢刘老师一学期来精心设计的课程与实验，帮助我们打开了图形学的大门。
感谢助教的用心准备和耐心指导，还有同学们的帮助和鼓励。
感谢组员的辛勤付出，一同推进了这个项目

返回项目主页