做一个有温度、有趣味、专业的全栈式AI&AIGC交流社区!
“ 让机器能够理解人类的行为一直是人类在探寻的终极目标。人类行为理解,该任务是指对人类行为进行分析和理解的研究领域。它旨在通过观察、分析和解释人类的行为模式、动作和交互来推断和理解人类的意图、情感、社交行为和行为特征。尽管大语言模型已经可以理解一部分视频,但是它在时空动力学、细粒度语义、行为推理等方面,它对人类行为的理解仍有很大差距!作者提出了MotionLLM,这是一个简单而有效的人类运动理解、字幕生成与推理框架。具体而言,MotionLLM采用统一的视频运动训练策略,利用现有粗略视频文本数据和细粒度运动文本数据的互补优势,汇集了大量丰富的时空见解。”
项目主页-https://lhchen.top/MotionLLM/
代码链接-https://github.com/IDEA-Research/MotionLLM
论文链接-https://arxiv.org/abs/2405.20340
01-人类行为理解任务简介
人类行为理解,即Human Behavior Understanding,该任务是指对人类行为进行分析和理解的研究领域。它旨在通过观察、分析和解释人类的行为模式、动作和交互来推断和理解人类的意图、情感、社交行为和行为特征。人类行为理解任务涵盖了多个子任务和应用领域,包括但不限于以下几个方面:
行为识别(Behavior Recognition)--通过观察和分析视频、传感器数据或其他形式的输入,识别和分类人类的不同行为模式。这可以涉及到识别特定的行为类别,如走路、吃饭、打电话等,或者更具体的子行为,如举手、点头等。
情感识别(Emotion Recognition)--通过观察人类的面部表情、语音、姿态或生理信号等,识别和分析人类的情感状态。这可以包括对情绪(如喜、怒、哀、乐)的识别,以及对情感维度(如高兴、悲伤、愤怒、惊讶)的分析。
社交行为分析(Social Behavior Analysis)--分析人类在社交互动中的行为模式和交流方式。这可以包括对人际关系、群体行为、非言语交流、互动模式和社交规则的理解和推断。
行为生成与预测(Behavior Generation and Prediction)--根据先前观察到的行为序列,预测和生成未来的行为发展。这对于行为预测、智能决策和人机协作等任务具有重要意义。
行为异常检测(Anomaly Detection)--检测和识别与正常行为模式不符的异常行为。这对于安防监控、异常事件检测和异常行为预警等应用非常重要。
为了应对上述挑战,这项工作试图为以人为中心的运动视频-文本配对数据和统一的理解框架奠定基础。首先,作者介绍了MoVid数据集,包括各种视频、动作、字幕和指令。其次,作者提出了MotionLLM来理解一个系统中的运动和视频的人类行为。
此外,作者收集了一个多样的的数据集MoVid,它包括各种视频、动作、字幕和指令。另外,作者还提出了MoVid Bench评估基准,带有详细的手动注释,从而更好地评估人类对视频和运动的行为理解能力。大量实验结果表明,MotionLLM在字幕生成、时空理解和推理能力方面具有强大的优势。
上图展示了MotionLLM算法的整体架构。图a展示了MotionLLM将视频或人体运动作为视觉输入V。它首先用视觉编码器处理视觉输入,并通过V-L翻译器将视觉嵌入翻译到语言空间中;最后,将输入语言Tokens和V-L翻译器输出输入到LLM获取输出结果。
05-MotionLLM算法应用场景
上图展示了构建MoVid数据集的构建流程。详细的步骤如下所述:
最后,通过GPT-4基于HumanML3D字幕进行增强,从而获得H3DQA。
图6.1-基于GPT-4生成的H3DQA样例1
图6.3-基于GPT-4V生成的Motion-X新字幕样例1
模型训练细节--在模态转换的第一阶段,作者在NVIDIA Tesla A100-80GB GPU上使用权重衰减为0.01的AdamW优化器对运动和视频转换器进行了训练。运动翻译器接受40k次迭代的训练,而视频翻译器接受70k次迭代的培训,从而适应各自数据集中不同的数据量。在第二阶段,对于运动视频统一指令调整,作者在NVIDIA A100-80GB GPU上训练了LoRA和两个翻译器,每个GPU上的批量大小为2,用于单个历元,需要96小时。训练仍然使用AdamW优化器,其权重衰减为0.01。对于在不成对的数据集上进行训练,作者每批只采样一种模态,确保一批中的所有样本都属于同一模态。相反,对于成对的数据集训练(特别是MotionX QA),每个批次包含一个运动指令QA和一个视频指令QA。
上图展示了该算法与Video-Chat、Video-LLaVA算法在视频理解任务上面的表现效果。通过观察与分析,我们可以发现:MotionLLM在字幕生成、时空理解和推理方面具有良好的性能。与Video-Chat和Video-LLaVA相比,MotionLLM具有良好的顺序性和方向性。
上图展示了该算法与TM2T和MotionGPT算法在动作理解任务上面的对话效果。通过观察与分析,我们可以发现:MotionLLM在字幕生成、时空理解和推理方面的熟练程度。与TM2T和MotionGPT相比,MotionLLM在处理看不见的运动方面的有效性。
上图展示了该算法与多个SOTA算法在MoVid-Bench上面的各项指标比较结果。其中,上表用于运动,下表用于视频。准确度和分数越大,结果越好。通过观察我们可以发现:该算法在多项指标上面都获得了最高的分数,与第二名之间拉开了较大的差距。
图8.2-MotionLLM算法效果展示2
更多样例效果请移步https://demo.humotionx.com/查看。
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
欢迎你的加入,让我们一起交流、讨论与成长!
若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)
禁止私自转载,需要转载请先征求我的同意!