解锁多模态短板 | 全球首个“行为理解LLM”问世,同时支持视频与运动输入,助力LLM跨越新台阶!


做一个有温度、有趣味、专业的全栈式AI&AIGC交流社区!



 让机器能够理解人类的行为一直是人类在探寻的终极目标。人类行为理解,该任务是指对人类行为进行分析和理解的研究领域。它旨在通过观察、分析和解释人类的行为模式、动作和交互来推断和理解人类的意图、情感、社交行为和行为特征。尽管大语言模型已经可以理解一部分视频,但是它在时空动力学、细粒度语义、行为推理等方面,它对人类行为的理解仍有很大差距!作者提出了MotionLLM,这是一个简单而有效的人类运动理解、字幕生成与推理框架。具体而言,MotionLLM采用统一的视频运动训练策略,利用现有粗略视频文本数据和细粒度运动文本数据的互补优势,汇集了大量丰富的时空见解。



项目主页-https://lhchen.top/MotionLLM/

代码链接-https://github.com/IDEA-Research/MotionLLM

论文链接-https://arxiv.org/abs/2405.20340




01-人类行为理解任务简介

    人类行为理解,即Human Behavior Understanding,该任务是指对人类行为进行分析和理解的研究领域。它旨在通过观察、分析和解释人类的行为模式、动作和交互来推断和理解人类的意图、情感、社交行为和行为特征。人类行为理解任务涵盖了多个子任务和应用领域,包括但不限于以下几个方面:

  • 行为识别(Behavior Recognition)--通过观察和分析视频、传感器数据或其他形式的输入,识别和分类人类的不同行为模式。这可以涉及到识别特定的行为类别,如走路、吃饭、打电话等,或者更具体的子行为,如举手、点头等。

  • 情感识别(Emotion Recognition)--通过观察人类的面部表情、语音、姿态或生理信号等,识别和分析人类的情感状态。这可以包括对情绪(如喜、怒、哀、乐)的识别,以及对情感维度(如高兴、悲伤、愤怒、惊讶)的分析。

  • 社交行为分析(Social Behavior Analysis)--分析人类在社交互动中的行为模式和交流方式。这可以包括对人际关系、群体行为、非言语交流、互动模式和社交规则的理解和推断。

  • 行为生成与预测(Behavior Generation and Prediction)--根据先前观察到的行为序列,预测和生成未来的行为发展。这对于行为预测、智能决策和人机协作等任务具有重要意义。

  • 行为异常检测(Anomaly Detection)--检测和识别与正常行为模式不符的异常行为。这对于安防监控、异常事件检测和异常行为预警等应用非常重要。

    人类行为理解在许多领域具有广泛的应用,包括人机交互、智能家居、情感计算、社交机器人、安防监控、心理健康等。通过理解和分析人类行为,我们可以更好地理解人类的需求、意图和情感状态,从而为设计智能系统、提供个性化服务和改善人类生活质量提供基础。
02-MotionLLM算法背景
    理解人类行为,如细粒度字幕和分析,在以人为中心的多模态领域中至关重要,并可以从人机交互和机器人到医疗保健和安全中受益。近期,由于大型语言模型的出现,在通用视觉理解方面取得了显著进展。尽管如此,在时空动力学、细粒度语义、行为推理等方面,它对人类行为的理解仍有很大差距!
    人类行为可以通过提取人类运动或视频来表示。虽然提取到的人体运动是一种低冗余、外观不变性和隐私友好的表示,但是直接获得高质量的运动需要昂贵的运动捕捉过程,这个特性导致了其稀缺性。此外,运动数据在运动环境交互方面的不足会导致对行为的理解不足。相比之下,以人为中心的视频易于获得,并包含丰富的人-环境交互视觉线索,有助于全面理解和推理语义运动。例如,打高尔夫球和扫地是相似的动作,但在视频环境中截然不同。然而,视频不可避免地具有高计算成本,引起隐私问题,并且包含过度冗余的元素和歧义,而不是关注人类。
    考虑到紧凑运动和丰富上下文视频的互补组合,作者认为,对它们进行联合建模对于追求对运动的动力学和语义的更准确、稳健和上下文丰富的理解至关重要。然而,现有的算法要么仅使用运动,要么仅使用视频作为单独输入,利用LLM来完成以人为中心的运动或动作理解。作者将这个问题的挑战归因于两个关键点:1)缺乏有限的高质量视频-运动-文本对和指令调整数据;2) 由于缺乏数据以及文本、运动和视频模式之间的不完全协调,将运动和视频理解整合到一个统一的系统中的问题尚未得到充分探讨。

    为了应对上述挑战,这项工作试图为以人为中心的运动视频-文本配对数据和统一的理解框架奠定基础。首先,作者介绍了MoVid数据集,包括各种视频、动作、字幕和指令。其次,作者提出了MotionLLM来理解一个系统中的运动和视频的人类行为。

03-MotionLLM算法简介
    这项研究利用大型语言模型(LLM)的强大能力,深入研究了多模态(即视频和运动模态)人类行为理解领域。与最近为仅视频或仅运动理解而设计的LLM不同,作者认为,理解人类行为需要从视频和运动序列(例如SMPL序列)中进行联合建模,从而有效地捕捉人体细微的身体部位动力学和语义信息。
    鉴于该观察,作者提出了MotionLLM,这是一个简单而有效的人类运动理解、字幕生成与推理框架。具体而言,MotionLLM采用统一的视频运动训练策略,利用现有粗略视频文本数据和细粒度运动文本数据的互补优势,汇集了大量丰富的时空见解。

    此外,作者收集了一个多样的的数据集MoVid,它包括各种视频、动作、字幕和指令。另外,作者还提出了MoVid Bench评估基准,带有详细的手动注释,从而更好地评估人类对视频和运动的行为理解能力。大量实验结果表明,MotionLLM在字幕生成、时空理解和推理能力方面具有强大的优势。

04-MotionLLM算法流程

    上图展示了MotionLLM算法的整体架构。图a展示了MotionLLM将视频或人体运动作为视觉输入V。它首先用视觉编码器处理视觉输入,并通过V-L翻译器将视觉嵌入翻译到语言空间中;最后,将输入语言Tokens和V-L翻译器输出输入到LLM获取输出结果。

    图b展示了MotionLLM算法的训练细节。该算法的训练过程包含两个阶段。在第一阶段中,主要训练V-L翻译器。在第二阶段中,通过指令调整数据对LLM和V-L翻译器进行微调。

05-MotionLLM算法应用场景

05.01-理解形状与方位
05.02-担任健身教练
05.03-担任解说员

05.04-具身化能力
05.05-推理能力

06-MotionLLM算法实现细节
06.01-数据集构建过程
06.01.01-数据集标注流程

    上图展示了构建MoVid数据集的构建流程。详细的步骤如下所述:

  • 首先,将下采样的图片输入到GPT-4V中,重新生成Motion-X字幕;
  • 然后,利用GPT-4将Motion-X字幕增强为Motion-XQA;
  • 最后,通过GPT-4基于HumanML3D字幕进行增强,从而获得H3DQA。

06.01.02-数据集样例展示与分析

图6.1-基于GPT-4生成的H3DQA样例1

图6.2-基于GPT-4生成的H3DQA样例2

图6.3-基于GPT-4V生成的Motion-X新字幕样例1

图6.4-基于GPT-4V生成的Motion-X新字幕样例2

图6.5-基于GPT-4V生成的Motion-X新字幕样例2
06.02-模型实现细节

模型训练细节--在模态转换的第一阶段,作者在NVIDIA Tesla A100-80GB GPU上使用权重衰减为0.01的AdamW优化器对运动和视频转换器进行了训练。运动翻译器接受40k次迭代的训练,而视频翻译器接受70k次迭代的培训,从而适应各自数据集中不同的数据量。在第二阶段,对于运动视频统一指令调整,作者在NVIDIA A100-80GB GPU上训练了LoRA和两个翻译器,每个GPU上的批量大小为2,用于单个历元,需要96小时。训练仍然使用AdamW优化器,其权重衰减为0.01。对于在不成对的数据集上进行训练,作者每批只采样一种模态,确保一批中的所有样本都属于同一模态。相反,对于成对的数据集训练(特别是MotionX QA),每个批次包含一个运动指令QA和一个视频指令QA。

模型推理细节--所有测试和推理任务都在单个NVIDIA A100-80GB GPU上执行。作者将所有测试重复三次以计算平均结果。
07-MotionLLM算法性能评估
07.01-主观效果性能评估

    上图展示了该算法与Video-Chat、Video-LLaVA算法在视频理解任务上面的表现效果。通过观察与分析,我们可以发现:MotionLLM在字幕生成、时空理解和推理方面具有良好的性能。与Video-Chat和Video-LLaVA相比,MotionLLM具有良好的顺序性和方向性。

    上图展示了该算法与TM2T和MotionGPT算法在动作理解任务上面的对话效果。通过观察与分析,我们可以发现:MotionLLM在字幕生成、时空理解和推理方面的熟练程度。与TM2T和MotionGPT相比,MotionLLM在处理看不见的运动方面的有效性。

07.02-客观指标性能评估

    上图展示了该算法与多个SOTA算法在MoVid-Bench上面的各项指标比较结果。其中,上表用于运动,下表用于视频。准确度和分数越大,结果越好。通过观察我们可以发现:该算法在多项指标上面都获得了最高的分数,与第二名之间拉开了较大的差距。

    上表展示了该算法与多个SOTA算法在BABEL-QA测试集上客观指标评估结构。其中,*表示最终对BABEL-QA进行了微调。Pred.type表示预测类型,包括闭集分类(cls.)和开放词汇生成(gen.)。-M和-R分别表示MLP和RNN。通过观察与分析,我们可以发现:MotionLLM的多项指标都获得了较高的分数,总体得分遥遥领先!MotionLLM显示出与闭集回归专家模型相当的性能。
08-MotionLLM算法效果展示
图8.1-MotionLLM算法效果展示1

图8.2-MotionLLM算法效果展示2

图8.3-MotionLLM算法效果展示3

更多样例效果请移步https://demo.humotionx.com/查看。



关注我,AI热点早知道,AI算法早精通,AI产品早上线!






欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)

禁止私自转载,需要转载请先征求我的同意!