3D可控生成新范式 | 阶跃星辰开源Step1X-3D,1.3B参数+80万3D资产+LoRA技术跨维移植!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



代码链接-https://github.com/stepfun-ai/Step1X-3D

试用链接-https://huggingface.co/spaces/stepfun-ai/Step1X-3D

模型链接-https://huggingface.co/stepfun-ai/Step1X-3D

论文链接-https://arxiv.org/pdf/2505.07747



为什么需要这个算法?--尽管生成式人工智能在文本、图像、音频和视频领域取得了显著进步,但由于数据稀缺、算法限制和生态系统碎片化等根本挑战,3D生成领域发展速度比较缓慢。
这个算法能做什么?-- Step1X-3D是阶跃星辰刚开源的一个3D生成框架,该模型仅有1.3B,它不仅可以生成具有高保真几何和多样纹理映射的3D资产的能力,而且保持了表面几何和纹理映射之间的出色对齐。
这个算法效果如何?--大量的实验结果表明:该模型超越现有开源方法的最先进性能,同时也通过专有解决方案实现了具有竞争力的质量。该框架通过支持将2D控制技术(例如LoRA)直接转移到3D合成,独特地桥接了2D和3D生成范式。



01-Step1X-3D核心优势

    Step1X-3D是阶跃星辰刚开源的一个3D生成框架,从左到右依次展示了:基础几何(无纹理),以及卡通风格、素描风格和照片级真实感的3D资产生成结果。它具有以下优势:

  • 它可以生成具有高保真几何和多样纹理映射的3D资产的能力,同时保持了表面几何和纹理映射之间的出色对齐。

  • 利用一个严格的数据管理管道处理>500万个资产,用来创建具有标准化几何和纹理属性的200万个高质量数据集;

  • 混合VAE-DiT几何生成器与基于扩散的纹理合成模块相结合的两阶段3D原生架构;

  • 对于几何生成,混合VAE-DiT组件通过采用基于感知器的潜在编码和锐边采样来生成TSDF表示,从而保持细节。然后,基于扩散的纹理合成模块通过几何条件和潜在空间同步来确保交叉视图的一致性。

02-Step1X-3D落地场景

02.01-生成3D几何资产
    如上图所示,第一列和第六列显示输入图像,而其余列显示不同对象的多视图表示。在这些不同的输入图像中,Step1X-3D几何生成模型不仅保持了3D网格和输入图像之间的高度相似性,而且还为具有合理几何细节的遮挡区域重建了合理的空间结构。
02.02-生成3D纹理
    上图通过纹理3D网格的多视图渲染进一步演示了Step1X3D的纹理生成能力。纹理生成模型在各种输入样式中产生风格一致的纹理,同时保持对输入图像纹理细节的高保真度。对于输入图像中的遮挡区域,通过保留原始SD-XL参数并将目标模型的法线图和位置图作为几何引导,Step1X-3D实现了合理的视图完成,具有出色的多视图一致性和精确的几何纹理对齐。
02.03-对称/非对称可控生成
    上图展示了使用“对称”/“不对称”标题生成几何体的结果。第一列显示了输入图像,第2-5列显示了使用对称条件字幕生成的3D对象的四个视图(前、后、左、右),而第6-9列显示了不对称条件生成的相应多视图结果。实验结果表明:该模型生成的3D对象始终遵守其各自的控制指令,在前视图和后视图中尤其明显。
02.04-法向等可控生成
    上图详细展示了该方法在几何细节分层控制场景下的效果。从左到右分别展示了输入条件图像,然后是分别用“清晰”、“正常”和“平滑”标签生成的对象。每个对象都使用前视图、右视图和后视图的法线贴图表示。与之前的结果一致,生成的对象对其相应的控制标签表现出很强的粘附性。

03-Step1X-3D上手指南

方案1-Demo链接上手

该方案可以快速验证,适合前期快速验证可行性!

步骤1-访问https://huggingface.co/spaces/stepfun-ai/Step1X-3D链接

步骤2-在红框中“上传/选择图片”,在绿框中“选择相应参数”

步骤3-点击灰色的“Start”按钮,等待片刻即可

方案2-源码本地上手

该方案需要有一定的IT基础,适合在本地部署该模型。

#步骤1-克隆代码到本地git clone https://github.com/stepfun-ai/Step1X-3D.git cd Step1X-3D
#步骤2-创建&激活虚拟环境conda create -n step1x-3d python=3.10 conda activate step1x-3d
#步骤3-安装三方依赖包pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124pip install -r requirements.txtpip install torch-cluster -f https://data.pyg.org/whl/torch-2.5.1+cu124.htmlcd step1x3d_texture/custom_rasterizerpython setup.py installcd ../differentiable_rendererpython setup.py installcd ../../
#步骤4-本地运行推理python inference.py

04-Step1X-3D整体流程

    上图展示了该算法的整体流程,详细的步骤如下所述:

  • 首先,输入的各种信息-“图片、文本、Box、文本标注”等被送入一个Step1X-3D几何生成模型中;

  • 然后,针对生成的没有纹理的网格进行网格渲染操作

  • 最后,将渲染的结果输入到一个Step1X-3D纹理生成模型中生成最终有纹理的3D资产。

05-Step1X-3D性能评估

05.01-主观效果评估
    上图详细展示了该模型与多个SOTA方法(Hunyuan3D-2.0、Meshy-4、Rodin-v1.5、Treills、Tripo-v2.5、TripoSG)在  生成几何体方面&3D纹理方面的定性比较结果。通过观察与分析,我们可以发现:该模型生成的3D资产具有较丰富的纹理,生成的3D资产的朝向上还有待进一步改进。
05.02-客观指标评估
    上表展示了该方法与多个SOTA3D生成方法的客观指标评估结果。通过仔细观察与分析,我们可以发现:该方法在多项指标上取得了不错的得分,毕竟是阶跃放出的第一个版本的3D模型。虽然不是最佳,但是已经算是不错了。
06-文末彩蛋
    “AI生成3D专题”交流群限时开放,欢迎对文生3D、图生3D、3D场景生成、3D纹理生成、3D重建等感兴趣的朋友进群交流,让我们一起深度探索3D世界。群内禁止一切广告,一经发现,立马移除,并永久加入黑名单!

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们