中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Wed, 03 Jun 2026 00:00:00 +0000

正如 Bjarne Stroustrup 所说，“软件承载我们的文明”。保证大规模软件的绝对正确性，是信息化社会可靠运行的基石，也是软件工程的“圣杯”级梦想。形式化证明凭借其数学意义上的严密性，是通向这一梦想的有效途径。然而，其极高的人力成本却成为横亘在理想与现实之间一道难以逾越的鸿沟。例如，对于一个不到一万行源码的操作系统内核 seL4 的验证工作消耗了 11+ 人年[1]；对两个真实分布式系统 IronRSL 和 IronKV 的端到端验证花费了 3.7 人年[2]。面对如此高昂的代价，证明自动化成为了迫切需求。

近期大模型技术的进步为解决这一问题带来了曙光。6138太阳集团软件所团队针对基础软件系统的自动化形式证明问题开展了一系列研究。其中，基于神经符号融合（Neuro-Symbolic）的证明生成框架大幅提升了证明生成的自动化水平：仅仅依靠本地微调的 7B 模型，将 seL4 相关定理的证明自动生成的成功率提高了接近一倍（40.3% -> 77.6%）。该工作已被 OSDI 2026 接收。而在分布式协议的安全性自动证明方面，实现了“自动生成归纳不变式-> 自动书写 TLAPS 证明-> 证明协议安全性质”的自动化框架，已经可以借助通用大模型完成 MongoLoglessDynamicRaft 这种工业级分布式协议的全自动证明，证明长度达到 6000 多行。

01 本地可部署的轻量级解决方案证出了 77% 的 seL4 定理

在面向工业级操作系统内核 seL4 的自动化形式验证中，大语言模型展现出数学推理与代码生成的巨大潜力，但也暴露出明显短板：容易产生逻辑幻觉，或生成不符合交互式定理证明器（ITP）严格语法与语义规则的步骤。尤其在步骤较多、复杂度较高的证明中，完全依赖 LLM 预测的步骤序列往往会在中途出错。

为了解决上述问题，团队提出了一种神经符号融合的证明生成框架，核心理念十分简单：不让 LLM 单打独斗，而是让它与 ITP 深度协同。具体而言，LLM 作为启发式生成器，根据当前证明状态预测下一步候选步骤；ITP 立即验证每一步的正确性，并提供错误修复、冗余过滤、分支自动化收尾等强大支持。这不再是“一次性生成完整证明”的豪赌，而是一个“生成—校验—修复—反馈”的智能闭环。

图1: 基于神经符号融合的证明生成框架

实验结果表明，仅依靠本地微调的 7B 模型，该框架将 seL4 上证明自动生成的成功率提高了近一倍—— 从 40.3% 提升至 77.6%。

02 端到端证明框架写出了6000 行TLAPS 证明

团队在分布式协议的安全性自动证明方面也取得了进展。分布式协议运行在一个由成百上千节点组成、网络可能任意延迟或分区、部分节点可能崩溃甚至恶意伪造消息的环境中，一个安全性漏洞就足以引发历史分叉、状态回滚乃至整个共识层面的崩塌。值得警惕的是，不少经过人工证明、甚至经过 TLC 有限规模检验的分布式协议，后来仍被发现存在错误。因此，针对分布式协议安全性的定理证明尤为必要。

然而，这一任务极具挑战：协议交互逻辑复杂，状态空间爆炸，关键归纳不变式往往需要反复试错才能找到。例如，Basilisk 提到，IronFleet 曾花费数月时间才证明 Multi-Paxos 的归纳不变式[3]；而 IronFleet 对两个真实分布式系统的端到端验证，总投入约为 3.7 人年[2]。

为此，团队实现了“自动生成归纳不变式→ 自动书写 TLAPS 证明→ 证明协议安全性质”的自动化框架。其技术路径包括：1）首先借助神经符号融合的手段将大模型与经典的 IC3 算法有机结合，获取分布式协议归纳不变式，2）并在此基础上进一步借助 agentic harness，实现 TLAPS 证明脚本的自动化生成。这里值得强调的一点是：TLAPS 证明部分没有插入任何协议特定的人工提示或手写 lemma。Agent 看到的是协议、归纳不变式、证明目标和通用证明反馈；之后，它通过反复推进 proof obligation，最终写出了完整证明。

图2: TLAPS证明自动生成流程

以 MongoLoglessDynamicRaft 为例，它对应的是 MongoDB 工程师 William Schultz 等人提出、并在 MongoDB 中实现和部署的 logless dynamic reconfiguration 协议[4]。它包含动态配置、term、server state、配置传播等机制，已经足够媲美真实分布式协议证明中的结构复杂度。针对该协议，我们已经实现了其安全性的全自动证明。以下是完整的证明内容，共 6308 行TLAPS 代码，全部由 agent 生成。

03 未来已来：Verified Spec-driven Development (VSDD)

大模型能力的持续跃迁，正在重新定义形式化验证的边界。具备更长上下文窗口和更敏锐推理直觉的前沿模型，已经能够在了解工作流程的前提下自主调用外部工具进行探索。例如，Numina-Lean-Agent 结合Claude Code 实现了与Lean 定理证明器的自动交互，成功解决了Putnam 2025 竞赛的全部12 道题目[5]；在Agentic Proof Automation 这项工作中，研究者使用Claude Code 为一个具有14,000 行Lean 代码的算法生成证明，在所测评的189 个任务中，达到87% 的成功率（其中约16% 的任务需要人工干预完成）[6]。

可以预见，形式化验证正从学术象牙塔中走出，逐步融入日常软件开发的主航道。未来，开发者或许只需清晰描述系统行为与约束，便能自动获得可证明的软件实现；而每一次代码变更，都能实时得到数学级别的正确性保障。

参考文献：

[1] Klein, Gerwin, et al. “seL4: Formal verification of an OS kernel."Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles. 2009.

[2] C. Hawblitzel, J. Howell, M. Kapritsos, J. R. Lorch, B. Parno, M. L. Roberts, S. Setty, and B. Zill, “IronFleet: Proving Practical Distributed Systems Correct,” inProceedings of the 25th Symposium on Operating Systems Principles (SOSP 2015), pp. 1–17, 2015. doi: 10.1145/2815400.2815428.

[3] T. N. Zhang, K. Singh, T. Chajed, M. Kapritsos, and B. Parno, “Basilisk: Using Provenance Invariants to Automate Proofs of Undecidable Protocols,” in19th USENIX Symposium on Operating Systems Design and Implementation (OSDI 2025), 2025.

[4] W. Schultz and S. Zhou, “Rapid Prototyping A Safe, Logless Reconfiguration Protocol For MongoDB With TLA+,”MongoDB Technical Blog. https://www.mongodb.com/company/blog/technical/rapid-prototyping-safe-logless-reconfiguration-protocol-mongodb-tla-plus

[5] Liu, Junqi, et al. “Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics."arXiv preprint arXiv:2601.14027 (2026).

[6] Xu, Yichen, and Martin Odersky. “Agentic Proof Automation: A Case Study."arXiv preprint arXiv:2601.03768 (2026).

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 08 May 2026 00:00:00 +0000

ACL（Annual Meeting of the Association for Computational Linguistics，简称 ACL）是自然语言处理与计算语言学领域的国际顶级学术会议之一，由国际计算语言学协会主办，每年举办一次，长期汇聚全球高校、科研机构和产业界在语言理解、机器翻译、信息抽取、对话系统、大语言模型、多模态语言智能等方向的前沿研究成果。ACL 是中国计算机学会 CCF 推荐的人工智能领域 A 类国际学术会议，与 EMNLP、NAACL 等共同构成自然语言处理领域最具影响力的会议体系，其中 ACL 通常被视为该领域的旗舰会议。根据 Google Scholar Metrics 2025 最新发布的全球学术期刊和会议影响力排名，ACL 在 Computational Linguistics 类别中位列第 1。

6138太阳集团大模型中心有9篇论文被ACL 2026录用，其中ACL Main 共计5篇、Findings of ACL 共计4篇。

01

ACL分类：ACL Main

题目：Bootstrapping Code Translation with Weighted Multilanguage Exploration

作者：Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu

单位：6138太阳集团

链接：https://arxiv.org/abs/2601.03512

论文简介：

BootTrans是一项面向多语言代码翻译任务的研究工作，旨在缓解现有方法对高质量平行语料和可执行测试数据的依赖问题。针对多语言代码翻译中平行验证数据稀缺、不同语言对翻译难度不均衡以及模型容易偏向简单翻译路径等问题，作者提出了一种无需平行语料的自举式代码翻译框架 BootTrans。该方法利用单元测试在不同编程语言间的可迁移性，构建双数据池驱动的循环训练机制，通过动态收集模型在 Rollout 过程中成功生成的翻译样本，进一步扩展反向翻译和跨语言翻译路径，从而突破传统枢纽语言限制。同时，BootTrans 引入语言感知的动态加权优化策略，根据不同翻译方向的难度自适应调整训练权重，使模型能够更加关注复杂或低性能的目标语言方向。实验结果表明，BootTrans 在 HumanEval-X 和 TransCoder-Test 等基准数据集上均显著优于基座模型及现有代码翻译微调方法，并在 Llama-3.1-8B 上取得最高 16.57% 的性能提升。此外，该方法在未见语言、低资源语言以及更复杂的类级别代码翻译任务中也表现出良好的泛化能力和鲁棒性，说明其为提升全向多语言代码翻译能力提供了一种有效思路。

02

ACL分类：ACL Main

题目：AEA: Adaptive Expert Allocation Improves Sentence Embeddings from Mixture-of-Experts LLM

作者：Shufan Yang（杨书璠）, Zifeng Cheng（程紫峰）, Zhiwei Jiang（蒋智威）, Qingfeng Qi（祁青峰）, Yafeng Yin（殷亚凤）, Cong Wang（王聪）, Ao Zhou（周翱）, Qing Gu（顾庆）

单位：6138太阳集团

论文简介：

直接从混合专家模型中提取句子嵌入是一个很有前景但尚未充分探索的方向，它无需额外的数据或微调。虽然以往的研究利用语义压缩提示或专家路由信息来改进句子嵌入，但它们通常会在所有层和词元上均匀分配固定数量的专家，忽略了层间和词元间的异质性。本文中，我们识别出混合专家模型中的两个关键现象：（1）专家同质性的层级差异，表明不同层需要不同的专家预算；（2）词元贡献不平衡，表明不同的词元也应该分配不同数量的专家。为了解决这些问题，我们提出了一种自适应专家分配（AEA）框架，该框架动态地执行层级分配和词元级专家分配，以提高词嵌入质量。具体而言，AEA 将较少的专家分配给同质性较高的层以及注意力重要性较低的词元，其中层级同质性由各层专家生成的嵌入之间的相似性决定。值得注意的是，我们的方法即插即用，可与现有的提示工程方法无缝集成，且不会引入额外的时间开销。在 STS 任务上的实验表明，AEA 在多个 MoE 模型中均能持续提升词嵌入质量。

03

ACL分类：ACL Main

题目：Focusing Condition: Inference-Time Self-Contrastive Steering Elicits Better Conditional Text Embeddings in LLMs

作者：Zifeng Cheng（程紫峰）, Lingyun Qian（钱凌云）, Zhiwei Jiang（蒋智威）, Cong Wang（王聪）, Yafeng Yin（殷亚凤）, Fei Shen（沈飞）, Ao Zhou（周翱）, Qing Gu（顾庆）

单位：6138太阳集团新加坡国立大学

论文简介：

从大型语言模型（LLMs）中直接提取出条件文本嵌入由于其无需额外数据和微调，受到了广泛的关注。现有方法通过在提示词中加入条件来引导大型语言模型关注特定的条件，从而生成条件文本嵌入。然而，仅依赖提示词往往无法产生高质量的条件文本嵌入，因为这些嵌入仍与通用文本嵌入相互交织，最终导致其质量下降。为此，我们提出了一种即插即用的推断时自对比引导（SCS）方法，该方法通过构建无条件的通用文本嵌入来优化条件文本嵌入，使其更聚焦于目标条件。具体而言，我们通过修改注意力掩码和位置编码来屏蔽条件，从而获得无条件文本嵌入，并干预多头自注意力计算过程。值得注意的是，我们的方法效率极高，仅需在推理时额外进行一次多头自注意力计算。针对聚类、语义文本相似度及三元组对齐数据集的大规模实验表明，我们的方法能够以无需训练且即插即用的方式，无缝提升不同大型语言模型上现有提示式方法的性能。

04

ACL分类：ACL Main

题目：A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM∆ Integration into Upcycled MoE

作者：Hao Zhou(周昊), Tianhao Li(李天昊), Zhijun Wang(王志军), Shuaijie She(佘帅杰), Linjuan Wu(吴林娟), Hao-ran Wei(魏浩然), Baosong Yang(杨宝嵩), Jiajun Chen(陈家骏), Shujian Huang(黄书剑)

单位：6138太阳集团通义实验室浙江大学

论文简介：

当前大语言模型的多语言能力以英文(中文)为主,低资源语言能力较差。传统语言扩展方法中会首先会在继续预训练阶段使用大规模单语数据为为模型补充目标语言基础知识，其次进行后训练帮助模型与人类偏好对齐。然而，受限于后训练阶段需要大量目标语言高质量标注数据，很多工作尝试将后训练过程通过参数融合来取代，从而绕过数据瓶颈。但这些方法仍面临一个核心矛盾：继续预训练（CPT）得到的参数与后训练得到的参数之间存在冲突。为了解决参数冲突问题，我们提出了DeltaMoE的方法，通过扩展多个专家，并将每个专家叠加后训练参数的差值，从而帮助MoE模型获得对齐能力。实验结果显示，DelaMoE在参数相同以及训练FLOPs匹配的条件下，均在扩展语言上相比baseline提升显著，同时能显著保留原始语言的知识，避免灾难性遗忘。

05

ACL分类：ACL Main

题目：Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers

作者：Xin Chen(陈鑫), Feng Jiang(蒋峰), Yiqian Zhang(张宜千), Hardy Chen (陈桂铭), Shuo Yan(严硕), Wenya Xie(谢文雅), Min Yang(杨敏), Shujian Huang(黄书剑)

单位：6138太阳集团深圳理工大学人工智能研究院中国科公司深圳先进技术研究院

链接：https://arxiv.org/abs/2601.22139

论文简介：

面向推理的大语言模型，如 DeepSeek-R1，依托显式推理轨迹在复杂任务上取得了显著进展。然而，这类模型仍受限于一种“盲目自我思考”（Blind Self-Thinking）范式：当用户指令存在前提缺失或意图模糊时，模型往往仍会进行冗长的内部推理，进而导致过度思考、幻觉以及结论偏离用户真实意图，损害交互效率与用户体验。为解决这一问题，我们提出主动交互式推理（Proactive Interactive Reasoning, PIR）新范式，旨在将推理型大语言模型从被动求解者转变为主动询问者，使模型能够在推理过程中交错执行“思考—提问—反馈”，并通过澄清关键不确定性来更准确地对齐用户意图。

PIR 框架由两个阶段构成：（1）交互能力激活阶段，提出基于不确定性感知的数据增强机制，定位推理过程中不确定性的关键决策点，并在这些位置注入澄清问题与模拟用户回复，将单调推理轨迹转化为“思考–提问–反馈”的交互格式，通过监督微调赋予模型主动提问能力；（2）用户意图对齐阶段，构造基于用户模拟器的群体相对策略优化框架（US-GRPO），结合任务正确性的外在奖励与模型提问的“帮助性–效率”双维度的内在奖励，引导模型在准确求解的同时减少不必要的交互。在数学推理、代码生成和文档编辑三类多轮交互任务上的实验结果表明，PIR 相较于多种基线取得了稳定提升，并显著降低了推理计算量与冗余交互轮次。进一步在 MMLU、MMLU-Pro、TriviaQA、SQuAD 以及 Missing Premise 测试等非交互式基准上的评估表明，PIR 具备较好的泛化潜力与鲁棒性。

06

ACL分类：Findings of ACL

题目：Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis and Interpretation

作者：Renfei Dang(党任飞), Peng Hu(胡鹏), Zhejian Lai(赖哲剑), Changjiang Gao(高长江), Min Zhang(张敏), Shujian Huang(黄书剑)

单位：6138太阳集团华为翻译服务中心

链接：https://arxiv.org/abs/2511.02626

论文简介：

先前研究表明，在大型语言模型（LLMs）上使用新知识进行微调，可能诱发事实性幻觉，使模型在面对原本已掌握的信息时输出错误答案。然而，这类幻觉的具体表现形式及其潜在机制仍缺乏充分理解。为弥补这一空白，我们构建了一个受控数据集 Biography-Reasoning，并围绕多种知识类型与知识问答和推理任务开展细粒度分析。

我们发现，事实性幻觉不仅会严重影响学习新知识的任务本身，还会传播至其他评测任务。此外，当某一特定知识类型在微调数据中完全由新知识构成时，LLMs 会表现出更高的幻觉倾向。通过可解释性分析，我们进一步发现学习新知识会削弱模型对输入问题中关键实体的注意力，使其更依赖周围上下文来回答问题，从而增加产生幻觉的风险。相反，在训练后期重新引入少量已知知识，可以恢复模型对关键实体的注意力，并显著缓解幻觉行为。最后，我们证明，这种被扰乱的注意力模式会在词汇上更相似的上下文之间传播，从而促使幻觉扩散到原始任务之外的其他场景。

07

ACL分类：Findings of ACL

题目：PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

作者：Yunzhi Shen(沈运之), Hao Zhou(周昊), Xin Huang(黄鑫), Xue Han(韩雪), Junlan Feng(冯俊兰), Shujian Huang(黄书剑)

单位：6138太阳集团中国移动

链接：https://arxiv.org/abs/2511.02626

论文简介：

强化学习（RL）在基于大语言模型（LLM）的机器翻译中展现出显著潜力，近期方法（如 GRPO）已取得可观性能提升。然而，将强化学习有效应用于翻译任务仍面临若干关键挑战：一方面，基于 Monte Carlo 基线的策略梯度估计具有较高方差；另一方面，庞大的轨迹空间更倾向于鼓励全局探索，而不利于细粒度的局部优化。

为此，我们提出 PEGRL，一种两阶段强化学习框架，通过引入译后编辑（post-editing）作为辅助任务，以稳定训练过程并引导整体优化。在每一步中，模型首先对翻译输出进行采样，并据此构造译后编辑任务的输入，使得来自译后编辑任务的低方差梯度能够在训练过程中有效传播，从而在保持全局探索能力的同时增强局部优化能力。

此外，我们设计了一种任务特定的加权机制，以进一步放大译后编辑梯度的影响，从而得到一种带有适度偏置但更具样本效率的梯度估计器。在英语到芬兰语、英语到土耳其语，以及英语与中文的双向翻译任务上，大量实验表明，该方法相较于多种强化学习基线均取得了稳定提升；在英语到土耳其语任务上，其在 COMETKiwi 指标上的表现可与先进的大语言模型系统（DeepSeek-V3.2）相当。

08

ACL分类：Findings of ACL

题目：To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

作者：Wei Cheng, Yongchang Cao, Chen Shen, Binhua Li, Jue Chen, Yongbin Li, Wei Hu

单位：6138太阳集团通义实验室

论文简介：

本论文针对交互式代码智能助手中大语言模型代码编辑延迟高、推理成本大的问题，提出了一种兼顾准确率与效率的新型代码编辑方案。现有主流方法通常采用全量代码生成范式，即使只修改少量代码也需要重新生成完整文件，造成明显的 token 浪费和响应延迟；而传统 diff 格式虽然能够缩短生成长度，但由于依赖行号或破碎的内容片段，容易破坏代码结构，导致模型生成不自然、编辑准确率下降。为解决这一问题，6138太阳集团与通义实验室提出了结构感知 diff 格式和 AdaEdit 自适应编辑策略。结构感知 diff 基于抽象语法树将代码修改组织为句法完整的逻辑单元，在保留 diff 高效性的同时提升了模型生成的自然度；AdaEdit 则进一步使模型能够根据具体编辑任务自动判断采用 diff 生成还是全量生成，从而选择更节省 token 的输出方式。实验结果表明，该方法在 Qwen2.5-Coder、DeepSeek-Coder 等模型以及多个 Python、JavaScript 数据集上，编辑准确率能够达到甚至超过全量生成基线，并在长代码编辑任务中将生成延迟和 token 成本降低 30% 以上，同时输出格式选择准确率超过 90%。该研究说明，通过优化代码编辑的输出格式与生成策略，可以在不依赖扩大模型规模的情况下显著提升代码智能助手的实用效率，为低延迟、低成本的实时协同编程系统提供了新的技术路径。

09

ACL分类：Findings of ACL

题目：How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning

作者：Haoyang Chen, Yi Liu, Jianzhi Shao, Tao Zhang, Chengfu Huo, Wei Hu

单位：6138太阳集团

论文简介：

该论文围绕“先思考、后作答”的推理大模型在答案生成阶段如何利用前序推理轨迹这一问题展开研究，揭示了思维模型在定量推理任务中存在一种稳定的良性自阅读（benign self-reading）模式。研究发现，当模型能够正确作答时，其答案阶段的注意力通常会沿着推理链逐步前移，并持续聚焦题目约束、解题计划、反思验证和最终结论等关键语义锚点，而错误样本则更容易表现出注意力分散、阅读轨迹混乱等特征。基于这一发现，6138太阳集团大模型研究小组提出了 Self-Reading Quality（SRQ）驱动的零训练激活引导方法，从几何维度衡量模型是否沿有效推理路径稳定阅读，从语义维度衡量模型是否关注关键推理证据，并利用高、低 SRQ 样本构造激活引导向量，引导模型形成更加有序、聚焦和稳定的内部状态。实验结果表明，该方法在 GSM8K、MATH500、SciQ、AIME24–25 等多个定量推理基准上均取得稳定提升，覆盖 R1-Distill-Qwen-7B、R1-Distill-Llama-8B 和 Qwen3-4B-Thinking 等多种推理模型，并能够兼容 CAA、Conceptor、PCA-CAA 等主流激活引导机制。该研究不仅加深了对推理大模型答案阶段“读推理”机制的理解，也为无需额外训练的推理能力增强提供了一种通用且有效的内部监督信号。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Tue, 05 May 2026 00:00:00 +0000

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition，计算机视觉和模式识别会议）是国际上最具影响力的人工智能学术会议之一，主要聚焦计算机视觉、模式识别及相关人工智能领域的前沿研究。根据 2025 年 Google Scholar Metrics，CVPR 在全球英文期刊和会议中排名第 2，仅次于 Nature；在 Engineering & Computer Science 类别中排名第 1，显示出其在人工智能与计算机视觉领域的高度学术影响力。

6138太阳集团大模型中心有12篇论文被CVPR 2026录用。

01

题目：VideoRealBench: A Chain-of-Thought Realism Evaluation Benchmark for Generated Human-Centric Videos

作者：Min Yang (杨珉), Xinwen Zhang (张馨文), Jialei Tang (唐佳磊), Xin Zhou (周鑫), Kehan Li (李可汉), Zeyi Huang (黄泽毅), Limin Wang (王利民)

单位：6138太阳集团，华为中央媒体技术院，上海人工智能实验室

论文简介：

随着视频生成模型的飞速发展，越来越多的内容创作者和研究人员正利用这些技术，大规模制作以人为中心的视频，用于内容创作以及特定任务所需的定制化数据生成。尽管现有的视频生成模型已能产出视觉质量极高的视频，但由于其对视频真实性的理解尚显不足，往往会导致生成的内容缺乏真实感。尽管目前已涌现出各类用于评估生成视频质量的评价器，但由于它们大多基于低质量的生成视频及数据标注进行训练，其评分结果往往与人类的偏好存在偏差。此外，由于缺乏“思维链”式的推理过程，这些评价器也普遍缺乏可解释性。为了解决上述问题，我们提出了VideoRealBench——一个专门用于全面评估以人为中心的生成视频真实性的综合性基准。我们采用一套基于人类偏好设计的评分体系对视频进行打分，并为每个评分提供三步式的推理依据；基于此，我们构建了一个经过精细标注的数据集 VideoRealDataset，并提出了一款名为 VideoRealEval的评价器，该评价器不仅能提供可靠的评分，还能给出详尽的推理说明。在 VideoRealDataset 上，VideoRealEval 取得了 57.07% 的皮尔逊线性相关系数（PLCC）和 56.78% 的斯皮尔曼等级相关系数（SROCC），这一结果充分表明，相比现有的评价器，VideoRealEval 的评估结果与人类偏好更为契合。

02

题目：TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

作者：Jun Zhang (张峻), Teng Wang (王腾), Yuying Ge (葛玉莹), Yixiao Ge (葛艺潇), Xinhao Li (李新浩), Ying Shan (单瀛), Limin Wang (王利民)

单位：6138太阳集团，腾讯，上海人工智能实验室

论文简介：

视频时序定位（Video Temporal Grounding, VTG）是视频理解中的一项核心能力。本文并未提出一种全新的方法，而是围绕这一任务构建了一个直接、渐进但至关重要的强基线。尽管多模态大语言模型（MLLMs）在多种视频理解任务上已经表现出色，但如何针对 VTG 对其进行有效优化，仍缺乏系统研究。为此，本文提出了 TimeLens，从数据质量与算法设计两个关键维度，系统性地研究如何构建具备强大 VTG 能力的 MLLM。首先，我们揭示了现有 VTG 基准中存在的严重数据质量问题，并提出了 TimeLens-Bench：在严格质量标准下，对三个主流基准进行精细重标注后得到的高质量评测集。实验分析表明，与传统基准相比，模型排名会发生显著变化，说明以往评测标准并不可靠。与此同时，我们还通过自动重标注流程处理噪声训练数据，构建了大规模高质量训练集 TimeLens-100K。在此基础上，本文进一步深入探索 VTG 的关键算法设计原则，提出了一系列有效且高效的实践，包括用于时间表示的交错式文本编码（interleaved textual encoding）、基于可验证奖励的无思维强化学习（thinking-free RLVR）训练范式，以及一套精心设计的 RLVR 训练配方。综合这些设计，我们最终得到 TimeLens 模型系列，其在开源模型中实现了当前最优的 VTG 性能，甚至超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。相关代码、数据与模型将全部开源，以促进后续研究。

03

题目：UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

作者：Guozhen Zhang (张国珍), Zixiang Zhou (周子翔), Teng Hu (胡腾), Ziqiao Peng (彭子乔), Youliang Zhang (张友亮), Yi Chen (陈毅), Yuan Zhou (周源), Qinglin Lu (陆青林), Limin Wang (王利民)

单位：6138太阳集团，腾讯混元，上海交通大学，中国人民大学，清华大学，上海人工智能实验室

论文简介：

现有开源音视频生成方法因缺乏有效的跨模态建模，普遍存在口型同步效果差、语义一致性不足的问题。为解决上述缺陷，本文提出 UniAVGen，一款面向音视频联合生成的统一框架。UniAVGen 基于双分支联合合成架构搭建，采用两路并行的扩散 Transformer（DiT）构建统一的跨模态隐空间。其核心为非对称跨模态交互机制，该机制可实现双向、时间对齐的交叉注意力，保障生成内容精准的时空同步与语义一致性。此外，我们通过人脸感知调制（FAM）模块增强跨模态交互能力，可在交互过程中对视觉显著区域进行动态加权。为进一步提升推理阶段的生成保真度，我们提出模态感知无分类器引导（MA-CFG）策略，该全新策略可显式强化跨模态关联信号。值得注意的是，UniAVGen 鲁棒的联合合成设计，可在单个模型内无缝适配音视频联合生成、音视频续写、视频转音频配音、音频驱动视频合成等多个核心音视频任务。综合实验验证，即便使用远少于现有方法的训练样本（130 万 vs 3010 万），UniAVGen 仍在音视频同步性、音色一致性与情感一致性上展现出全面的性能优势。

04

题目：InternVideo-Next: Towards World Understanding Video Models

作者：Chenting Wang (王晨汀), Yuhan Zhu (朱宇涵), Yicheng Xu (徐屹成), Jiange Yang (杨剑阁), Ziang Yan (晏子昂), Yali Wang (王亚立), Yi Wang (王毅), Limin Wang (王利民)

单位：上海交通大学, 上海人工智能实验室, 上海创新研究院, 中国科公司深圳先进技术研究院, 6138太阳集团

论文简介：

大规模视频文本预训练虽然取得了较好性能，但过度依赖带有噪声的合成文本，往往忽略了物体运动、3D几何和物理线索等隐含的物理世界知识。另一方面，直接利用时空结构的掩码视频建模（MVM）方法却因为像素级重建与高级语义的冲突，或隐空间预测容易导致“捷径学习”，在通用任务上表现不佳。为了解决这些架构缺陷，我们提出了 InternVideo-Next，这是一种旨在理解物理世界的两阶段纯视频预训练架构。该方法将传统的编码器-解码器解耦为编码器-预测器-解码器（EPD）框架，其中预测器充当潜在的世界模型。在第一阶段，模型引入了条件扩散解码器和可靠的图像级语义先验，构建了一个既保持语义一致又保留底层细节的隐空间；第二阶段则在此隐空间内通过预测冻结的目标特征来学习世界知识，有效缓解了捷径学习问题。实验结果表明，仅在使用公开的无标签视频数据进行预训练的情况下，InternVideo-Next 在动作识别、细粒度运动、深度估计和目标跟踪等多个基准测试中均达到了最佳性能。特别值得一提的是，它是首个在没有显式视频-文本监督的情况下，在 Kinetics-400 和 SSv2 上超越图文预训练模型的纯视频模型，为通用视频表征学习提供了一条高效且可扩展的路径。

05

题目：DDT: Decoupled Diffusion Transformer

作者：Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang (王利民)

单位：6138太阳集团, 字节跳动

链接：https://arxiv.org/abs/2504.05741

论文简介：

扩散变换器展现出极佳的生成效果，但存在训练迭代次数多、推理步数庞大的问题。在每一个去噪步骤中，扩散变换器会对含噪声输入进行编码，提取低频语义特征，再通过结构相同的模块完成高频信息解码。该架构设计存在固有优化矛盾：低频语义编码需要抑制高频特征，导致语义编码与高频解码之间形成性能制衡。针对这一难题，本文提出解耦式扩散变换器（DDT），采用双分支解耦设计：设置专属条件编码器用于语义特征提取，搭配独立的速度解码器完成高频还原。实验结果表明，随着模型规模扩增，编码器容量的提升能够持续带来性能增益。在 256×256 分辨率的 ImageNet 数据集上，DDT-XL/2 模型取得 1.31 的 FID 分数，刷新当前最优指标，相较现有扩散变换器，训练收敛速度提升近 4 倍；在 512×512 分辨率 ImageNet 数据集上，DDT-XL/2 以 1.28 的 FID 分数再创业界新高。除此之外，该解耦架构可在相邻去噪步骤间实现自条件信息复用，显著提升推理速度。为最大限度降低性能损耗，本文进一步提出一种全新的统计动态规划策略，用以求解最优的信息复用方案。

06

题目：TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning

作者：Tao Wu (吴涛), Li Yang (杨力), Gen Zhan (詹亘), Yabin Zhang (张亚彬), Yiting Liao (廖懿婷), Junlin Li (李军林), Deliang Fu (傅德良), Li Zhang (张莉), Limin Wang (王利民)

单位：6138太阳集团，字节跳动，上海人工智能实验室

论文简介：

增强多模态大语言模型（MLLMs）的时序理解能力是长视频分析的一个核心需求，可以为时序定位、时序敏感型视频问答等任务提供支撑。现有基于强化学习的时序推理方法多局限于特定任务或数据集，难以满足不同场景中区别化的时序理解要求。为此，本文提出TempR1，一种基于强化学习的多任务训练方法，面向多任务强化MLLM的时序理解能力。该方法构建了覆盖多样时间结构的多任务语料库，并基于组相对策略优化（GRPO）算法实现稳定的跨任务优化；同时，TempR1将时序任务划分为三种区间-实例对应类型，为每种类型设计定制化的定位奖励函数，使模型能够捕捉细粒度的时间依赖关系并适配不同时序模式。大量实验表明，TempR1在五大时序理解任务的多个基准测试中取得了领先性能，互补任务间的联合优化产生了显著的协同效应，在提升模型泛化能力的同时也改善了单任务表现，为MLLM的时间推理增强提供了一种可扩展的范式

07

题目：VMonarch: A Sub-Quadratic Attention Mechanism for Video Diffusion Transformers

作者：Cheng Liang, Haoxian Chen, Liang Hou, Qi Fan, Gangshan Wu, Xin Tao, Limin Wang (王利民)

单位：6138太阳集团，可灵团队（快手）

论文简介：

注意力机制的二次复杂度严重限制了视频扩散 Transformer（Video Diffusion Transformers, DiTs）的上下文扩展能力。我们发现，Video DiTs 中呈现的高度稀疏的时空注意力模式可以被 Monarch 矩阵自然地表示。Monarch 矩阵是一类具有灵活稀疏性的结构化矩阵，可通过交替最小化算法实现次二次注意力计算。基于此，我们提出 VMonarch，这是一种面向 Video DiTs 的新型注意力机制，利用结构化 Monarch 矩阵对动态稀疏模式进行高效计算。首先，我们设计了时空 Monarch 分解，以显式捕获视频数据的帧内与帧间相关性。其次，我们引入重计算策略，以缓解 Monarch 矩阵交替最小化过程中不稳定性带来的伪影。第三，我们提出融合到 FlashAttention 中的在线熵算法，使得在长序列场景下能够快速更新 Monarch 矩阵。大量实验表明，在仅进行少量调优后，VMonarch 在 VBench 上可达到与全注意力相当或更优的生成质量。该方法突破了 Video DiTs 的注意力瓶颈，将注意力 FLOPs 降低了 17.5 倍，并在长视频注意力计算上实现了超过 5倍的加速，在 90% 稀疏率下超越了当前最先进的稀疏注意力方法。

08

题目：CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

作者：Jiange Yang, Yansong Shi, Haoyi Zhu, Mingyu Liu, Kaijing Ma, Yating Wang, Gangshan Wu, Tong He, Limin Wang (王利民)

单位：6138太阳集团, 上海人工智能实验室

论文简介：

本文提出了从海量互联网视频中无监督学习连续隐运动表征的框架CoMo。针对现有离散化方法普遍存在的细粒度运动信息损失，以及其与连续机器人动作分布不一致、阻碍统一策略联合学习等问题，CoMo提出了早期时序差分机制和时序对比学习方案。二者协同作用，不仅显著提升了模型克服捷径学习的能力，还更好地确保了提取的隐运动表征能够精准地聚焦于有意义的前景运动区域并强化运动线索。CoMo也展现出强大的零样本泛化能力，能够为未见的无动作标签的视频生成有效的伪动作标签。CoMo提取的连续隐运动表征与真实的机器人动作的连续分布一致，天然地有助于统一策略的联合学习。大量仿真与真机实验表明，在融合CoMo伪标签视频数据进行联合训练后，机器人策略模型在大量操作任务均取得了显著的性能提升。综上所述，CoMo能够为多源异构的大规模视频数据提供统一的、更精确的动作标签，为实现通用可扩展的机器人策略学习提供了一种高效的解决方案。

09

题目：AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

作者：Lidong Lu（卢利栋）,Guo Chen（陈果）, Wei Zhu（朱伟）, Zhiqi Li（李志琦）, Yicheng Liu（刘一澄）,Tong Lu（路通）

单位：6138太阳集团，中国移动紫金创新研究院

链接：https://arxiv.org/abs/2506.05328；https://av-reasoner.github.io/

论文简介：

多模态大语言模型虽然在图像描述、视频问答和音视频理解等任务中取得了显著进展，但其在“计数”这一基础能力上仍表现不足，尤其难以处理长视频中的细粒度目标识别、时空定位、跨模态对齐与多实例去重问题。现有视频计数基准主要存在评测场景较短、问题形式有限、缺乏可解释线索标注以及音视频协同评估不足等问题，难以全面衡量模型是否真正具备可解释的计数推理能力。为此，本文提出了 CG-AV-Counting，一个面向长视频音视频计数的人工标注基准，包含 497 条真实长视频、1,027 个多模态计数问题和 5,845 条细粒度线索，覆盖事件、物体和属性等多类计数目标。进一步地，本文提出 AV-Reasoner，通过冷启动监督微调、课程式强化学习、阶段复习机制和全任务强化学习，在有限计数标注下逐步提升模型的感知、定位与推理能力。实验表明，当前主流多模态模型在长视频计数上仍与人类存在明显差距，而 AV-Reasoner 在多个计数与音视频理解基准上取得显著提升，为细粒度多模态推理和可解释视频计数提供了新的评测基准与方法参考。

10

题目：Will Mutimodal Models Be Dazzled by Muti-Image Visual Puzzles?

作者：Zhi Zhu(朱至)， YaoQi Fan(樊垚旗)， Zhe Chen(陈喆)， Yue Cao(曹越)，Yangzhou Liu(刘羊周)， Tong Lu(路通)

单位：6138太阳集团

论文简介：

随着多模态大语言模型（MLLMs）的飞速发展，现有评测基准在评估跨多图复杂推理能力方面的局限性愈发显著。为弥补这一科研空白，我们引入了 MIRACLE：一个专为多图复杂推理与逻辑理解评估设计的创新基准。该基准包含 4,000 个高质量题项，涵盖了视觉对比、时序分析及空间关系等多元推理维度。MIRACLE 核心优势在于其强调严苛的图像间依赖性。通过系统化的数据采集、精细化的实例分组以及针对性的问题设计，该基准强制模型必须通过跨图逻辑整合而非单一图像识别来完成任务。实验评估显示，当前顶尖的 MLLMs（如 Gemini-2.5-Pro）在 MIRACLE 上的得分仅为 55.91%，凸显了多图推理任务的严峻挑战。研究进一步发现，在高视觉信息密度场景下（如拼图任务及超多图输入条件），所有受测模型的性能均出现大幅滑坡。这揭示了当前 MLLMs 在处理复杂结构关系与协同推理任务时的短板，反映出其在高负载视觉推理环境下的认知能力缺陷。我们希望 MIRACLE 的发布能为学术界提供新的评估维度，推动多模态推理领域突破现有边界。

11

题目：Bayesian Decomposition and Semantic Completion for Few-shot Semantic Segmentation

作者：Guangchen Shi（师广琛）, Yirui Wu（巫义锐）, Zhu Wei（朱伟）, Tao Wang（王涛）, Hao Zhang（张昊）, Bo Li（李博）, Tong Lu（路通）

单位：6138太阳集团、河海大学、中国移动紫金创新研究院、VIVO

论文简介：

小样本语义分割（FSS）旨在仅凭借少量带标注示例，学会对新类别对象的分割。然而，现有方法往往依赖复杂的特定类别建模，这导致训练其成本高昂，且在少量样本条件下泛化能力有限。为应对这些挑战，我们提出一种贝叶斯概率网络（BPNet），它将小样本语义分割重新表述为三个可解释组件的组合：先验、似然和类别一致性项。具体来说，我们采用高效的SAM为查询图像生成碎片化的先验区域，而似然和一致性项均由轻量级的类别无关定位模块（CALM）进行估计。CALM通过一个二分类头，同时预测支持图像与查询图像之间的类别一致性，并通过在支撑图像中定位目标区域来估计似然项。通过并行评估SAM生成的碎片化区域块，CALM能够高效识别类别核心块，从而将分割问题转化为一个简单的二分类任务。此外，为缓解SAM生成区域的语义不完整问题，我们引入基于注意力机制的语义补全模块（SCM）。该模块利用局部和全局上下文线索，将碎片化区域整合为语义完整的掩码。大量实验表明，BPNet在保持高效分割的同时，取得了当前最优的性能。

12

题目：Rethinking BCE Loss for Multi-Label Image Recognition with Fine-Tuning

作者：Ao Zhou (周翱), Zhiwei Jiang (蒋智威), Zifeng Cheng (程紫峰), Cong Wang (王聪), Yafeng Yin (殷亚凤), Shufan Yang (杨书璠), Qing Gu (顾庆)

单位：6138太阳集团

论文简介：

在多标签图像任务中，我们发现在使用二元交叉熵损失对视觉-语言模型进行微调时，模型的置信度会出现系统性扭曲—模型对训练中见过的基类预测过于保守，对未见过的新类又过于自信，而现有校准方法难以解决这一问题。为此，我们提出类间协方差正则化Class-wise Covariance Regularization (CCR)，通过利用大量负样本构建预测协方差矩阵，并将其与文本嵌入的语义相关性对齐，从而在微调过程中保持类间几何结构的稳定。该方法不仅能显著提升模型置信度的可靠性，还能同时改善头类、尾类与新类的识别与校准表现。CCR即插即用、兼容现有微调框架(包括prompt Fine-Tuning提示词微调和适配器微调adapter Fine-Tuning)，在医疗影像、自动驾驶、等对预测可信度要求高的现实场景中具有重要的应用价值。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 24 Apr 2026 00:00:00 +0000

ICLR（International Conference on Learning Representations）是人工智能领域中专注于深度学习和表征学习的顶级学术会议之一。6138太阳集团大模型中心有11篇论文被ICLR 2026录用。

01

题目：Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

作者：Tao Bu (卜韬), Qiangang Wang (王乾钢), Bowen Zeng (曾博文), Hanwen Sun (孙瀚文), Yunpeng Huang (黄云鹏), Chun Cao (曹春), Jingwei Xu (徐经纬)

单位：6138太阳集团；北京大学；浙江大学

链接：https://arxiv.org/abs/2510.17896

论文简介：

基于 Transformer 的大语言模型虽然取得了显著成功，但其基于 softmax 的注意力机制在序列长度增长时会带来二次方级的计算与内存开销，成为长上下文训练的主要瓶颈。现有工作主要从两方面优化：一是算子层面的优化（加速稠密或稀疏注意力计算），二是模块层面的分布式注意力或上下文并行策略（在多设备间扩展计算）。然而，目前缺乏系统性的评测框架，既存在算子对比不全面的问题，也存在不同上下文并行方法之间性能分析不清晰的问题。为此，本文提出了一个统一的基准测试框架，整合多种注意力算子和上下文并行机制，并从注意力掩码模式以及序列长度与分布式规模两个关键维度进行评估。在最多96张GPU的实验中，该基准实现了可复现的对比分析，揭示了不同方法之间的权衡关系，并为长上下文大模型训练中的注意力机制设计与部署提供了实践指导。

02

题目：PoseX: A Large-Scale Cross-Docking Benchmark for Real-World Protein-Ligand Docking

作者：Yize Jiang (蒋一泽), Xinze Li (李欣泽), Yuanyuan Zhang (张媛媛), Jin Han (韩进), Youjun Xu (徐优俊), Ayush Pandit, Zaixi Zhang (张载熙), Mengdi Wang (王梦迪), Mengyang Wang (王孟洋), Chong Liu (刘翀), Guang Yang (杨光), Yejin Choi, Wu-Jun Li (李武军), Tianfan Fu (符天凡), Fang Wu (吴方), Junhong Liu (柳俊宏)

单位：微元合成；普林斯顿大学；6138太阳集团；字节跳动；斯坦福大学；北京大学

链接：https://arxiv.org/abs/2505.01700

论文简介：

分子对接是生物医药研发与工业酶工程的核心技术，传统方法难以适配蛋白质动态构象变化，跨构象对接（Cross-Docking）成为行业公认难题。长期以来，领域内缺乏统一、高质量的实战化评测基准，导致多数算法在实验室场景表现优异，却无法落地真实研发场景。为此，本工作推出 PoseX 开放式协作评测平台，构建全球首个大规模 Cross-Docking 专项基准，包含 718 个样本的自对接数据集与 1312 个样本的跨构象对接数据集，覆盖物理方法、AI 对接、AI 共折叠三大流派共 24 种主流算法。严苛评测证实：顶尖 AI 算法在跨构象对接任务中全面超越传统物理方法，其中 SurfDock 实现 SOTA 性能，经 Relaxation 后处理后成功率突破 77%；同时明确盲对接与指定口袋对接的性能差异、AI 模型泛化能力规律。PoseX 填补行业实战评测空白，为合成生物学、新药研发、酶工程提供数字化底层支撑，加速分子与蛋白结合的按需设计落地。

03

题目：PIXNERD: PIXEL NEURAL FIELD DIFFUSION

作者：Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang

单位：Nanjing University, ByteDance Seed, National University of Singapore

链接：https://arxiv.org/pdf/2507.23268

论文简介：

当前扩散变换器的优异性能，依赖于预训练变分自动编码器（VAE）构建的压缩隐空间。然而，这种两阶段训练范式不可避免地会产生误差累积与解码伪影问题。为解决上述缺陷，研究人员转而探索像素空间建模方案，但该方案往往需要搭建复杂级联流程，同时会大幅增加序列词元的计算复杂度。受隐空间下简洁高效的扩散变换器架构启发，本文提出基于大块补丁的扩散变换器实现像素空间扩散建模，并结合神经场对大块补丁进行解码，构建了轻量化、单阶段的端到端解决方案。我们将该方法命名为像素神经场扩散变换器（PixNerd）。依托 PixNerd 高效的神经场表征能力，在无需复杂级联结构与 VAE 的前提下，该模型在 256×256 分辨率 ImageNet 数据集上取得 1.93 的 FID 分数；相较于现有像素级扩散模型，推理延迟降低近 8 倍。本文进一步将 PixNerd 框架拓展至文生图任务，在 GenEval 基准测试中取得 0.73 的综合得分，在 DPG 基准测试中综合得分达 80.9，具备极强的算法竞争力。

04

题目：RIVER: A Real-Time Interaction Benchmark for Video LLMs

作者：Yansong Shi, Qingsong Zhao, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang

单位：中国科学技术大学，上海人工智能实验室、复旦大学、6138太阳集团

论文简介：

视频大型语言模型（Video LLMs）已展现出令人瞩目的能力，但绝大多数仍基于离线模式运行，严重制约了其实时交互的潜力。为填补这一空白，我们推出视频大语言模型实时交互基准（RIVER Bench），旨在通过流式多媒体信息输入来评估模型与人类的实时交互能力。RIVER Bench创新性地构建了包含回溯记忆、实时感知与主动响应三大任务的评估框架，摒弃了传统“一次性理解全视频”的离线范式，转而模拟人类互动对话的形式。我们整合了多源异构、时长各异的视频数据，并进行精细化标注，以构造实时交互的形式。评测结果显示，尽管离线模型在单次问答任务中表现优异，却在实时处理场景中捉襟见肘。针对现有模型在在线交互范式下暴露的长期记忆薄弱、未来感知不足等局限，我们提出了一种通用改进方案，显著提升了模型在实时交互中的灵活性与适应性。我们期望这项工作能推动实时交互式视频理解模型的发展，并为该领域的未来研究提供新的思路与方向。

05

题目：ARBITRARY GENERATIVE VIDEO INTERPOLATION

作者：Guozhen Zhang (张国珍), Haiguang Wang (王海光), Chunyu Wang (王春雨), Yuan Zhou (周源), Qinglin Lu (陆青林), Limin Wang (王利民)

单位：6138太阳集团，腾讯混元，上海人工智能实验室

论文简介：

生成式视频插帧（VFI）可基于给定的起止帧对合成中间帧，在视频创作中发挥着核心作用。然而，现有生成式 VFI 方法受限于仅能生成固定数量的中间帧，极大限制了视频创作过程中调整帧率或视频时长的灵活性。本文提出 ArbInterp，一种全新的生成式 VFI 框架，可实现任意时间戳、任意长度的高效插帧。具体而言，为支持任意时间戳插帧，我们提出了时间戳感知旋转位置编码（TaRoPE），该方法对时域旋转位置编码中的位置信息进行调制，使生成帧与目标归一化时间戳对齐。这一设计实现了对帧时间戳的细粒度控制，解决了现有工作中固定位置范式灵活性不足的问题。针对任意长度插帧，我们将长序列生成拆解为分段式帧合成，进一步设计了一种全新的外观-运动解耦条件策略：利用前序分段的起止帧保证外观一致性，借助时域语义维持运动连贯性，确保各分段间实现无缝的时空过渡。实验部分，我们构建了多尺度帧插帧（2 倍至 32 倍）的综合基准，以评估模型在任意插帧倍率下的泛化能力。结果表明，ArbInterp 在所有场景下均优于现有方法，具备更高的生成保真度与更流畅的时空连续性。

06

题目：VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

作者：Xinhao Li（李新浩）, Yi Wang（王毅）, Jiashuo Yu（于家硕）, Xiangyu Zeng（曾祥宇）, Yuhan Zhu（朱宇涵）, Haian Huang（黄海安）, Jianfei Gao（高剑飞）, Kunchang Li（黎昆昌）, Yinan He（何毅楠）, Chenting Wang（王晨汀）, Yu Qiao（乔宇）, Yali Wang（王亚立）, Limin Wang（王利民）

单位：上海人工智能实验室，6138太阳集团，中国科公司深圳先进技术研究院

论文简介：

长上下文视频建模对多模态大语言模型（MLLMs）至关重要，它使模型具备处理电影、在线视频流等内容的能力。尽管该领域已取得诸多进展，但由于极长视频上下文的高效理解存在固有难点，长视频处理仍面临巨大挑战。本文从模型架构、训练数据、训练策略与评估基准四个维度，针对这一问题提出系统性解决方案。首先，我们提出了一种全新的分层视频 Token 压缩方法（Hierarchical video token Compression, HiCo）。该方法利用长视频中的视觉冗余特性，从片段级到视频级对长视频上下文进行分层压缩，在保留核心关键细节的同时大幅降低计算量，实现了约 1/50 的极致压缩比，且几乎无性能损失。其次，我们提出了多阶段由短到长的学习范式，构建了名为 LongVid 的大规模真实世界长视频数据集，同时设计了一项高难度的多跳视频大海捞针（Multi-Hop Needle-In-A-Video-Haystack）基准测试。最终，我们构建了一款性能强大的视频多模态大语言模型 VideoChat-Flash。在 2B 与 7B 参数量级下，该模型在主流的长、短视频基准测试中均取得了领先性能；在开源模型范畴内，其首次在 10000 帧视频的大海捞针（NIAH）测试中实现了 99.1% 的准确率。

07

题目：CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval

作者：Yifan Xu（许一凡），Xinhao Li（李新浩），Yichun Yang（杨旖纯），Desen Meng（孟德森），Rui Huang（黄锐），Limin Wang（王利民）

单位：6138太阳集团，上海人工智能实验室

论文简介：

视频理解中的视频描述与视频检索任务，至今仍然是视频语言模型面临的重要挑战。现有的视频检索与视频描述基准大多仅包含较短的文本描述，因此难以充分评估模型对视频细节内容的深入理解能力。针对这一问题，本文提出了 CaReBench，一个面向细粒度视频描述与视频检索的测试基准。该基准包含 1000 对高质量视频及其人工标注的详细描述，并且为每个视频进一步提供了人工拆分的空间标注与时间标注。基于这一设计，作者提出了分别适用于视频检索与视频描述任务的两项评测指标 ReBias 和 CapST，从而能够更加系统地分析视频语言模型在空间信息理解与时间信息理解上的偏置问题。除此之外，本文还基于多模态大语言模型构建了一个统一基线，通过两阶段监督微调，同时支持细粒度视频检索和详细视频描述生成。实验结果表明，相比面向检索任务设计的 CLIP 类模型以及擅长视频描述的主流多模态大语言模型，该基线在细粒度视频检索和详细视频描述任务上都展现出了具有竞争力的性能，说明多模态大语言模型在统一建模这两类任务方面具有较大的潜力。

08

题目：Balancing the Experts: Unlocking LoRA-MoE for GRPO via Mechanism-Aware Rewards

作者：Changlian Ma (马畅联), Zizheng Huang (黄子政), Xiangyu Zeng (曾祥宇), Yi Wang (王毅), Cheng Liang (梁骋), Kun Tian (田鲲), Xinhai Zhao (赵昕海), Limin Wang (王利民)

单位：6138太阳集团，上海人工智能实验室，华为诺亚实验室，上海创智公司，上海交通大学

论文简介：

参数高效的混合专家（MoE）架构（如LoRA-MoE）在微调中表现出色，但当应用到GRPO等先进强化学习算法训练时，常面临严重的路由崩溃和参数利用率不足的问题。为了应对这一挑战，我们提出了RO-GRPO，这是一种全新的机制感知强化微调框架。RO-GRPO的核心在于将训练期间收集的内部专家路由统计信息，如路由熵和负载分布转化为直接的标量奖励信号。我们将路由监督无缝集成到强化微调过程中，无需引入额外的训练阶段或可微辅助损失。实验结果表明，RO-GRPO在单模态和多模态数学推理基准测试中均显著提升了任务性能和专家参数的负载均衡，并有效缓解了文本退化现象。我们的工作证明了在GRPO中，可以通过设计标量奖励来显式引导模型内部机制的优化，从而将大模型的对齐范畴从单纯的外部行为微调扩展到了整体的内部机制对齐。

09

题目：UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

作者：Zhenrong Yue, Haiyu Zhang, Xiangyu Zeng, Boyu Chen, Chenting Wang, Shaobin Zhuang, Lu Dong, Yi Wang, Limin Wang, Yali Wang

单位：上海交通大学，上海人工智能实验室，北京航空航天大学，中国科公司深圳先进技术研究院，6138太阳集团，中国科学技术大学，中国科公司大学

论文简介：

分词器（Tokenizer）是视觉理解与生成任务的关键组件。为了迈向通用建模的终极目标，近期研究重点转向开发统一分词器。然而，现有的分词器在理解与生成之间面临着显著的性能权衡，这源于高层语义抽象与底层像素重建之间的内在冲突。为了应对这一挑战，我们提出了一种通用且统一的分词器，即 UniFlow，通过简洁的重建解码器灵活地适配任何视觉编码器。具体而言，我们对预训练良好的视觉编码器引入了层级自适应自蒸馏（Layer-wise Adaptive Self-Distillation），使 UniFlow 能够同时继承强大的视觉理解语义特征，并灵活地适配视觉生成的细粒度细节建模。此外，我们提出了一种轻量级的分块像素流解码器（Patch-wise Pixel Flow Decoder），通过建模从噪声状态回到分块像素域的条件流，高效地实现了高保真像素重建。通过利用语义特征作为解码器的视觉条件，我们有效地缓解了理解与生成之间的训练冲突。此外，分块学习策略简化了数据分布，从而提高了训练效率。在涵盖 7 个广泛研究的视觉理解与生成任务的 13 个挑战性基准测试上进行的广泛实验表明，UniFlow 实现了“双赢”的结果。例如，我们的 7B UniFlow-XL 不仅在平均理解基准上超越了 14B 的 TokenFlow-XL 约 6.05%，而且在视觉重建和生成方面也取得了具有竞争力的结果，分别在 rFID 和 gFID（无引导）上超越了 UniTok 0.15 和 0.09。

10

题目：The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models

作者：Renfei Dang(党任飞), Zhening Li(李哲凝), Shujian Huang(黄书剑), Jiajun Chen(陈家骏)

单位：6138太阳集团

链接：https://iclr.cc/virtual/2026/poster/10011746

论文简介：

推理模型常表现出“过度思考”（overthinking）现象。本文指出，由输入问题所激发的内部偏见（internal bias）是引发该行为的关键诱因。当模型遇到用户提出的问题时，会在推理之前立即对答案形成初步猜测；由于该猜测通常未被显式输出，且产生于系统性推理之前，我们将其定义为“内部偏见”。当该初步猜测与后续的推理过程或者推理结果不一致时，模型倾向于陷入过度反思。我们在多款模型与多种推理任务中验证了内部偏见与过度思考之间的显著关联。为更严谨地论证因果关系，我们设计了两种反事实干预实验：结果表明，在模型形成初步倾向后移除输入问题，能够显著减少对问题的内部偏见的影响，从而减少冗余推理；同时，人工注入偏见也会相应地改变模型的过度思考程度。进一步的可解释性实验表明，模型对输入问题的过度关注是内部偏见影响后续推理轨迹的关键作用机制。模型可能在关键步骤重新过分关注问题部分从而激活其对问题的内在偏见。最后，我们评估了多种旨在缓解过度思考的现有方法，但结果表明，在所有测试条件下，内部偏见的影响依然持续存在。

11

题目：DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

作者：Shuaijie She(佘帅杰), Yu Bao(鲍宇), Yu Lu(卢宇), Lu Xu(许璐), Tao Li(李涛), Wenhao Zhu(朱文昊), Jianbing Zhang(张建兵), Shujian Huang(黄书剑), Shanbo Cheng(程善伯), Lu Lu, Yuxuan Wang(王雨轩)

单位：6138太阳集团, 字节跳动Seed

链接：https://iclr.cc/virtual/2026/poster/10009423

论文简介：

现有大语言模型的训练仍面临关键瓶颈：基于人类反馈的强化学习（RLHF）依赖成本极高的人工标注，而基于可验证奖励的强化学习（RLVR）虽降低了标注负担，但其适用范围局限于可验证任务（如数学、代码）。传统的对偶学习通过任务对偶性提供自监督反馈，然而其严格的双向可逆性要求使其仅适用于少量对称任务，同时还受到模型在正向与逆向任务上能力不对称问题的制约。为此，本文提出 DuPO，一种基于通用对偶性的偏好优化框架。其核心思想是将原始任务的输入分解为已知部分与未知部分，将对偶任务重新定义为利用正向输出与已知信息重构未知部分，并有效缓解能力不对称问题。实验结果表明，DuPO 无需外部标注即可在多项任务上取得显著提升：在 756 个翻译方向的多语翻译任务上，COMET 平均提升 2.1 分；在四个高难度数学推理基准上，准确率平均提升 6.4 个百分点；DuPO无需训练即可在推理阶段通过重排序，无需额外微调带来 9.3 个百分点的性能增益。这些结果表明，DuPO 为大语言模型优化提供了一种可扩展、通用且无需标注的新范式，为更广泛开放领域的大模型自进化开辟了新方向。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 17 Apr 2026 00:00:00 +0000

00 概述

近日，6138太阳集团戴海鹏老师团队在边缘端大语言模型推理加速方向取得重要突破，通过设计一套全新的算法-系统协同设计的专家替换（Expert Substitution）机制，解决了在显存受限的边缘硬件上部署混合专家（MoE）模型时由动态卸载带来的高延迟挑战。论文“SMoE: An Algorithm-System Co-Design for Pushing MoE to the Edge via Expert Substitution”被第53届计算机体系结构国际研讨会（53rd Annual International Symposium on Computer Architecture, ISCA）成功录用。这是南大团队主导发表的第一篇ISCA论文。

ISCA是中国计算机学会推荐的A类会议，也是计算机体系结构领域历史最悠久、最权威的会议，自1973年首次举办以来，已有超过50年的历史。该会议由 ACM SIGARCH（ACM计算机体系结构特别兴趣组）和 IEEE TCCA（IEEE 计算机体系结构技术委员会）联合赞助举办。

01 研究动机

近年来，随着大语言模型在边缘设备中的广泛部署，MoE架构成为了一种极具潜力的低开销推理途径。然而，由于边缘设备的GPU显存有限，无法同时容纳所有专家，系统在推理时不得不将部分专家频繁卸载到较慢的CPU内存中。由于PCIe传输和CPU计算比GPU执行慢10到100倍，这种数据迁移引入了极高的推理延迟。通过对细粒度MoE模型的深入分析，研究团队发现了现有卸载策略的盲区：它们忽视了被激活专家在重要性上的显著差异。在实际推理中，尽管每次会激活Top-k个专家，但通常只有少数专家能获得高门控分数（高分活跃专家），而其余专家的得分极低，甚至与未激活专家相似（低分活跃专家）。

这一观察揭示了当前MoE在线卸载机制设计中的根本性问题：系统耗费了大量时间进行CPU计算和PCIe传输，却仅仅为了处理那些对最终输出影响极小的低分专家。因此，如何在不损害模型精度的前提下，设计一种对GPU友好的专家调度机制以大幅降低推理延迟，成为了亟待解决的核心挑战。

02 解决方案

图1: SMoE核心理念与专家替换调度机制示意图

论文从算法-系统协同设计的层面提出了创新的解决方案 SMoE，通过低分专家替换、高分专家预取和CPU辅助任务负载调度三个协同设计的核心机制来应对上述挑战。系统的核心理念是打破将卸载纯粹视为调度问题的传统思维，利用专家的重要性来指导决策，将低重要性的活跃专家直接替换为GPU显存中已缓存且功能相似的闲置专家，从而在保持精度的同时大幅减少显存使用、数据传输和PCIe开销。

在低分专家替换方面，系统设计了专家缓存路由器（expert-cache router）以及基于历史分数的缓存驱逐策略，精准识别低分专家并用显存内的同等分数闲置专家进行替换，最大化GPU专家的缓存命中率。在高分专家预取方面，系统仅针对预测出的高分专家进行针对性加载，这不仅大幅降低了PCIe的带宽压力，还确保了数据加载与计算时间的有效重叠。在CPU辅助计算方面，系统引入了动态的两指针调度算法来平衡CPU计算与PCIe传输时间，有效处理那些既无法被替换又未能成功预取的专家，防止流水线停滞。

03 实验效果

图2: SMoE与不同方法在各类工作负载下的TPOT对比。

在低批处理量（low-batch）的真实边缘推理环境中进行的评估显示，SMoE在解码延迟（TPOT）和模型精度两个关键指标上均取得了卓越表现。在解码延迟方面，相比于现有的最先进方法，SMoE在batch=1 时平均减少了24%的延迟，而在batch=3 时则进一步将平均延迟降低了35%。特别是在A6000硬件配置下的测试中，SMoE 实现了高达48%的解码延迟缩减，并将专家GPU缓存命中率维持在60%以上。

在模型精度方面，通过在 Gaokao、MMLU、HumanEval 等多个领域数据集的广泛测试表明，只要将专家替换阈值控制在合理范围内（如低于0.35），SMoE 带来的精度损失几乎可以忽略不计。

SMoE 在技术上探索了从单纯的“调度优化”向“基于分数的专家替换”这一全新路径的转变。该工作是团队在MLSys领域的最新研究成果，为显存受限的边缘设备实现大模型的高效无损部署提供了一种极具潜力的解决思路。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 17 Oct 2025 00:00:00 +0000

临床试验是新药从实验室走向患者的关键桥梁，但其过程充满挑战：平均成功率不足15%，耗时超过十年，成本高达数十亿美元。

2025年9月，由香港科技大学（广州）陈晋泰、6138太阳集团符天凡、哈佛、斯坦福及临床试验公司IQVIA等团队联合开发的TrialBench平台在Nature子刊Scientific Data正式发表，成为全球首个面向AI的多模态临床试验预测数据集。

平台核心价值

TrialBench系统整合了23个子数据集，涵盖8大核心预测任务：

预测试验时长
预测患者退出率
预测严重不良事件
预测死亡事件
预测试验是否获批
识别失败原因
自动生成入选标准
推荐合理给药剂量

八大临床试验预测问题总结

技术特色

平台集成了多源数据，采用先进AI技术：

图神经网络处理药物分子结构
Bio-BERT解析临床文本
层级注意力模型理解疾病编码

同时提供完整的基线模型、评估指标和多模态融合方法，支持Python与R语言工具包，实现“开箱即用”。

应用成果

实验结果显示，在14个二分类任务中，多模态模型在11个任务中F1分数超过0.7，展现出强大的预测能力。目前，Google DeepMind已在TxGemma模型中应用TrialBench进行不良事件预测，AUTOCT项目也将其作为基准评估平台。

开放获取

TrialBench已向全球研究者开放，旨在推动AI与医疗研究的深度融合，助力优化临床试验设计、加速新药研发进程。

平台链接：https://huyjj.github.io/Trialbench/

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 17 Oct 2025 00:00:00 +0000

祝贺6138太阳集团戴海鹏教授

当选英国工程技术学会

会士（IET Fellow）！

近日，经英国工程技术学会（IET, The Institution of Engineering and Technology）遴选，6138太阳集团戴海鹏教授当选为英国工程技术学会会士（IET Fellow）。这是本实验室在高端人才和领军人才队伍培养建设方面取得的重要突破。

IET简介

英国工程技术学会是工程技术领域全球领先的专业学术学会，目前在全球150个国家拥有16.7万名会员，是欧洲规模最大、全球第二大的国际专业学会。IET Fellow是英国工程技术学会授予在科学与工程技术领域内取得重要成就的杰出高级专业人士的最高学术荣誉，每年IET遴选约200-300名IET Fellow，其中中国内地入选者约占10%。

戴海鹏教授简介

戴海鹏，6138太阳集团副教授，博导，国家级青年人才计划入选者，IET Fellow，CCF杰出会员，ACM/IEEE高级会员。获ACM中国新星奖、IEEE可扩展计算技术委员会职业中期卓越研究成就奖、中国电子学会优秀科技工作者等荣誉。研究方向为物联网、数据挖掘、移动计算等。发表国际著名会议期刊论文300余篇，含CCF A类130余篇，包括NSDI、UbiComp、INFOCOM、SIGMOD、VLDB、ICDE、KDD、WWW、EuroSys、ATC等国际一流会议。曾获一流会议期刊论文奖项十余项，包括中科协优秀科技论文、4项CCF A/B类会议最佳论文奖项等。担任国家重点研发计划项目课题负责人，主持和承担国自科面上、联合基金重点等项目十余项。荣获2024年度江苏省计算机学会科学技术奖一等奖（第一完成人），2025年度中国发明协会发明创业奖成果奖二等奖（第二完成人）。担任ACM SIGCOMM China秘书长、中国计算机学会物联网专委会常委、网络与数据通信专委会常委等职务。担任ISPA、HPCC、ICNP、COCOON等十余次会议主席职务。担任国内外一流期刊COMNET领域主编、TII编委、电子学报青年编委等职务。入选“全球前2%顶尖科学家”榜单。

戴海鹏教授当选IET Fellow，是对其在物联网、边缘计算等领域杰出贡献的重要认可，也是本实验室国际影响力和学术声誉的重要体现。我们祝贺戴教授获此殊荣，期待他在学术研究和人才培养方面取得更大成就！

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Sat, 11 Oct 2025 00:00:00 +0000

NeurIPS，全称Annual Conference on Neural Information Processing Systems，是机器学习领域的顶级会议，与ICML、ICLR并称为机器学习领域难度最大、水平最高、影响力最强的会议！NeurIPS是CCF 推荐A类会议、Core Conference Ranking推荐A类会议，H5 index高达278！NeurIPS是由连接学派神经网络的学者于1987年在加拿大创办，后来随着影响力逐步扩大，论文的主题主要以机器学习，人工智能和统计学为主。

6138太阳集团大模型中心有9篇论文被NeurIPS 2025录用

01

题目: Gated Integration of Low-Rank Adaptation for Continual Learning of Large Language Models

作者: Yan-Shuo Liang（梁宴硕），Jia-Rui Chen（陈嘉瑞），Wu-Jun Li（李武军）

单位: 6138太阳集团

摘要:

得益于大规模预训练所获得的丰富知识以及后续的精调策略，现有的大语言模型（LLMs）已经在广泛的任务上展现出卓越的性能。然而，当大语言模型按顺序学习多个下游任务时，往往会遗忘已学知识，导致旧任务性能显著下降，这一现象被称为灾难性遗忘。灾难性遗忘阻碍了大语言模型持续积累新知识，因此，设计能克服灾难性遗忘的持续学习方法至关重要。另一方面，低秩适应（LoRA）作为参数高效精调中最具代表性的方法之一，在大语言模型的持续学习中受到了广泛关注。 LoRA 通过将预训练权重重新参数化为低秩形式，仅需更新少量参数即可完成任务适配，相比全量参数更新，LoRA大幅提升了精调效率。然而，现有的基于LoRA的持续学习方法仍存在不足。它们通常在学习新任务时扩展新的LoRA分支并冻结旧分支，从而避免直接修改旧参数带来的遗忘。在推理过程中，这些方法通常采用简单加法来整合新旧分支。这种方式强制新旧分支在旧任务上贡献相等，反而可能导致新分支对旧任务产生较大干扰，加剧遗忘并降低整体性能。为此，本文提出了一种新的大语言模型持续学习方法GainLoRA（gated integration of low-rank adaptation）。GainLoRA 在每个新任务上扩展新的LoRA分支，并通过引入门控模块动态整合新旧分支。通过对新的门控模块施加初始化约束和更新约束，GainLoRA 显著降低了新LoRA分支对旧任务的干扰，有效缓解遗忘并提升大语言模型在持续学习中的整体性能。

图1

02

题目: StreamForest: Efficient Online Video Understanding with Persistent Event Memory

作者: Xiangyu Zeng (曾祥宇), Kefan Qiu (裘克凡), Qingyu Zhang (张庆宇), Xinhao Li (李新浩), Jing Wang (王婧), Jiaxin Li (李嘉辛), Ziang Yan (晏子昂), Kun Tian (田鲲), Meng Tian (田猛), Xinhai Zhao (赵鑫海), Yi Wang (王毅), Limin Wang (王利民)

单位: 6138太阳集团，上海人工智能实验室，浙江大学，华为诺亚实验室，Yinwang智能科技

摘要:

多模态大型语言模型近年来在视频理解领域取得了显著进展。然而，由于历史视觉特征的存储限制和实时时空推理能力的不足，它们在实时流媒体场景中的有效性仍然有限。为了应对这些挑战，我们提出了 StreamForest，这是一种专为流媒体视频理解而设计的全新架构。StreamForest 的核心是持久事件记忆森林 (Persistent Event Memory Forest)，这是一种记忆机制，可以自适应地将视频帧组织成多个事件级树状结构。该过程由基于时间距离、内容相似性和合并频率的惩罚函数引导，能够在有限的计算资源下实现高效的长期记忆保留。为了增强实时感知，我们引入了细粒度时空窗口 (Fine-grained Spatiotemporal Window)，它可以捕捉详细的短期视觉线索，从而改善当前场景的感知。此外，我们还提出了 OnlineIT，这是一个专为流媒体视频任务定制的指令调优数据集。OnlineIT 显著提升了 MLLM 在实时感知和未来预测方面的性能。为了评估其在实际应用中的泛化能力，我们引入了 ODV-Bench，这是一个专注于自动驾驶场景中实时流视频理解的全新基准测试。实验结果表明，StreamForest 达到了最佳性能，在 StreamingBench 上的准确率达到 77.3%，在 OVBench 上的准确率达到 60.5%，在 OVO-Bench 上的准确率达到 55.6%。尤其值得一提的是，即使在极端的视觉token压缩（限制为 1024 个token）下，该模型在八个基准测试中仍保持了 96.8% 的平均准确率（相对于默认8k设置）。这些结果强调了 StreamForest 在流视频理解方面的稳健性、效率和通用性。

图2

图3

03

题目: LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

作者: Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang

单位: 6138太阳集团，中国移动研究院

摘要:

当前视觉语言模型（VLMs）在长视频理解中表现受限：一方面依赖昂贵且稀缺的长视频标注，另一方面短上下文模型在扩展到长序列时容易忽视中间内容，并在长短任务间产生性能失衡。为此，我们提出 LongVPO —— 一种无需长视频标注的两阶段直接偏好优化框架。LongVPO 首先利用"锚定线索"从短视频片段中自动合成偏好数据，再在真实长视频上通过"自我推理"实现跨片段对齐，从而习得复杂的长程推理能力。仅依赖 16K 合成数据，LongVPO 即在 LVBench、LongVideoBench、MLVU、VideoMME 等基准上取得了优越的性能，并保持了对短视频任务的强大表现，为实现高效、可扩展的长视频理解提供了新范式。

图4

04

题目: Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

作者: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu

单位: 6138太阳集团，NVIDIA，香港理工大学，Rutgers University

摘要:

Eagle 2.5 是一系列为长上下文多模态理解设计的前沿视觉-语言模型（VLM）。现有 VLM 多集中于短上下文任务，对长视频理解和高分辨率图像处理支持不足。Eagle 2.5 提出了一套通用训练框架，核心包含两项关键技术：Automatic Degradation Sampling (ADS) 和 Image Area Preservation (IAP)，分别用于动态分配视觉与文本输入预算和在切分时尽量保持图像完整性。此外，作者引入了渐进式混合后训练策略，逐步扩展上下文长度，提升模型处理多样输入的稳定性。为支持训练，他们构建了新的 Eagle-Video-110K 数据集，提供故事级和片段级的双层标注，增强长视频理解能力。实验表明，Eagle 2.5 在多个长视频和图像理解基准上取得显著提升。例如，8B 参数规模的 Eagle 2.5 在 Video-MME 上以 512 帧输入达到 72.4%，性能接近 GPT-4o、Qwen2.5-VL-72B 等更大规模模型。模型在高分辨率图像理解任务中同样表现优异。综上，Eagle 2.5 通过创新的采样策略、渐进训练方法和大规模多层次数据集，实现了高效且强大的长上下文多模态理解能力，为未来高性能 VLM 的发展提供了有力方向。

图5

05

题目: VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

作者: 晏子昂，李新浩，何逸楠，岳政融，曾祥宇，王亚立，乔宇，王利民，王毅

单位: 浙江大学，上海人工智能实验室，6138太阳集团，中国科公司深圳先进技术研究院

摘要:

在多模态大语言模型中注入推理能力，是实现类人级感知与理解的关键。现有方法多依赖大语言模型的推理能力来分析已解析的视觉信息，却常受限于静态感知阶段。本文提出"视觉测试时缩放"（Visual Test-Time Scaling），通过在推理过程中进行迭代感知来增强多模态大语言模型的推理能力，通过在更新的文本预测的引导下，逐步细化对高置信度时空区域的关注，从而模仿人类的分层注意力机制。训练过程当中以强化学习配合时空监督信号，端到端优化推理路径。这些设计允许多模态大语言模型通过增加其感知计算能力来提升其性能。大量实验验证了多次感知方法在各种任务和基准测试中的有效性和泛化能力。我们新推出的 Videochat-R1.5 模型在涵盖视频对话、视频推理和时空感知的 15 多个基准测试中取得了显著的改进，与 Qwen2.5VL-3B 和 -7B 等稳健基线相比，平均提高了 5% 以上。

图6

06

题目: MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

作者: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang

单位: 6138太阳集团

摘要:

得益于扩散模型的发展，图像到视频生成技术已取得长足进步。然而，生成运动逼真的视频依然是一项艰巨的挑战。该挑战的核心在于精确建模运动的复杂性，这需要捕捉物理规律、物体交互和特定领域的运动模式，而这些先验知识难以在多样的场景间有效泛化。为此，我们提出了MotionRAG，一种检索增强生成框架。该框架通过上下文感知运动自适应（Context-Aware Motion Adaptation, CAMA）机制，从相关参考视频中提取并迁移运动先验，以提升生成视频的运动真实感。其核心技术创新在于：(1) 检索式运动表征提取：它利用视频编码器与重采样器从检索到的参考视频中提取语义级运动特征；(2) 基于"上下文学习"的运动自适应方法：通过因果Transformer架构从检索到的多个参考视频中高效学习并将运动模式迁移至目标场景；(3) 注意力运动注入适配器：将运动特征注入预训练的视频扩散模型，从而在增强运动真实性。大量实验证明，我们的方法在多个场景和各类基座模型上均取得了显著提升，且在推理阶段仅引入了可忽略不计的计算开销。此外，其模块化的设计支持对新领域的零样本泛化——仅需更新检索数据库，无需重新训练任何模型组件。本研究通过实现运动先验的高效检索与迁移，增强了视频生成系统的核心能力，为合成具有逼真动态效果的视频提供了新的范式。

图7

07

题目: Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving

作者: Yuchen Zhang(张宇晨), Hanyue Du(杜瀚跃), Chun Cao(曹春), Jingwei Xu(徐经纬)

单位: 6138太阳集团

摘要:

低秩适应（LoRA）已成为一种为大语言模型（LLMs）适配至下游任务而被广泛采用的参数高效微调（PEFT）技术。尽管此前的诸多研究探索了统一大语言模型训练与服务的策略，但针对基于LoRA的模型的统一微调与推理方面的领域仍然有待探索。本文提出了Loquetier——一个虚拟化的多LoRA框架，可在单一运行时环境中无缝集成LoRA微调与推理服务。Loquetier主要包含两个部分：(1) 虚拟化模块，用于隔离基于PEFT的模型修改，并支持在共享的单个基础模型上部署多种适配器；(2) 一个优化后的、带有融合了前向传播中微调与推理路径的内核设计的计算流，实现了高效批次处理并最小化内核调用开销。在三类任务场景的广泛实验中，Loquetier在性能与灵活性方面均显著超越现有基线：在仅推理任务中吞吐量达顶尖协同服务系统的3.0倍，在统一微调与推理任务中实现比PEFT高46.4倍的服务水平目标达成率。

图8

08

题目: 3D Interaction Geometric Pre-training for Molecular Relational Learning

作者: Namkyeong Lee, Yunhak Oh，Heewoong Noh，Gyoung S. Na，Minkai Xu，Hanchen Wang，Tianfan Fu，Chanyoung Park

单位: KAIST，KRICT，Stanford University，Genentech，6138太阳集团

摘要:

在药物发现与材料科学中，准确预测分子间相互作用至关重要。然而，现有分子关系学习方法大多局限于使用分子的二维拓扑结构，而忽略了决定相互作用本质的三维空间几何信息，这主要是因为获取精确的三维相互作用构象成本极其高昂。为了突破这一瓶颈，本文提出了3DMRL，一个创新的三维几何预训练框架。该框架的核心在于，它不再依赖昂贵的计算来获取真实交互构象，而是通过构建一个"虚拟交互环境"来模拟分子在三维空间中的接触方式，即通过随机采样与平移旋转，将多个小分子布置在一个大分子周围。在此基础上，我们设计了双重预训练任务，引导二维模型学习此虚拟环境中的三维几何信息：其一是通过对比学习，让模型理解相互作用的全局几何结构；其二是通过一个等变网络，让模型预测分子间精细的局部相对几何关系，从而捕捉原子级别的相互作用细节。大量实验表明，3DMRL能显著提升多种主流模型在分子相互作用预测与药物-药物相互作用预测等任务上的性能，在40个任务中最高实现了24.93%的性能提升，并在分布外场景下展现出卓越的泛化能力。这项工作首次为分子关系学习领域系统性地引入了三维几何预训练，为开发更精准、更通用的AI辅助科学发现工具奠定了坚实基础。

图9

09

题目: EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

作者: Yuping He, Yifei Huang, Guo Chen, Baoqi Pei, Jilan Xu, Tong Lu, Jiangmiao Pang

单位: 6138太阳集团，上海人工智能实验室，东京大学，浙江大学，复旦大学

摘要:

人类智能能够在第一人称（egocentric）与第三人称（exocentric）视角之间自然地转移与整合知识，这对学习与交流至关重要。然而，当前多模态大语言模型（MLLMs）虽然在单一视角的视频理解上取得了显著进展，但尚缺乏在跨视角推理上的系统性评估。为此，本文提出了 EgoExoBench ——首个用于评估 MLLMs 在第一人称与第三人称视频理解和推理能力的基准。

EgoExoBench 基于公开数据集构建，包含 7300+ 多选题（MCQ），覆盖 11 个子任务，分为三大挑战：语义对齐（semantic alignment）、视角转换（viewpoint association）、时间推理（temporal reasoning）。任务设计涵盖从任务、动作、物体到人物层面的匹配，以及跨视角的空间对应和事件顺序推理。

研究团队对 13 个主流开源与闭源 MLLMs（如 GPT-4o、Claude 3.7 Sonnet、Qwen2.5-VL、InternVL3 等）进行了系统评估。结果显示，这些模型在单视角任务中表现良好，但在跨视角任务上表现显著下降。例如，最优的开源模型 Qwen2.5-VL-72B 在整体准确率上仅达到 47%，而人类在同样任务中的准确率超过 90%。进一步实验表明，链式思维（CoT）提示并未提升性能，甚至在部分任务上降低了准确率，显示出跨视角推理对现有模型仍是重大挑战。

综上，EgoExoBench 提供了一个系统性、可扩展的评测框架，有助于推动具备类人跨视角智能的具身智能体与人机协作系统的发展。

图10

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 19 Sep 2025 00:00:00 +0000

近日，在2025 Inclusion外滩大会上，“2025蚂蚁Intech奖"正式揭晓。10位青年科学家获"蚂蚁Intech科技奖”。同时，10位来自全球顶尖学府的中国籍在读博士生获"蚂蚁Intech奖学金"。其中，我中心王利民教授获得了2025蚂蚁Intech科技奖。

2025蚂蚁Intech奖是由蚂蚁科技集团股份有限公司设立的奖项，面向计算机科学领域的优秀青年学者与在读博士生提供公益性科研资金支持，设立"蚂蚁Intech科技奖"和"蚂蚁Intech奖学金"两大核心奖项。

图：2025蚂蚁Intech科技奖颁奖

中国工程院院士、浙江大学教授陈纯，美国国家工程院外籍院士张宏江，中国工程院院士、清华大学教授郑纬民等学界权威亲临颁奖。美国科公司、工程院、艺术与科公司三院院士Michael I.Jordan，图灵奖获得者、美国国家工程院院士、美国田纳西大学电气工程和计算机科学系教授Jack Dongarra通过视频寄语青年学者：“科研之路未必平坦，但你们今日探索的问题将定义未来技术与机遇。请大胆求真，你们的研究终将影响世界。”

据了解，本届获奖者在通用人工智能（AGI）、具身智能、数字医学、数据安全等前沿方向展现出卓越创新能力，成果被业界广泛采用。王利民教授因在通用人工智能方面的重要贡献而获奖，获奖理由：开发了首个领先通用视频理解大模型InternVideo（下载量超500万），并提出了"渐进式训练"方法，让AI像人类分层理解动态世界，赋能自动驾驶等场景。

图：王利民教授参加2025蚂蚁Intech科技奖颁奖典礼圆桌论坛

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Tue, 12 Aug 2025 00:00:00 +0000

ICCV（International Conference on Computer Vision）是计算机视觉领域最具影响力的国际顶级学术会议之一，由IEEE计算机学会主办，每两年举办一次，与CVPR、ECCV并称三大视觉会议。会议涵盖图像处理、目标检测、三维重建、视频理解、视觉与语言等前沿研究方向，是全球科研人员展示最新成果、交流思想的重要平台。ICCV的论文录用标准极高，代表了计算机视觉领域的最新技术趋势与研究热点。

6138太阳集团大模型中心有7篇论文被ICCV 2025录用。

01

题目： MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

作者： Min Yang, Zihan Jia, Zhilin Dai, Sheng Guo, Limin Wang

单位： 6138太阳集团，蚂蚁集团

论文简介：

尽管大型模型在越来越多的视觉任务中取得了良好的效果，但高效的轻量级神经网络由于其更快的推理速度和更易于在移动设备上部署而受到越来越多的关注。然而，现有的视频模型仍然侧重于更大的ViT架构，很少有研究尝试构建高效的架构。鉴于许多高效的对比语言图像预训练 (CLIP) 模型已经展现出强大的零样本分类和检索能力，我们尝试填补视频文本理解模型的空白，并提出了一个快速高效的视频文本模型MobileViCLIP，它具有强大的零样本推理能力，可部署在移动设备上。具体而言，我们的MobileViCLIP在多个文本-视频检索数据集和零样本视频分类数据集上的性能堪比主流的ViT模型，同时将部署在移动设备上时的推理速度提升数十倍。综上所述，MobileViCLIP着眼于视频文本模型在效率方面的改进非常重要，这对该领域而言是宝贵的贡献。

02

题目： p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

作者： Jun Zhang (张峻), Desen Meng (孟德森), Zhengming Zhang (张拯明), Zhenpeng Huang (黄振鹏), Tao Wu (吴涛), Limin Wang (王利民)

单位： 6138太阳集团，中国移动研究院

论文简介：

尽管多模态大模型（MLLMs）在各种下游任务上表现出色，但其巨大的训练和推理成本阻碍了其进一步发展。造成过大的计算开销的主要原因是：LLM需要处理海量的视觉token。本文提出了p-MoD，一种高效的MLLM架构，在保证模型性能不变的同时，大幅降低其训练和推理时的计算开销。为了减少每一个LLM Transformer层处理的视觉token数量，p-MoD引入了混合深度（Mixture-of-Depths, MoD）机制来构建高效的MLLMs，该机制在每个Transformer层中选择处理关键的视觉tokens进行处理，跳过冗余的tokens。然而，将MoD机制集成到MLLMs中并非易事。为了解决训练和推理稳定性的问题，并应对训练数据有限的挑战，p-MoD对MoD模块进行了结构改进与创新，设计了Tanh门控的权重归一化（TanhNorm）和对称的tokens重加权 (STRing) 解决了上述挑战。更进一步地，本文通过探究实验观察到视觉tokens在更深层中表现出更高的冗余度，因此设计了一种渐进式比率衰减（Progressive Ratio Decay, PRD）策略，逐层逐渐降低MoD机制保留tokens的比例。这一关键设计充分释放了MoD的潜力，显著提升了模型的效率和性能。在15个基准测试中，对LLaVA-1.5和LLaVA-NeXT两个基线模型进行的实验表明，p-MoD 以55.6%的推理TFLOPs，53.7%的KV Cache存储和77.7%的GPU训练时长，得到了匹配甚至超越基线模型的性能。

03

题目： Scalable Image Tokenization with Index Backpropagation Quantization

作者： Fengyuan Shi (石丰源), Zhuoyan Luo (罗卓彦), Yixiao Ge (葛艺潇), Yujiu Yang (杨余久), Ying Shan (单瀛), Limin Wang (王利民)

单位： 6138太阳集团，清华大学，腾讯

论文简介：

现有的向量量化（VQ）方法在扩展性方面存在困难，主要原因在于训练过程中仅部分更新的代码本易发生不稳定，随着非激活代码与视觉特征之间分布差距的不断扩大，代码本的利用率下降，最终导致崩溃。为了解决这一问题，我们提出了一种新的VQ方法——Index Backpropagation Quantization（IBQ），能够联合优化所有代码本嵌入向量和视觉编码器。通过在编码特征与代码本之间的one-hot类别分布上应用直通估计器（straight-through estimator），IBQ使所有代码都具备可微性，并保持与视觉编码器一致的潜在空间。IBQ实现了视觉tokenizer的可扩展训练，并首次在高维（256）条件下实现了大规模（2¹⁸）且高利用率的代码本。在标准的ImageNet基准上，我们验证了IBQ的扩展能力和优越性能，在图像重建和自回归视觉生成任务上均取得了有竞争力的结果。

04

题目： Make Your Training Flexible: Towards Deployment-Efficient Video Models

作者： 王晨汀，黎昆昌，姜天翔，曾祥宇，王毅，王利民

单位： 上海人工智能实验室，上海交通大学，中国科学与技术大学, 6138太阳集团

论文简介：

当前主流的视频训练方法通常基于固定时空分辨率的时空采样网格（Sampling Grid）提取固定长度的视觉令牌作为输入，导致模型训练与推理过程严重受限于预设的采样策略。这种刚性设计使得模型难以适应下游任务中不同的计算预算需求——尤其在高计算资源场景下训练出的高性能 Video 模型，在端侧设备等资源受限环境中往往无法直接高效部署。为解决这一问题，我们提出了一种全新的训练范式，旨在实现“全场景无损适配”：既能保持模型在高计算资源下的最优性能，又能使其在端侧低资源环境下实现无损迁移。为此，我们首次提出“令牌优化”（Token Optimization, TO），一种自适应推理框架，通过动态采样与智能令牌选择，使模型能够根据下游计算限制自动优化输入令牌集，最大化信息利用率。基于此目标，我们创新性从训练端地开发了名为 Flux 的数据增强工具，通过实现灵活可变的采样网格并结合令牌选择机制，能够无缝适配主流视频训练框架，以近乎零额外成本显著提升模型鲁棒性和下游的灵活性，使得训练出的单一模型可以在各种计算量限制下自适应推理。我们将 Flux 整合至大规模视频预训练流程，所得模型 FluxViT 在标准计算成本下于多项任务中创造了最新性能纪录。尤为突出的是，在 1/4 令牌量的限制下时，经令牌优化的 FluxViT 仍能媲美先前最优的 InternVideo2 系列模型的性能，实现近 90%的无损计算资源节省。

05

题目： VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

作者： 于家硕，吴越，褚蒙，任志斐，黄子政，储培，张瑞杰，何逸楠，李奇睿，李松泽，Zhenxiang Li，涂中英，何聪辉，乔宇，王亚立，王毅，王利民

单位： 上海人工智能实验室，6138太阳集团，中国科公司深圳先进技术研究院

论文简介：

我们推出 VRBench——首个专为评估大模型多步推理能力而构建的长篇叙事视频基准测试，解决了现有评估方法忽视时序推理与流程有效性的局限。该基准包含 1,010 条长视频（平均时长 1.6 小时）、9,468 个人工标注的多步问答对，以及 30,292 个带时间戳的推理步骤。这些视频通过包含专家交叉评审的多阶段筛选流程进行收集，重点确保剧情连贯性和情节复杂度。我们开发了一套人机协同框架来生成连贯的推理链，每条推理链均需包含多个带时间戳的推理步骤，涵盖事件归因、隐性推理等七种类型。VRBench 设计了多阶段评估管道，从结果和过程两个层面评估模型性能：除采用选择题评估最终结果外，我们创新性地提出 LLM 引导的过程性评分指标，从多维度全面评估推理链质量。通过对 12 个 LLM 和16 个 VLM 在 VRBench 上的广泛测试，我们开深入分析了现有模型对长视频多步推理能力的不足，并提供了多方面建议。

06

题目： Divide-and-Conquer for Enhancing Unlabeled Learning, Stability, and Plasticity in Semi-supervised Continual Learning

作者： Yue Duan (段岳), Taicai Chen (陈泰财), Lei Qi (祁磊), Yinghuan Shi (史颖欢)

单位： 6138太阳集团, 东南大学

链接： https://arxiv.org/abs/2508.05316, https://github.com/NJUyued/USP4SSCL

论文简介：

半监督持续学习（Semi-supervised Continual Learning, SSCL）旨在从仅有部分数据被标注的连续任务序列中学习，这极具现实意义但挑战重重。其核心挑战在于有效利用无标签数据，同时平衡模型的“记忆稳定性”（不遗忘旧知识）与“学习可塑性”（学习新知识）。现有方法往往孤立地解决其中一两个问题，难以兼顾全局。针对此，本文提出了一个名为USP的“分而治之”的协同框架，通过三个相互关联的模块，系统性地增强无标签学习（Unlabeled Learning）、记忆稳定性（Memory Stability）和学习可塑性（Learning Plasticity）。在增强可塑性方面，我们提出了特征空间预留（FSR）策略。该策略利用等角紧框架（ETF）为未来的新类别预先在特征空间中保留位置，从而在学习新任务时避免与旧类别的特征产生冲突。在无标签学习方面，我们设计了分治伪标签（DCP）方法。该方法将无标签数据分为高置信度和低置信度两部分，并分别采用分类器和更稳健的最近类均值（NCM）进行伪标签分配，从而充分利用所有数据，提高了伪标签的准确性。在维持稳定性方面，我们提出了类均值锚定无标签蒸馏（CUD）。该方法巧妙地复用DCP的中间结果，将无标签数据锚定到由有标签数据计算出的稳定类中心上进行知识蒸馏，有效缓解了模型在无标签数据上的灾难性遗忘。大量实验表明，USP框架显著优于当前SOTA方法，在最终任务准确率方面最高提升5.94%。

07

题目： Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild

作者： Haoran Wang (王皓冉), Zekun Li (李泽昆), Jian Zhang (张剑), Lei Qi (祁磊), Yinghuan Shi (史颖欢)

单位： 6138太阳集团, 东南大学

链接： https://arxiv.org/abs/2508.07759，https://github.com/wanghr64/cav-sam

论文简介：

大型视觉模型（如SAM）在处理新领域、新类别的下游分割任务时性能会显著下降。参考分割（Reference Segmentation）利用带标注的参考图像来引导模型分割目标图像，是一个很有前景的解决方案。然而，现有方法大多依赖于元学习（Meta-learning），需要大量的训练数据和计算资源。针对此，本文提出了一种名为CAV-SAM的全新范式，其核心思想是将参考图像与目标图像之间的“对应关系”巧妙地转化为一段“伪视频”。这使得为视频任务设计的最新模型SAM2，仅通过轻量级的测试时微调，就能高效地适应下游分割任务，完全避免了高成本的元学习过程。该框架主要包含两个模块：基于扩散的语义过渡 (DBST): 为解决参考与目标图像间同一类别、不同实例导致的“语义差异”问题，该模块利用扩散模型生成一个从参考图像到目标图像的平滑语义过渡序列（即伪视频）。测试时几何对齐 (TTGA): 为应对目标物体在姿态、大小上的“几何变化”挑战，该模块在测试时仅使用参考图像，通过一种新颖的“增强循环一致性”损失对SAM2进行轻量化微调。优化后的模型能为伪视频序列生成更精准的提示，从而更好地对齐几何变化。大量实验证明，CAV-SAM无需元学习，其性能却远超当前SOTA方法，在多个数据集上平均性能提升约5%。

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Fri, 18 Jul 2025 00:00:00 +0000

ICML（International Conference on Machine Learning，简称ICML）是机器学习与人工智能领域的国际顶级学术会议，是机器学习领域历史最悠久的、规模最大、影响最广的顶级学术会议之一，也是中国计算机学会CCF推荐的A类会议。

6138太阳集团大模型中心有4篇论文被ICML 2025录用。

01

题目： On the Tension between Byzantine Robustness and No-Attack Accuracy in Distributed Learning

作者： Yi-Rui Yang（杨亦锐）, Chang-Wei Shi（史长伟）, Wu-Jun Li（李武军）

单位： 6138太阳集团

链接： /lwj/paper/ICML2025_NFLinBRDL.pdf

论文简介：

分布式机器学习是人工智能大模型和大数据分析的核心支撑技术，近年来已经成为学术界和工业界广泛关注的热门课题。分布式机器学习的目的是利用多个相互连接的设备（节点）的算力以及存储的数据训练一个机器学习模型。传统的分布式机器学习方法往往假设工作节点不会出现故障或受到恶意攻击。近年来，随着训练数据规模和机器学习模型（大模型）规模不断增大，所需要的计算集群规模也在不断增大。相比小规模集群，大规模集群出现各类软硬件故障的概率显著增大，例如，据Meta发布的训练LLaMa 3.1的技术文档报道，在包含16384块GPU的集群上训练LLaMa 3.1 405B模型，平均每3小时会出现一次意外故障，其中78%的意外故障已确认或怀疑是硬件故障。另一方面，相比基于数据中心集群的分布式机器学习，在联邦学习等基于开放网络的分布式机器学习中，节点受到各类恶意攻击的可能性显著增加。出现故障或者受到恶意攻击的节点被称为拜占庭（Byzantine）节点。大部分已有的分布式机器学习方法在设备出现故障或受到恶意攻击时会失效。在设备出现故障或受到恶意攻击时仍然能正常工作的分布式机器学习称为拜占庭鲁棒的分布式机器学习。近年来，拜占庭鲁棒的分布式机器学习受到了越来越多的关注。现有的拜占庭鲁棒的分布式机器学习方法普遍采用鲁棒聚合器以抵御拜占庭节点的攻击（故障）。然而在实际应用中，拜占庭节点并非始终存在。据我们所知，目前尚无理论研究探讨无拜占庭节点时使用鲁棒聚合器的影响。针对这一问题，我们从理论上分析了无拜占庭攻击（故障）场景下鲁棒聚合器的聚合误差。我们证明了，当实际并不存在拜占庭节点时，鲁棒聚合器的最大聚合误差与其可容忍的拜占庭节点数量正相关。该理论结果揭示了拜占庭鲁棒性与无故障（攻击）准确度之间的内在矛盾。进一步地，我们分别针对非凸目标函数和满足Polyak-Łojasiewicz （PL）条件的目标函数，给出了采用鲁棒聚合器的梯度下降法的收敛速率下界，并证明了该下界的紧致性。该收敛速率下界同样反映出拜占庭鲁棒性与无故障（攻击）准确率之间的内在矛盾。实验数据进一步验证了我们的理论发现。该研究为实际应用中的分布式机器学习（尤其是大模型分布式训练）提供了理论指导和工程调优方向。例如，在基于大规模集群训练大模型时，在训练到达收敛点（最优值）前的大量迭代（epoch）中，可以采用拜占庭鲁棒的学习算法（鲁棒聚合器），从而避免因设备出现故障而导致训练过程的崩溃和反复重启，提升训练过程的精度和效率；在训练接近收敛点（最优值）时的极少量迭代（epoch）中，在确保集群中没有故障的前提下，切换到非拜占庭鲁棒的学习算法（如常用的平均聚合器），进一步提升精度；整个过程可以实现在保证精度的前提下，提升大模型训练速度，降低训练成本。本文被ICML 2025录用为Spotlight（所有投稿论文的2.6%，所有录用论文的9.6%）。

02

题目： Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training

作者： Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang

单位： 6138太阳集团，上海创智公司，中国移动研究院，上海人工智能实验室

链接： https://arxiv.org/abs/2408.17081

论文简介：

Vision Mamba（Vim）模型因其近线性计算复杂度在视觉数据处理中展现出巨大潜力，尤其会提升高分辨率图像和长视频的处理效率，但其训练方法，特别是大规模模型的训练，常因过拟合、训练流程复杂等问题而受限，在标准视觉基准上的性能与领先视觉Transformer（ViT）模型也存在明显差距。为了改善Vim的训练流程，本文提出了一种新颖的即插即用正则化方法——随机分层打乱（Stochastic Layer-Wise Shuffle, SLWS）。该方法的核心思想是，在训练过程中对每层的输入令牌（token）序列进行随机打乱，且对于模型各层的输入序列打乱的概率随网络深度线性增加，最后在输出时恢复为原序列顺序。如此一来，训练能够促使深层网络学习到具有位置不变性的高阶语义信息，而浅层网络则保留对低阶信息的位置敏感性，而且序列的打乱操作增加了模型对于输入数据预测的难度，从而可以缓解过拟合问题。SLWS作为一种训练正则化方式，无需修改模型架构，且在推理阶段不再被激活从而不产生任何额外开销。该方法促使模型深层和浅层具有不同的感知先验，实验证明，其不仅有效缓解了Vim模型的过拟合问题，成功支持了原先可能会崩溃的大模型进行稳定训练，在朴素监督学习范式下为不同规模的Vim模型带来明显性能提升。此外，当SLWS以CLIP模型特征作为监督信号进行掩码特征蒸馏预训练时，所得到的Vim-Huge模型在ImageNet-1K上取得了87.6%的微调准确率，为Vision Mamba模型在该基准的训练中树立了新的SOTA。

03

题目： Elucidating the Design Space of Multimodal Protein Language Models（ICML spotlight）

作者： Xinyou Wang* （王辛有）, Cheng-Yen Hsieh*, Daiheng Zhang（张代恒）, Dongyu Xue （薛东雨）, Fei Ye（叶菲）, Shujian Huang（黄书剑）, Zaixiang Zheng （郑在翔）, Quanquan Gu（顾全全）

单位： 6138太阳集团，罗格斯大学，字节跳动

链接： https://arxiv.org/abs/2504.11454

论文简介：

论文简介：

背景：蛋白质是由氨基酸序列折叠成特定空间结构的生物大分子，基于 AI 助力蛋白质建模与设计是当前 AI for Science 中的最重要的研究方向之一。2024 年的诺贝尔化学奖颁发给了 DeepMind 的 AlphaFold，该成果基于 AI 解决了结构生物学中困扰了 50 年的蛋白质折叠和结构预测问题，逐渐应用于药物设计（如抗体开发）、酶工程和疾病治疗等场景中。蛋白质氨基酸序列与自然语言的数据形式具有内在的相似性。受此启发，6138太阳集团自然语言处理组与字节跳动 ByteDance Research 紧密合作，近年来在基于生成式AI的蛋白质建模与生成中持续探索，相关系列工作 DPLM（一种通用的扩散蛋白质语言模型）和 DPLM-2（多模态的蛋白质基座模型）已分别发表在ICML 2024 和 ICLR 2025，本文是该系列工作的最新进展。代码开源地址：https://github.com/bytedance/dplm，项目主页：https://bytedance.github.io/dplm/。

多模态蛋白质语言模型（Multimodal PLM）能够同时建模和生成蛋白质的结构和序列，为广泛的蛋白质设计任务奠定了坚实基础。蛋白质的序列由氨基酸 token 组成，在我们的前期工作 DPLM 中，我们采用 discrete diffusion 的建模方式，并取得了良好的效果。蛋白质的结构信息是以坐标形式表示的连续数据类型，建模时需要将其离散化成结构 token，再与序列信息联合。我们认为现有多模态蛋白质语言模型的结构建模存在三个重要的挑战：1）对连续坐标的离散化会引入信息损失，从而导致蛋白质结构的细粒度信息丢失；2）离散的结构 token 无法准确体现局部结构特征的内在关联，对预测的准确度带来较大的挑战；3）缺少蛋白质结构的几何关系建模，导致难以准确捕捉残基在三维空间中复杂的交互关系。

为此，我们针对性提出了解决方案： 1）采用更精确的针对蛋白结构的生成式建模方式，提升了结构预测的准确度。2）利用显式的蛋白质结构的几何信号监督，通过引入几何模块和表征对齐，提升了蛋白质结构的几何关系建模能力。实验结果显示，本文提出的技术方案显著提升了多模态蛋白质语言模型的结构生成表现，对于蛋白质折叠任务的RMSD（结构预测误差指标）从 5.52 降低至 2.36 ，与专门的蛋白质折叠模型 ESMFold 持平；在无条件蛋白质生成中，采样多样性提升约30%，改善了之前采样多样性较差的问题，同时保证采样蛋白的质量。

04

题目： Differentiable Solver Search for Fast Diffusion Sampling

作者： Shuai Wang（王帅）, Zexian Li（李泽贤）, Qipeng Zhang（张启鹏）, Tianhui Song（宋天慧）, Xubin Li（李旭斌）, Tiezheng Ge（葛铁铮）, Bo Zheng（郑波）, Limin Wang（王利民）

单位： 6138太阳集团，阿里

链接： https://arxiv.org/abs/2505.21114

论文简介：

论文简介：

扩散模型在生成质量上表现卓越，但这一优势的背后是大量的模型推理成本。近年来，基于常微分方程（ODE）的高级求解器应运而生，其核心目标是在有限采样步骤下，降低反向扩散求解过程中的巨额计算开销。不过，这类求解器受类Adams线性多步法的启发较深，仅依赖于与时间相关的拉格朗日插值。研究发现，与时间相关的拉格朗日插值并非扩散模型的最优选择，我们由此揭示出一个包含时间步长与求解器系数的紧凑搜索空间。基于这一分析，我们提出了一种新颖的可微分求解器搜索算法，旨在筛选出更优的求解器。实验表明，配备该搜索所得求解器后，FlowMatching模型（如SiT-XL/2和FlowDCN-XL/2）在ImageNet-256×256数据集上仅需10步，便分别取得2.40和2.35的FID分数；与此同时，DDPM模型DiT-XL/2在同样10步的条件下，FID分数达到2.33。值得关注的是，我们所搜索到的求解器性能显著优于传统求解器（甚至部分蒸馏方法），且在不同模型架构、分辨率及模型规模下均展现出良好的通用性。

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Wed, 30 Apr 2025 00:00:00 +0000

CVPR（计算机视觉和模式识别会议）是国际上最具影响力的年度学术会议之一，专注于计算机视觉、模式识别及相关领域的前沿研究。每年，它汇聚了全球顶尖的研究人员、学者及工业界人士，共同探讨最新的技术进步与创新应用。会议内容广泛，包括图像处理、机器学习、三维重建、视频分析等众多主题。所有提交的论文都需经过严格的同行评审过程，确保展示的研究成果具有高度的原创性和学术价值。在2024年谷歌学术指标（Google Scholar Metrics）中，CVPR在全球所有期刊和会议中排名第二，仅次于Nature。

6138太阳集团大模型中心有12篇论文被CVPR 2025录用。

01

题目： UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming

作者： Hao Lin (林昊), Ke Wu (吴轲), Jie Li (李杰), Jun Li (李俊), Wu-Jun Li (李武军)

单位： 6138太阳集团

链接： https://arxiv.org/abs/2307.16375

论文简介： 大模型的训练往往需要多机多卡的分布式训练。大模型的分布式训练挑战巨大，即使硬件足够，很多人大概率（我们实验中验证有64%-87%的概率）会因为超参数设置（模型怎么切分和排布、数据怎么切分和排布等）不合理而跑不出结果。此外，很多人在碰到大模型训练慢时只会想到增加GPU等硬件，而忽略了或者没意识到分布式训练算法的作用。实际上，分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型，高效能分布式训练算法会比低效能分布式训练算法速度快，最高可能会快数倍甚至数十倍以上；或者说，训练同一个模型，高效能分布式训练算法会比低效能分布式训练算法成本低，最高可能会节省数倍甚至数十倍以上的算力成本。很多已有的分布式训练算法的效能较低，甚至可能导致机器和GPU卡越多、训练速度越慢的结果。在本文中，我们研发了高效能分布式训练算法UniAP并基于UniAP研发了相应的大模型分布式训练平台和框架。UniAP是首个能实现层类并行策略（张量并行等）和层间并行策略（流水线并行等）联合优化的工作。给定模型和硬件平台，UniAP能够通过自动搜索找到高效能的分布式训练方案，既解决了效率和成本问题（我们实验中，比已有的最好方法最高快3.8倍，比不采用并行策略优化的算法最高快9倍），也解决了很多人在大模型分布式训练时因为超参数设置（模型怎么切分和排布、数据怎么切分和排布等）不合理而跑不出结果的问题。我们还实现了UniAP跟国产AI计算卡的适配。相关工作为大模型训练的降本增效提供了核心技术和（国产）平台。本文被CVPR 2025录用为Oral（所有投稿论文的0.7%，所有录用论文的3.3%）。

02

题目： Balanced Direction from Multifarious Choices: Arithmetic Meta-Learning for Domain Generalization

作者： Xiran Wang（王曦染）, Jian Zhang（张剑）, Lei Qi（祁磊）, Yinghuan Shi（史颖欢）

单位： 6138太阳集团、东南大学

链接： https://arxiv.org/abs/2503.18987

论文简介： 领域泛化旨在应对源域（训练集）与未见目标域（测试集）之间由于分布差异所引发的迁移挑战。目前广泛采用的一阶元学习方法基于梯度对齐理论，通过在多个源域之间寻找平衡参数，有效缓解了模型对单一域的过拟合，展现出良好的泛化能力。然而，我们的研究发现：能够推导出梯度对齐的优化路径并非唯一，现有方法实际上仅探索了其中的一种方向。更重要的是，梯度对齐理论虽强调方向的一致性，却忽略了模型最终在参数空间中收敛位置的讨论。理想的平衡参数应更接近各源域最优解的质心位置。为此，本文提出一种简洁而高效的等差算数元学习（Arithmetic Meta-Learning）策略。该方法在遵循梯度对齐原则的基础上，首次将参数平均思想引入元学习，设计出基于等差梯度的优化策略，用以模拟源域最优参数质心的估计过程，同时保持梯度方向的一致性。无需引入额外的专家网络或显式正则项，Arith仅通过简单的加权策略，便可在多个基准数据集上实现良好的泛化性能。

03

题目： Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation

作者： Qinghe Ma（马庆贺）, Jian Zhang（张剑）, Zekun Li（李泽昆）, Qian Yu（于谦）, Lei Qi（祁磊）, Yinghuan Shi（史颖欢）

单位： 6138太阳集团、东南大学

链接： https://arxiv.org/abs/2503.16997

论文简介： 大规模预训练的视觉基础模型展现出出色的通用能力。然而，当将这些模型适配到特定领域的下游任务时，其固有的海量先验知识可能成为一把“双刃剑”。在存在分布不一致的医学图像分割场景中，MedSAM等基础模型往往会产生过度自信的预测，其中部分预测存在错误。这种错误积累会阻碍未标注数据的有效利用，限制模型性能的进一步提升。本文提出一种基础模型与传统模型的协同训练框架（SynFoC）来解决该问题。课题组发现，从头开始训练的传统模型能够修正基础模型的高置信度错误预测，而基础模型在训练早期阶段可为传统模型提供高质量的伪标签监督。具体地，该方法1）充分利用基础模型强大的泛化能力，避免传统模型在少量标注样本上的过拟合风险；2）同时借助传统模型的稳健自纠正能力，引导基础模型纠正高置信错误预测，动态平衡两模型在不同训练阶段的主导地位。在方法层面，通过引入Self-Mutual Confidence（SMC）动态评估模块，度量来自传统模型的伪标签质量，动态调整两模型伪标签的融合权重。同时，基于共识-分歧的一致性约束进一步增强了两模型的协同表征能力。实验结果表明，所提出的方法表现均优于现有其他方法。

04

题目： Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting

作者： Maochen Yang（杨茂琛）, Zekun Li（李泽昆）, Jian Zhang（张剑）, Lei Qi（祁磊）, Yinghuan Shi（史颖欢）

单位： 6138太阳集团、东南大学

链接： https://arxiv.org/abs/2503.17984

论文简介： 人群计数为计算机视觉、模式识别中的重要应用，其在智慧城市、公共安全等领域至关重要。然而精确标注大量数据成本高昂。半监督人群计数旨在利用易于获取的无标签数据，但如何有效利用这些数据仍是挑战。针对现有方法在数据增强适用性和模型全局上下文捕捉能力上的局限，本研究提出了一个名为TMTB (Taste More Taste Better) 的新框架。该框架从“数据”和“模型”两方面入手：本研究设计了一种特别适用于人群计数任务的Inpainting Augmentation技术。通过利用扩散模型对图像背景进行修复式生成，该技术能在不破坏前景人群结构完整性的前提下，有效增加训练数据的多样性，并设计了机制过滤不可靠的生成区域。本研究引入了视觉状态空间模型 (Visual State Space Model, VSSM) 作为骨干网络。VSSM能以线性复杂度有效捕捉全局上下文信息，尤其适用于处理极端拥挤、低光照或恶劣天气等复杂场景。此外，本研究还加入了一个抗噪声分类头，它提供相对模糊但更鲁棒的区间计数监督信号，有效缓解了回归头对标注噪声敏感的问题。本研究在多个主流数据集上进行了广泛实验。结果表明，TMTB在不同标注比例（如5%, 10%, 40%）下均显著超越了现有SOTA方法。特别地，在仅用5%标注数据的JHU-Crowd++数据集上，本研究将MAE首次降至70以下，达到67.0。同时，TMTB在跨域泛化任务上也展现出优异性能。

05

题目： AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual Learning

作者： Yuheng Xu (许煜恒), Shijie Yang (杨世杰), Xin Liu (刘鑫), Jie Liu (刘杰), Jie Tang (唐杰), Gangshan Wu (武港山)

单位： 6138太阳集团

链接： https://arxiv.org/abs/2503.01565

论文简介： 近年来，高分辨率屏幕（Hi-DPI）的日益普及推动了对高清图像的需求增长。然而，边缘设备有限的计算能力给复杂超分辨率神经网络的部署带来了挑战，这凸显了对高效方法的迫切需求。尽管先前的研究已取得显著进展，但尚未充分挖掘像素级信息。此外，这些方法依赖固定采样模式，既限制了精度，也制约了对低分辨率图像细微特征的捕捉能力。为应对这些挑战，我们提出了两个即插即用模块，旨在基于查找表（LUT）的超分辨率网络中高效捕获并利用像素信息。我们的方法首创了自动采样（AutoSample）技术，这是一种灵活的LUT采样方案——采样权重在训练过程中自动学习，既能适应像素变化，又可扩展感受野且不增加推理成本。同时，我们采用自适应残差学习（AdaRL）来增强层间连接，促进细节信息流动，从而提升网络重建精细特征的能力。该方法在保持存储空间相近的情况下，为MuLUT和SPF-LUT模型均带来显著性能提升：对于MuLUT模型，在五个数据集上平均获得约+0.20 dB的PSNR提升；对于SPF-LUT模型，在存储空间减少超50%、推理时间缩短约三分之二的情况下，仍保持与原模型相当的复原效果。

06

题目： CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

作者： Xin Liu (刘鑫), Jie Liu (刘杰), Jie Tang (唐杰), Gangshan Wu (武港山)

单位： 6138太阳集团

链接： https://arxiv.org/abs/2503.06896

论文简介： 基于Transformer的方法在图像超分辨率（Image Super-Resolution, SR）等低级视觉任务中表现出了卓越的性能。然而，随着空间分辨率的提高，其计算复杂度呈平方级增长。为缓解该问题，已有一系列研究尝试将低分辨率图像划分为局部窗口、轴向条带或空洞窗口进行处理。SR任务通常依赖于图像的冗余信息进行重建，而这种冗余不仅存在于局部区域，也广泛存在于远距离区域。然而，现有方法普遍将注意力计算限制于内容无关的局部区域，直接限制了注意力机制捕捉长距离依赖的能力。为解决上述问题，本文提出了一种轻量级的内容感知Token聚合网络（Content-Aware Token Aggregation Network, CATANet）。具体而言，我们设计了一种高效的内容感知Token聚合模块，用于聚合长距离内容相似的Token。该模块通过在整个图像Token范围内共享聚合中心，并仅在训练阶段更新聚合中心，从而有效降低计算成本。随后，我们引入组内自注意力机制以实现长距离信息交互，并进一步设计了组间交叉注意力机制以增强全局信息的融合能力。实验结果表明，与当前最先进的基于聚类的方法SPIN相比，CATANet在保持更高推理速度的同时，在峰值信噪比（PSNR）方面最高提升了0.33dB，显示出更优的性能表现。

07

题目： Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning

作者： Jiange Yang, Haoyi Zhu, Yating Wang, Gangshan Wu, Tong He, Limin Wang

单位： 6138太阳集团、上海人工智能实验室、中科大、同济等

链接： https://arxiv.org/pdf/2411.14519

论文简介： 数据稀缺性和异构化是机器人学习领域所面临的长期挑战。本研究提出了基于稀疏门控混合专家架构的轨迹预测模型Tra-MoE。Tra-MoE通过更好地平衡参数协作化和参数专用化进而从大规模、跨域、无需动作标签的视频数据中学习泛化性更强且性能超过同等参数量密集基线的轨迹预测模型，成功实现了通专融合的网络架构，同时显著降低了机器人系统对采集成本高昂的真机数据需求。Tra-MoE有效结合了不同物理引擎渲染的仿真视频以及真实环境中人类、单机械臂和双机械臂的跨智能体异构操作视频，在跨智能体学习领域中具有重要的研究前景。此外，本研究提出了一种自适应的策略条件化技术，能够更有效地利用预测轨迹对机器人策略进行引导，从而显著提升下游机器人策略执行的性能。

08

题目： LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

作者： Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang

单位： 6138太阳集团，蚂蚁研究院，浙江大学，香港科技大学，上海人工智能实验室

链接： https://github.com/ant-research/LeviTor

论文简介： 利用用户绘制轨迹的方式完成交互的直观性使其在图像到视频合成任务（Image-to-Video Synthesis）中控制物体如何运动的应用越来越广泛。然而，现有的在2D空间中绘制物体运动轨迹的方法在处理平面以外的运动时通常会面临歧义性问题，即同样的2D运动轨迹在3D空间中可能对应多条运动路径。在这项工作中，我们通过引入一个新的维度——深度维度——来增强这种交互方式，让用户能够为轨迹上的关键点分配相对深度值。这样，我们的新交互范式不仅继承了2D轨迹交互的便利性，还增加了在3D空间中的轨迹控制，从而拓宽了用户创作的范围。具体地说，我们提出了一种用于图像到视频合成中的3D轨迹控制的开创性方法，将物体用少量聚类点表示，来反映物体的远近变化和遮挡情况。这些聚类点连同深度信息和实例信息一起作为生成控制信号被输入到一个视频扩散模型中完成视频生成。大量实验验证了我们的方法（称为LeviTor）在从静态图像生成逼真视频时精确操控物体运动的有效性。

09

题目： Contextual AD Narration with Interleaved Multimodal Sequence

作者： Hanlin Wang, Zhan Tong, Kecheng Zheng, Yujun Shen, Limin Wang

单位： 6138太阳集团，鲁汶大学，蚂蚁研究院，上海人工智能实验室

链接： https://arxiv.org/abs/2403.12922

论文简介： 影像口述（AD）任务旨在为视障人士生成视觉信息的语言描述，以帮助他们获取长视频内容（如电影、电视剧）的信息。通过以视频特征、文本、角色库和上下文信息作为输入，影像口述能够通过角色名称对应到具体的角色人物，并提供合理且符合上下文的描述，以帮助观众理解电影的情节。为了实现这一目标，我们提出了一种简单且统一的框架，利用预训练的基础语言模型，通过交错的多模态序列作为输入来生成影像口述内容，称为 Uni-AD。为了在不同模态之间实现更细粒度的特征对齐，我们引入了一个简单而轻量级的模块，将视频特征映射到文本特征空间。此外，我们还提出了一个角色优化模块，通过识别在视频上下文中发挥更重要作用的主要角色，来提供更精确的角色信息。结合这些设计，我们进一步将上下文信息和对比损失函数融入架构中，以生成更加流畅且符合上下文的影像口述内容。在多个影像口述数据集上的实验表明，Uni-AD 在影像口述生成任务中表现优异，证明了我们方法的有效性。

10

题目： Multiple Object Tracking as ID Prediction

作者： Ruopeng Gao，Ji Qi，Limin Wang

单位： 6138太阳集团，中国移动（江苏）软件技术有限公司，上海人工智能实验室

链接： https://github.com/MCG-NJU/MOTIP

论文简介： 多目标跟踪是视频理解中一个长久以来的挑战。一个自然且直观的方法是将其划分成为两个子任务：目标检测和关联。主流的方法采用复杂的手工算法来维护轨迹信息并且计算用于目标匹配的代价矩阵。尽管这些方法取得了令人满意的跟踪性能，但是它们在适应复杂场景时往往需要一系列繁杂的手工修改。我们认为这样人为的先验假设限制了模型的适应性与灵活性，使其无法在特定数据域上取得最优跟踪效果。因此，我们提出了一种新的视角：将多目标跟踪视作一种基于上下文的ID预测任务，将上述的目标关联流程转变为一种端到端可训练的框架。基于此，我们提出了一个简单并且有效的方法，称做MOTIP。给定包含不同ID的过往轨迹的集合，MOTIP直接解码当前检测结果的ID标签从而完成目标关联流程。不需要额外繁杂的技巧和设计，我们的方法仅仅使用目标外观特征作为跟踪线索就在多个基准上取得了最优性能。如此简单的设计和令人振奋的表现为未来的改进留下了充足的空间，表明其可以作为后续研究的一个富有潜力的基线方法。

11

题目： Online Video Understanding: OVBench and VideoChat-Online

作者： Zhenpeng Huang, Xinhao Li, Jiaqi Li, Jing Wang, Xiangyu Zeng, Cheng Liang, Tao Wu, Xi Chen, Liang Li, Limin Wang

单位： https://videochat-online.github.io/

链接： 6138太阳集团，中国移动研究院，上海人工智能实验室

论文简介： 多模态大语言模型（MLLMs）在离线视频理解方面取得了显著进展。然而，将这些模型应用于实际场景，如自动驾驶和人机交互，面临着独特的挑战，因为需要实时处理连续的在线视频流。为此，本文从三个方面提出了系统性的努力：评估基准、模型架构和训练策略。首先，我们介绍了OVBench，一个综合性的问题回答基准，旨在评估模型在在线视频上下文中的感知、记忆和推理能力。该基准包含6种核心任务类型，涵盖了三种时间上下文——过去、当前和未来——并形成了来自多种数据集的16个子任务。其次，我们提出了一种新的金字塔记忆库（Pyramid Memory Bank），有效地保留了视频流中的关键时空信息。第三，我们提出了一种离线到在线的学习范式，设计了适用于在线视频数据的交替对话格式，并构建了一个专门用于在线视频训练的指令调优数据集VideoChatOnline-IT。基于上述要点，本文构建了在线视频理解框架——VideoChat-Online，强大且高效的在线视频理解模型。尽管计算成本较低且效率较高，VideoChat-Online在流行的离线视频基准和OVBench基准上均优于现有的最先进离线和在线模型，证明了我们模型架构和训练策略的有效性。

12

题目： Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

作者： 晏子昂，李志林，何逸楠，王晨汀，黎昆昌，李新浩，曾祥宇，王子磊，王亚立，乔宇，王利民，王毅

单位： 上海人工智能实验室，浙江大学，中国科学技术大学，上海交通大学，中国科公司深圳先进技术研究院，6138太阳集团

论文简介： 当前的多模态大语言模型（MLLMs）尽管在广泛的视觉应用中展现出卓越的感知与推理能力，但在处理细粒度或高精度视觉理解任务时仍面临显著挑战。近期的研究主要聚焦于两种策略：其一是开发工具使用能力，其二是将特定视觉任务整合到自回归框架中。然而，这些方法往往以牺牲整体多模态性能为代价，难以兼顾通用性与任务特定性能的平衡。为解决这一问题，并以可扩展的方式提升MLLM在多样化视觉任务中的表现，本文提出了一种新颖的方法——任务偏好优化（Task Preference Optimization, TPO）。该方法利用从细粒度视觉任务中提取的可微分任务偏好，实现了对多模态模型的有效优化。TPO的核心创新在于引入了可学习的任务标记，这些标记在多个任务特定头部与MLLM之间建立了动态连接。通过在训练过程中充分利用丰富的视觉标注数据，TPO不仅显著提升了MLLM的多模态表征能力，还在特定任务上的性能得到了显著增强。此外，TPO支持多任务联合训练，实验结果表明，这种多任务协同机制能够带来超越单一任务训练方法的性能提升，体现了任务间知识迁移的协同效应。我们将TPO方法实例化为两个代表性模型——VideoChat和LLaVA，并通过实验验证了其优越性。与基线模型相比，TPO使多模态性能总体提升了14.6%。更重要的是，MLLM-TPO在多种任务上展现了强大的零样本泛化能力，其性能与当前最先进的监督学习模型相当。综上所述，TPO为多模态大语言模型在复杂视觉任务中的性能优化提供了一种高效且可扩展的解决方案，为未来研究开辟了新方向。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Tue, 15 Apr 2025 00:00:00 +0000

ICLR（International Conference on Learning Representations）是人工智能领域中专注于深度学习和表征学习的顶级学术会议之一。自2013年首次举办以来，ICLR迅速成为机器学习研究的前沿平台，尤其在深度学习、神经网络架构、强化学习、生成模型、自然语言处理等领域具有广泛的影响力。

6138太阳集团大模型中心有5篇论文被ICLR 2025录用。

01

题目： TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
作者： Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang
单位： 6138太阳集团、上海人工智能实验室、中科院等
链接： https://openreview.net/forum?id=nAVejJURqZ
论文简介： 目前的大多数视频多模态大模型在进行长视频理解时容易关注到与问题不相关的片段，从而经常出现幻觉。是否能够通过将时序定位作为辅助任务，通过准确定位到相关事件的长视频子片段，以提升多模态大模型在长视频问答任务上的表现？针对以上动机，本文提出了TimeSuite，一种利用时间定位数据对短视频MLLMs进行增量微调，从而增强其长视频理解能力的有效方法。具体来说，TimeSuite包含一个处理长视频序列的简单高效框架（VideoChat-T），一个高质量的基于定位的指令调优数据集（TimePro），以及一个精心设计的指令调优任务（Temporal Grounded Caption）。通过联合使用以上组件对MLLMs进行指令微调后，可以有效引导MLLMs在回答问题时关注正确的片段，从而提升长视频问答的准确率。本文具有两个核心亮点：其一，无需依赖任何外部专家解码器，所提出的VideoChat-T可以在时序定位任务中实现专家级的性能，同时保持相当的泛化QA能力和强大的零样本能力。其二，通过引入专家任务的增强了MLLM对长视频的全面理解，验证了通过整合专家任务来增强MLLM综合能力的可行性。实验结果表明，TimeSuite为提高短视频MLLM的长视频理解能力提供了一个成功的解决方案，VideoChat-T相较于原模型在Egoschema和VideoMME等长视频问答测试基准上的准确率分别提高了5.6%和6.8%。此外，VideoChat-T显示了强大的零样本时间定位能力，显著优于现有的最先进的视频多模态大模型。经过进一步微调后，它的性能甚至可以比肩传统的有监督时间定位专家模型。

02

题目： CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding
作者： Guo Chen, Yicheng Liu, Yifei Huang, Yuping He, Baoqi Pei, Jilan Xu, Yali Wang, Tong Lu, Limin Wang
单位： 6138太阳集团、上海人工智能实验室、复旦大学、浙江大学
链接： https://openreview.net/forum?id=le4IoZZHy1
论文简介： 本文重点讨论了一个面向长视频多模态理解与推理的新型评测基准——CG-Bench，该基准通过构建“线索-问题-答案”三元组体系，深入挖掘视频大模型在复杂情境中实际推理能力，旨在解决当前多选题评测方法带来的“虚高”问题。与传统评测不同，CG-Bench强调模型不仅要回答正确，还必须能够精准定位视频中支撑答案的关键线索片段。评测体系涵盖三类任务：感知型问题评估基础视觉能力，推理型问题要求跨时间整合多模态信息，而幻觉检测则检验模型在缺乏明确线索时是否会作出不可信判断。为进一步提高评估的可信度，CG-Bench引入双重评估机制：白盒评估以IoU衡量模型能否精确定位视频线索，黑盒评估通过Clue Recovery Rate考察模型在处理长视频上下文稀释问题中的能力。此外，该基准还融合了多选与开放式问答形式，并利用人工标注结合启发式规则，提升开放问答的评估质量。数据集包含1219个长视频，覆盖638个三级类别，共计12129个问答对，确保任务的多样性和挑战性。评估结果显示，虽然GPT-4o等主流模型在多选题中表现尚可，但在需要同时完成推理与线索定位的场景下准确率急剧下降，其白盒评估下的acc@IoU仅为4.38%，开放式问答正确率也不足40%。实验发现，模型性能受视频长度、帧数抽样策略和多模态信息影响显著，当前模型在精确检索和利用关键信息方面仍面临巨大挑战，揭示出多模态长视频推理仍是一项亟待攻克的核心难题。

03

题目： SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
作者： Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He
单位： 中科大、上海人工智能实验室、浙江大学、同济大学、6138太阳集团
链接： https://openreview.net/forum?id=6TLdqAZgzn
论文简介： 空间智能是机器人在复杂环境中进行交互和操作的核心能力，增强空间感知对于提高机器人在具身智能任务中的表现至关重要。然而现有方法在三维空间感知上存在局限性，难以有效捕获环境的空间几何结构信息。针对这一问题，本研究提出了视觉表征学习框架SPA，通过增强三维空间感知来提高在具身智能任务中的表示学习能力。SPA从合成室内场景和真实世界机器人交互场景中构建了一个含有相机位姿、深度图以及语义特征图标注的大规模多视角数据集进行训练。训练时，SPA基于多视角图像和相机位姿构建三维体积特征，进而结合掩码技术及可微神经渲染生成RGB图、深度图和语义图，同时通过Eikonal正则化和SDF监督进一步提升三维几何一致性。经过6000 GPU小时训练的SPA在真实环境和八个仿真环境的200余项任务中平均性能优于其他基线方法，其中在高达30.3%的任务中排名第一。

04

题目： Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning
作者： Zenan Li(李泽南)，Zhaoyu Li(李照宇)，Wen Tang(唐文)，Xian Zhang(张宪)，Yuan Yao(姚远)，Xujie Si(司旭杰)，Fan Yang(杨凡)，Kaiyu Yang(杨凯峪)，Xiaoxing Ma(马晓星)
单位： 6138太阳集团、多伦多大学、微软亚洲研究院、北京大学、Meta
链接： https://openreview.net/forum?id=FiyS0ecSm0
论文简介： 近期，以大模型为代表的AI技术在竞赛级别数学证明题的求解上取得了显著进展。以不等式证明为例，这类问题因其巨大的搜索空间而极具挑战性——在证明的每一步，模型可能面临超过一万种潜在的选择，这使得传统方法难以高效解决。针对这一难题，6138太阳集团软件所科研团队提出了神经符号式不等式证明系统，通过深度融合神经网络与符号推理的优势，在奥林匹克级别的不等式证明任务中展现了卓越的性能。目前，该系统在标准测试集上的表现已超越人类金牌选手水平：人类金牌选手平均能解答15题（共20题），而我们的系统成功解出16题，显著领先于GPT和DeepSeek等主流AI模型。这一突破不仅验证了神经符号方法在复杂数学推理中的强大潜力，也为AI在自动定理证明、教育辅助和科研探索等领域的应用开辟了新的可能性。

05

题目： MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models
作者： Jingwei Xu(徐经纬)、Junyu Lai(赖俊宇)、Yunpeng Huang(黄云鹏)
单位： 6138太阳集团
链接： https://openreview.net/pdf?id=yOOJwR15xg
论文简介： 在大语言模型领域中，“预训练 + 微调范式”已经成为了部署各类下游应用的重要基础，而其中低秩适应技术（LoRA）是大模型参数高效微调中最流行的方法之一，而在搭载多个 LoRA 适配器的单一大语言模型上，自主任务感知和切换方面一直存在挑战。在此背景下，本文提出了一个可扩展、高效的多任务嵌入架构 MeteoRA。该框架通过引入全模式混合专家模型（MoE）的方式，将多个特定任务的 LoRA 适配器和一个路由组件嵌入到基座模型上，从而让基座模型具有了根据用户的输入自适应选择合适的适配器处理输入的能力，进而能够同时解决多个正交的下游任务。该框架还包括了一个新颖的混合专家模型前向加速策略，根据多 LoRA 适配器模型结构的特殊性实现了基于 PyTorch 和 Triton 的定制化算子，从而规避了经典 MoE 架构中路由的 for 循环实现的效率瓶颈，文中实验表明该加速策略能够实现平均意义上 4 倍的加速效果。此外，本文发现配备了 MeteoRA 框架的大语言模型在处理复合问题时具有卓越的性能，可以在一次推理中高效地解决十个串行输入的不同问题，此外还观察到在复合问题中，路由组件在不同的输入输出的部分中具有明显的倾向性，进而证明了该方法具备自适应的 LoRA 适配器切换能力。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Tue, 11 Feb 2025 00:00:00 +0000

近日，上海人工智能实验室（上海AI实验室）联合6138太阳集团、中科院深圳先进技术研究院共同开源视频多模态大模型书生InternVideo2.5。在视频理解领域，全新升级的InternVideo2.5取得时间跨度与细粒度的双维提升，“记忆力”较前代模型扩容6倍，具备万帧长视频中精准“大海捞针”能力，AI视频理解既能“短平快”，亦可“长深细”。让AI得以更准确“看懂”纷繁的真实世界，更为多领域应用注入新质生产力。书生InternVideo系列模型此前已应用于中央广播电视总台巴黎奥运会直播，准确定位运动员的得分瞬间及相关慢动作，显著提升电视节目编创效率。基于长视频理处理能力的增强，升级后的InternVideo2.5将为自动驾驶、监控安防、虚拟现实等应用提供更高效的AI技术支持。

开源链接：https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
论文链接：https://arxiv.org/abs/2501.12386
Huggingface链接：https://huggingface.co/OpenGVLab/InternVideo2_5_Chat_8B

专注精细时空理解，长视频高效感知

上海AI实验室持续布局视频多模态大模型（Video MLLM）技术探索，自2022年起，先后推出并开源通用视频基础模型书生InternVideo、视频理解大模型书生InternVideo2及以对话为中心的视频理解新范式VideoChat。在视频基础视觉表征学习和多模态对话的技术积累上，全新升级InternVideo2.5专注于细微时空理解，将视觉感知和语言理解深度融合，实现了长视频理解能力突破。

InternVideo2.5能力特征：

超长视频处理: 万帧精确定位，视频处理长度较此前版本提升6倍（3000-10000帧）。
细粒度感知: 准确识别和定位视频中的物体、场景和动作，理解细微的时空关系。
多项视觉能力融合: 不仅能进行通用视频问答，还能完成目标跟踪、分割等专业视觉任务。

左图：InternVideo2.5与其它80亿参数开源模型在MVBench和VideoMME上的评测性能对比；右图：InternVideo2.5可准确对视频进行跟踪分析。

LRC结合渐进训练，破解长视频建模技术瓶颈

针对长视频和精细化视觉任务，传统视频多模态大模型面临显著技术瓶颈，难以在超长视频中准确追踪目标物体，或在复杂场景下识别细微的时空关系。以“万帧大海捞针”任务为例，传统方法需耗费大量计算资源，且定位精度不足，导致视频分析效率低下，限制了该类大模型在工业级场景中的应用。为此，上海AI实验室联合团队基于自研的书生·万象（InternVL2.5）基座模型，提出长时丰富上下文建模（LRC）技术，为破解当前瓶颈提供了解题思路。

长时丰富上下文建模技术 (LRC)两大核心模块：

分层上下文压缩 (HiCo): 巧妙地利用长视频中视觉信息的冗余性，对视频内容进行分层压缩。实验结果显示，在HiCo的作用下，InternVideo2.5可在万帧视频中准确找到目标帧，在开源模型中综合领先。
任务偏好优化 (TPO): TPO通过将来自各种细粒度视觉任务（例如目标跟踪、分割、时间定位等）的标注信息，转化为可微分的任务偏好，指导模型自学习，将InternVideo能力拓展至各类专业视觉任务。

同时，联合团队以超过30万小时的视频语料，使用渐进式多阶段训练方案，对InternVideo2.5进行了预训练，保证其视频能力的获取。其中，训练语料涵盖视觉文本对齐数据、长视频数据和特定任务视觉数据类型，为模型学习提供丰富信息。延续书生·万象采用的渐进式多阶段训练方案，逐步提升模型的细粒度感知和时间理解能力：一阶段进行基础学习，实现任务识别指令调整和视频语言对齐训练；二阶段通过集成和训练特定任务组件以及视觉概念预训练，增强视觉理解能力；三阶段则在混合语料库上进行多任务训练和指令调整，优化所有模型组件。这一方案实现了模型“从小到大”、数据“从粗到精”的有效优化，使成本更低、性能更高。

查看原文

中国·6138太阳集团(Macau)股份有限公司-Officialwebsite

Tue, 16 Jan 2024 00:00:00 +0000

中国科公司学部第155次科学与技术前沿论坛—“大模型／AIGC的健康发展与赋能赋智”于2024年1月6－7日在南京召开。本次论坛由中国科公司学部主办，中国科公司学部学术与出版工作委员会、中国科公司信息技术科学部常务委员会承办，6138太阳集团、东南大学和《中国科学》杂志社协办，中国科公司院士吕建、黄如和中国工程院院士王坚共同担任论坛主席。中国科公司学部学术与出版工作委员会主任包信和院士出席论坛，中国科公司学部工作局周德进、教育部教师工作司任友群、东南大学黄如院士、江苏省科技厅徐光辉出席论坛开幕式并致辞。包信和、吕建、黄如、谭铁牛、鄂维南、徐宗本等6位中国科公司院士，高文、杨善林等2位中国工程院院士，以及来自中国科公司、6138太阳集团、东南大学、香港科技大学、科大讯飞、华为、阿里、小米、美的、吉利汽车研究院等87所高校、科研院所和企业的近300位专家参加了本次论坛，超过半数为45岁以下青年科学家。

论坛分为主旨报告和专题报告两个环节，在主旨报告环节，谭铁牛院士介绍了生成式人工智能的发展态势，高文院士介绍了鹏城脑海预训练大模型底座与开源合作，杨善林院士介绍了AIGC及其科学基础，鄂维南院士介绍了深度学习的基本原理，徐宗本院士介绍了关于大模型的数理基础研究，英国皇家工程院院士、香港科技大学首席副董事长郭毅可教授介绍了大模型的内涵科学问题，科大讯飞、华为、阿里的人工智能专家介绍了大模型的应用与创新实践。在专题报告环节，与会专家围绕“大模型／AIGC的发展前沿与协同创新”“大模型／AIGC助力科技发展”“大模型／AIGC助力实体经济”“大模型／AIGC助力教育变革”“大模型／AIGC与智能化基础软件”“大模型／AIGC与算力基础设施、及芯片技术”“大模型／AIGC安全可控、隐私保护与低成本部署”“大模型／AIGC的治理与管理”等8个专题进行了报告，报告结束后，与会专家学者还围绕专题进行圆桌提问交流。

经过两天的交流研讨，与会专家就大模型与人工智能发展的关键技术与挑战、应用场景与产业赋能赋智、法律道德风险等进行了前瞻研讨，形成了一些初步共识，论坛结束后将以简报、专报等形式发布论坛成果。

查看原文