Publications | AI4GC Lab

AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization

Zhonghua Jiang, Kui Chen, Kunxi Li, Keting Yin, Yiyun Zhou, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉

AAAI 2026

Paper Project7

EcoAgent: An Efficient Device-Cloud Collaborative Multi-Agent Framework for Mobile Automation

Biao Yi, Xueyu Hu, Yurun Chen, Shengyu Zhang^✉, Hongxia Yang, Fan Wu

AAAI 2026

Paper Project20 Blog

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang^✉

CVPR 2026

Paper Project26 Blog

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang^✉, Hongxia Yang, Fei Wu

AAAI 2026

Paper Project148

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang^✉, Xiaotian Han, Hongxia Yang, Fei Wu

EACL 2026

Paper Project74

Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding

Wenkai Wang, Xiyun Li, Hongcan Guo, Wenhao Yu, Tianqing Fang, Haitao Mi, Dong Yu, Shengyu Zhang^✉

ACL 2026

MS-Bench: Evaluating LMMs in Ancient Manuscript Study through a Dunhuang Case Study

Yuqing Zhang, Yue Han, Shuanghe Zhu, Haoxiang Wu, Hangqi Li, Shengyu Zhang^✉, Junchi Yan, Zemin Liu, Kun Kuang, Huaiyong Dou, Yongquan Zhang, Fei Wu

NeurIPS 2026

ThinkRec: Thinking-based recommendation via LLM

Qihang Yu, Kairui Fu, Zheqi Lv, Shengyu Zhang^✉, Xinhui Wu, Chen Lin, Feng Wei, Bo Zheng, Fei Wu

WWW 2026

Paper Project34

Towards Meta-Cognitive Knowledge Editing for Multimodal LLMs

Zhaoyu Fan, Kaihang Pan, Mingze Zhou, Bosheng Qin, Juncheng Li, Shengyu Zhang, Wenqiao Zhang, Siliang Tang, Fei Wu, Yueting Zhuang

WWW 2026

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang^✉

CVPR 2026

Instruction Tuning for Large Language Models: A Survey

Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Guoyin Wang, Fei Wu

ACM Comput. Surv. 2026

NaviCache: Test-Time Self-Calibration Caching for Video Generation

Zheqi Lv, Zhibo Zhu, Jinke Wang, Qi Tian, Shengyu Zhang^✉, Zhengyu Chen, Chengxi Zang, Zhou Zhao, Fei Wu

ICML 2026

CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration

Keming Ye, Zhou Zhao, Fan Wu, Shengyu Zhang^✉

ICLR 2026

RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction

Sihao Liu, YuFan Xiong, Zhonghua Jiang, Zhaode Wang, Shengyu Zhang^✉

ACL Findings 2026

Preprints · arXiv

Training-Free Semantic Correction for Autoregressive Visual Models

Junhao Chen, Chanyu Zhu, Zheqi Lv, Keting Yin, Shengyu Zhang^✉

arXiv 2026

Paper Project1

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

Wenkai Wang, Tao Xiong, Jingchen Ni, Yunpeng Bao, Xiyun Li, Tianqi Liu, Hongcan Guo, Zilong Huang, Shengyu Zhang^✉

arXiv 2026

Reinforcement Learning in Generative Multimodal AI: A Survey

Zijing Hu, Junkun Yuan, Kairong Han, Yunze Tong, Shengyu Zhang, Fei Wu, Kun Kuang

TechRxiv 2026

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang^✉

arXiv 2026

Paper Project68

Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation

Tianyu Zhan, Kairui Fu, Chengfei Lv, Zheqi Lv, Shengyu Zhang^✉

arXiv 2026

ReCal: Reward Calibration for RL-based LLM Routing

Qihang Yu, Hanwen Tong, Zhengqi Zhang, Bo Zheng, Feng Wei, Shengyu Zhang^✉, Zemin Liu, Fei Wu

arXiv 2026

World-Model-Augmented Web Agents with Action Correction

Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li, Shengyu Zhang^✉

arXiv 2026

2025

Published

CHORD: Customizing Hybrid-precision On-device Model for Sequential Recommendation with Device-cloud Collaboration

Tianqi Liu, Kairui Fu, Shengyu Zhang^✉, Wenyan Fan, Zhaocheng Du, Jieming Zhu, Fan Wu, Fei Wu

ACM MM 2025

Collaboration of Large Language Models and Small Recommendation Models for Device-Cloud Recommendation

Zheqi Lv, Tianyu Zhan, Wenjie Wang, Xinyu Lin, Shengyu Zhang^✉, Wenqiao Zhang, Jiwei Li, Kun Kuang, Fei Wu

KDD 2025

Cuff-KT: Tackling Learners' Real-time Learning Pattern Adjustment via Tuning-Free Knowledge State Guided Model Updating

Yiyun Zhou, Zheqi Lv, Shengyu Zhang, Jingyuan Chen

KDD 2025

Paper Project5

Democratizing AI through model fusion: A comprehensive review and future directions

Qi Zhou, Yiming Zhang, Yanggan Gu, Yuanyi Wang, Zhijie Sang, Zhaoyi Yan, Zhen Li, Shengyu Zhang, Fei Wu, Hongxia Yang

Nexus 2025

Device-Cloud Collaborative Correction for On-Device Recommendation

Tianyu Zhan, Shengyu Zhang^✉, Zheqi Lv, Jieming Zhu, Jiwei Li, Fan Wu, Fei Wu

IJCAI 2025

Disentangled Knowledge Tracing for Alleviating Cognitive Bias

Yiyun Zhou, Zheqi Lv, Shengyu Zhang, Jingyuan Chen

WWW 2025

Paper Project26

EcoFace: Audio-Visual Emotional Co-Disentanglement Speech-Driven 3D Talking Face Generation

Jiajian Xie, Shengyu Zhang^✉, Mengze Li, Chengfei Lv, Zhou Zhao, Fei Wu

ICLR 2025

Paper Project0

Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks

Yurun Chen, Xueyu Hu, Keting Yin, Juncheng Li, Shengyu Zhang^✉

ACM MM 2025

ExpTalk: Diverse Emotional Expression via Adaptive Disentanglement and Refined Alignment for Speech-Driven 3D Facial Animation

Zhan Qu, Shengyu Zhang^✉, Mengze Li, Zhuo Chen, Chengfei Lv, Zhou Zhao, Fei Wu

IJCAI 2025

FedMcon: an adaptive aggregation method for federated learning via meta controller

Tao Shen, Zexi Li, Ziyu Zhao, Didi Zhu, Zheqi Lv, Kun Kuang, Shengyu Zhang, Chao Wu, Fei Wu

FITEE 2025

Forward Once for All: Structural Parameterized Adaptation for Efficient Cloud-coordinated On-device Recommendation

Kairui Fu, Zheqi Lv, Shengyu Zhang^✉, Fan Wu, Kun Kuang

KDD 2025

Knowledge-empowered, collaborative, and co-evolving AI models: The post-LLM roadmap

Fei Wu, Fei Wu, Tao Shen, Thomas Bäck, Jingyuan Chen, Gang Huang, Yaochu Jin, Kun Kuang, Mengze Li, Cewu Lu, Jiaxu Miao, Yongwei Wang, Ying Wei, Fan Wu, Fan Wu, Junchi Yan, Hongxia Yang, Yi Yang, Shengyu Zhang, Zhou Zhao, Yueting Zhuang, Yunhe Pan

Engineering 2025

MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

Kunxi Li, Zhonghua Jiang, Zhouzhou Shen, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉, Fan Wu, Fei Wu

ACL 2025

MergeNet: Knowledge Migration Across Heterogeneous Models, Tasks, and Modalities

Kunxi Li, Tianyu Zhan, Kairui Fu, Shengyu Zhang^✉, Kun Kuang, Jiwei Li, Zhou Zhao, Fan Wu, Fei Wu

AAAI 2025

Optimize Incompatible Parameters Through Compatibility-aware Knowledge Integration

Zheqi Lv, Keming Ye, Zishu Wei, Qi Tian, Shengyu Zhang^✉, Wenqiao Zhang, Wenjie Wang, Kun Kuang, Tat-Seng Chua, Fei Wu

AAAI 2025

OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang^✉, Fei Wu

ACL 2025

Paper Project487

Tackling Device Data Distribution Real-time Shift via Prototype-based Parameter Editing

Zheqi Lv, Wenqiao Zhang, Kairui Fu, Qi Tian, Shengyu Zhang^✉, Jiajie Su, Jingyuan Chen, Kun Kuang, Fei Wu

ACM MM 2025

FedCFA: Alleviating Simpson's Paradox in Model Aggregation with Counterfactual Federated Learning

Zhonghua Jiang, Jimin Xu, Shengyu Zhang^✉, Tao Shen, Jiwei Li, Kun Kuang, Haibin Cai, Fei Wu

AAAI 2025

Paper Project24

Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving

Chuxue Cao, Mengze Li, Juntao Dai, Jinluan Yang, Zijian Zhao, Shengyu Zhang, Weijie Shi, Chengzhong Liu, Sirui Han, Yike Guo

EMNLP 2025

Preprints · arXiv

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

Zheqi Lv, Junhao Chen, Qi Tian, Keting Yin, Shengyu Zhang^✉, Fei Wu

arXiv 2025

Paper Project14

PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models

Zhonghua Jiang, Kunxi Li, Yiyun Zhou, Sihao Liu, Yufan Xiong, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉

arXiv 2025

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Yuhang Liu, Pengxiang Li, Congkai Xie, Xueyu Hu, Xiaotian Han, Shengyu Zhang^✉, Hongxia Yang, Fei Wu

arXiv 2025

Paper Project67

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang^✉

arXiv 2025

GUI-PRA: Process Reward Agent for GUI Tasks

Tao Xiong, Xavier Hu, Yurun Chen, Yuhang Liu, Changqiao Wu, Pengzhi Gao, Wei Liu, Jian Luan, Shengyu Zhang^✉

arXiv 2025

202415 papers

Causal Distillation for Alleviating Performance Heterogeneity in Recommender Systems

Shengyu Zhang, Ziqi Jiang, Jiangchao Yao, Fuli Feng, Kun Kuang, Zhou Zhao, Shuo Li, Hongxia Yang, Tat-Seng Chua, Fei Wu

IEEE Trans. Knowl. Data Eng. 2024

SLED: Structure Learning based Denoising for Recommendation

Shengyu Zhang, Tan Jiang, Kun Kuang, Fuli Feng, Jin Yu, Jianxin Ma, Zhou Zhao, Jianke Zhu, Hongxia Yang, Tat-Seng Chua, Fei Wu

ACM Trans. Inf. Syst. 2024

Transferring Causal Mechanism over Meta-representations for Target-Unknown Cross-domain Recommendation

Shengyu Zhang, Qiaowei Miao, Ping Nie, Mengze Li, Zhengyu Chen, Fuli Feng, Kun Kuang, Fei Wu

ACM Trans. Inf. Syst. 2024

CoreRec: A Counterfactual Correlation Inference for Next Set Recommendation

Kexin Li, Chengjiang Long, Shengyu Zhang, Xudong Tang, Zhichao Zhai, Kun Kuang, Jun Xiao

AAAI 2024

MPOD123: One Image to 3D Content Generation Using Mask-Enhanced Progressive Outline-to-Detail Optimization

Jimin Xu, Tianbao Wang, Tao Jin, Shengyu Zhang^✉, Dongjie Fu, Zhe Wang, Jiangjing Lyu, Chengfei Lv, Chaoyue Niu, Zhou Yu, Zhou Zhao, Fei Wu

CVPR 2024

LLMCO4MR: LLMs-Aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

Yuqing Zhang, Hangqi Li, Shengyu Zhang^✉, Runzhong Wang, Baoyi He, Huaiyong Dou, Junchi Yan, Yongquan Zhang, Fei Wu

ECCV (75) 2024

PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study

Yuqing Zhang, Baoyi He, Yihan Chen, Hangqi Li, Han Yue, Shengyu Zhang^✉, Huaiyong Dou, Junchi Yan, Zemin Liu, Yongquan Zhang, Fei Wu

EMNLP 2024

Domaindiff: Boost out-of-Distribution Generalization with Synthetic Data

Qiaowei Miao, Junkun Yuan, Shengyu Zhang, Fei Wu, Kun Kuang

ICASSP 2024

AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation

Zihao Tang, Zheqi Lv, Shengyu Zhang^✉, Yifan Zhou, Xinyu Duan, Fei Wu, Kun Kuang

ICLR 2024

ModelGPT: Unleashing LLM's Capabilities for Tailored Model Generation

Zihao Tang, Zheqi Lv, Shengyu Zhang^✉, Fei Wu, Kun Kuang

arXiv 2024

Paper Project23

DIET: Customized Slimming for Incompatible Networks in Sequential Recommendation

Kairui Fu, Shengyu Zhang^✉, Zheqi Lv, Jingyuan Chen, Jiwei Li

KDD 2024

Cross-modal Observation Hypothesis Inference

Mengze Li, Kairong Han, Jiahe Xu, Yueying Li, Tao Wu, Zhou Zhao, Jiaxu Miao, Shengyu Zhang^✉, Jingyuan Chen

ACM MM 2024

GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting

Hongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang, Zhiwen Chen, Shengyu Zhang^✉, Jimin Xu, Fei Wu, Chengfei Lv, Gang Yu

ACM MM 2024

Semantic Codebook Learning for Dynamic Recommendation Models

Zheqi Lv, Shaoxuan He, Tianyu Zhan, Shengyu Zhang^✉, Wenqiao Zhang, Jingyuan Chen, Zhou Zhao, Fei Wu

ACM MM 2024

Intelligent Model Update Strategy for Sequential Recommendation

Zheqi Lv, Wenqiao Zhang, Zhengyu Chen, Shengyu Zhang^✉, Kun Kuang

WWW 2024

202312 papers

Personalized Latent Structure Learning for Recommendation

Shengyu Zhang, Fuli Feng, Kun Kuang, Wenqiao Zhang, Zhou Zhao, Hongxia Yang, Tat-Seng Chua, Fei Wu

IEEE Trans. Pattern Anal. Mach. Intell. 2023

Edge-Cloud Polarization and Collaboration: A Comprehensive Survey for AI

Jiangchao Yao, Shengyu Zhang, Yang Yao, Feng Wang, Jianxin Ma, Jianwei Zhang, Yunfei Chu, Luo Ji, Kunyang Jia, Tao Shen, Anpeng Wu, Fengda Zhang, Ziqi Tan, Kun Kuang, Chao Wu, Fei Wu, Jingren Zhou, Hongxia Yang

IEEE Trans. Knowl. Data Eng. 2023

Video-Audio Domain Generalization via Confounder Disentanglement

Shengyu Zhang, Xusheng Feng, Wenyan Fan, Wenjing Fang, Fuli Feng, Wei Ji, Shuo Li, Li Wang, Shanshan Zhao, Zhou Zhao, Tat-Seng Chua, Fei Wu

AAAI 2023

Multi-modal Action Chain Abductive Reasoning

Mengze Li, Tianbao Wang, Jiahe Xu, Kairong Han, Shengyu Zhang, Zhou Zhao, Jiaxu Miao, Wenqiao Zhang, Shiliang Pu, Fei Wu

ACL (1) 2023

Weakly-Supervised Spoken Video Grounding via Semantic Interaction Learning

Ye Wang, Wang Lin, Shengyu Zhang, Tao Jin, Linjun Li, Xize Cheng, Zhou Zhao

ACL (1) 2023

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-based Active Learning

Wei Ji, Renjie Liang, Zhedong Zheng, Wenqiao Zhang, Shengyu Zhang, Juncheng Li, Mengze Li, Tat-Seng Chua

CVPR 2023

WINNER: Weakly-supervised hIerarchical decompositioN and aligNment for spatio-tEmporal video gRounding

Mengze Li, Han Wang, Wenqiao Zhang, Jiaxu Miao, Zhou Zhao, Shengyu Zhang^✉, Wei Ji, Fei Wu

CVPR 2023

ART: rule bAsed futuRe-inference deducTion

Mengze Li, Tianqi Zhao, Jionghao Bai, Baoyi He, Jiaxu Miao, Wei Ji, Zheqi Lv, Zhou Zhao, Shengyu Zhang^✉, Wenqiao Zhang, Fei Wu

EMNLP 2023

Reconnecting the Broken Civilization: Patchwork Integration of Fragments from Ancient Manuscripts

Yuqing Zhang, Zhou Fang, Xinyu Yang, Shengyu Zhang^✉, Baoyi He, Huaiyong Dou, Junchi Yan, Yongquan Zhang, Fei Wu

ACM MM 2023

Unsupervised Domain Adaptation for Video Object Grounding with Cascaded Debiasing Learning

Mengze Li, Haoyu Zhang, Juncheng Li, Zhou Zhao, Wenqiao Zhang, Shengyu Zhang^✉, Shiliang Pu, Yueting Zhuang, Fei Wu

ACM MM 2023

DisCover: Disentangled Music Representation Learning for Cover Song Identification

Jiahao Xun, Shengyu Zhang, Yanting Yang, Jieming Zhu, Liqun Deng, Zhou Zhao, Zhenhua Dong, Ruiqi Li, Lichao Zhang, Fei Wu

SIGIR 2023

DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization

Zheqi Lv, Wenqiao Zhang, Shengyu Zhang, Kun Kuang, Feng Wang, Yongwei Wang, Zhengyu Chen, Tao Shen, Hongxia Yang, Beng Chin Ooi, Fei Wu

WWW 2023

Before 202321 papers

MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning

Wenqiao Zhang, Haochen Shi, Jiannan Guo, Shengyu Zhang, Qingpeng Cai, Juncheng Li, Sihui Luo, Yueting Zhuang

AAAI 2022

End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding

Mengze Li, Tianbao Wang, Haoyu Zhang, Shengyu Zhang, Zhou Zhao, Jiaxu Miao, Wenqiao Zhang, Wenming Tan, Jin Wang, Peng Wang, Shiliang Pu, Fei Wu

ACL (1) 2022

MIC: Model-agnostic Integrated Cross-channel Recommender

Ping Nie, Yujie Lu, Shengyu Zhang, Ming Zhao, Ruobing Xie, William Yang Wang, Yi Ren

CIKM 2022

BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation

Wenqiao Zhang, Lei Zhu, James Hallinan, Shengyu Zhang, Andrew Makmur, Qingpeng Cai, Beng Chin Ooi

CVPR 2022

Intelligent Request Strategy Design in Recommender System

Xufeng Qian, Yue Xu, Fuyu Lv, Shengyu Zhang^✉, Ziwen Jiang, Qingwen Liu, Xiaoyi Zeng, Tat-Seng Chua, Fei Wu

KDD 2022

HERO: HiErarchical spatio-tempoRal reasOning with Contrastive Action Correspondence for End-to-End Video Object Grounding

Mengze Li, Tianbao Wang, Haoyu Zhang, Shengyu Zhang, Zhou Zhao, Wenqiao Zhang, Jiaxu Miao, Shiliang Pu, Fei Wu

ACM MM 2022

Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos

Juncheng Li, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang, Wenqiao Zhang, Haochen Shi, Shengyu Zhang, Longhui Wei, Qi Tian, Yueting Zhuang

ACM MM 2022

Weakly-supervised Disentanglement Network for Video Fingerspelling Detection

Ziqi Jiang, Shengyu Zhang^✉, Siyuan Yao, Wenqiao Zhang, Sihan Zhang, Juncheng Li, Zhou Zhao, Fei Wu

ACM MM 2022

Uncovering Causal Effects of Online Short Videos on Consumer Behaviors

Ziqi Tan, Shengyu Zhang, Nuanxin Hong, Kun Kuang, Yifan Yu, Jin Yu, Zhou Zhao, Hongxia Yang, Shiyuan Pan, Jingren Zhou, Fei Wu

WSDM 2022

Re4: Learning to Re-contrast, Re-attend, Re-construct for Multi-interest Recommendation

Shengyu Zhang, Lingxiao Yang, Dong Yao, Yujie Lu, Fuli Feng, Zhou Zhao, Tat-Seng Chua, Fei Wu

WWW 2022

Contrastive Learning with Positive-Negative Frame Mask for Music Representation

Dong Yao, Zhou Zhao, Shengyu Zhang^✉, Jieming Zhu, Yudong Zhu, Rui Zhang, Xiuqiang He

WWW 2022

Why Do We Click: Visual Impression-aware News Recommendation

Jiahao Xun, Shengyu Zhang, Zhou Zhao, Jieming Zhu, Qi Zhang, Jingjie Li, Xiuqiang He, Xiaofei He, Tat-Seng Chua, Fei Wu

ACM MM 2021

MGD-GAN: Text-to-Pedestrian Generation through Multi-Grained Discrimination

Shengyu Zhang, Donghui Wang, Zhou Zhao, Siliang Tang, Kun Kuang, Di Xie, Fei Wu

PRCV (2) 2021

CauseRec: Counterfactual User Sequence Synthesis for Sequential Recommendation

Shengyu Zhang, Dong Yao, Zhou Zhao, Tat-Seng Chua, Fei Wu

SIGIR 2021

Future-Aware Diverse Trends Framework for Recommendation

Yujie Lu, Shengyu Zhang, Yingxuan Huang, Luyao Wang, Xinyao Yu, Zhou Zhao, Fei Wu

WWW 2021

Comprehensive Information Integration Modeling Framework for Video Titling

Shengyu Zhang, Ziqi Tan, Zhou Zhao, Jin Yu, Kun Kuang, Tan Jiang, Jingren Zhou, Hongxia Yang, Fei Wu

KDD 2020

Poet: Product-oriented Video Captioner for E-commerce

Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Jie Liu, Jingren Zhou, Hongxia Yang, Fei Wu

ACM MM 2020

DeVLBert: Learning Deconfounded Visio-Linguistic Representations

Shengyu Zhang, Tan Jiang, Tan Wang, Kun Kuang, Zhou Zhao, Jianke Zhu, Jin Yu, Hongxia Yang, Fei Wu

ACM MM 2020

Temporality-enhanced knowledgememory network for factoid question answering

Xinyu Duan, Siliang Tang, Shengyu Zhang, Yin Zhang, Zhou Zhao, Jianru Xue, Yueting Zhuang, Fei Wu

Frontiers Inf. Technol. Electron. Eng. 2018

Multi-Label Community-Based Question Classification via Personalized Sequence Memory Network Learning

Xinyu Duan, Shengyu Zhang, Zhou Zhao, Fei Wu, Yueting Zhuang

AAAI 2018

Text-to-Image Synthesis via Visual-Memory Creative Adversarial Network

Shengyu Zhang, Hao Dong, Wei Hu, Yike Guo, Chao Wu, Di Xie, Fei Wu

PCM (3) 2018

2026

Published

A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models

Wenkai Wang, Hongcan Guo, Zheqi Lv, Shengyu Zhang^✉

AAAI 2026

AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization

Zhonghua Jiang, Kui Chen, Kunxi Li, Keting Yin, Yiyun Zhou, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉

AAAI 2026

Paper Project7

EcoAgent: An Efficient Device-Cloud Collaborative Multi-Agent Framework for Mobile Automation

Biao Yi, Xueyu Hu, Yurun Chen, Shengyu Zhang^✉, Hongxia Yang, Fan Wu

AAAI 2026

Paper Project20 Blog

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang^✉

CVPR 2026

Paper Project26 Blog

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang^✉, Hongxia Yang, Fei Wu

AAAI 2026

Paper Project148

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang^✉, Xiaotian Han, Hongxia Yang, Fei Wu

EACL 2026

Paper Project74

Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding

Wenkai Wang, Xiyun Li, Hongcan Guo, Wenhao Yu, Tianqing Fang, Haitao Mi, Dong Yu, Shengyu Zhang^✉

ACL 2026

MS-Bench: Evaluating LMMs in Ancient Manuscript Study through a Dunhuang Case Study

Yuqing Zhang, Yue Han, Shuanghe Zhu, Haoxiang Wu, Hangqi Li, Shengyu Zhang^✉, Junchi Yan, Zemin Liu, Kun Kuang, Huaiyong Dou, Yongquan Zhang, Fei Wu

NeurIPS 2026

ThinkRec: Thinking-based recommendation via LLM

Qihang Yu, Kairui Fu, Zheqi Lv, Shengyu Zhang^✉, Xinhui Wu, Chen Lin, Feng Wei, Bo Zheng, Fei Wu

WWW 2026

Paper Project34

Towards Meta-Cognitive Knowledge Editing for Multimodal LLMs

Zhaoyu Fan, Kaihang Pan, Mingze Zhou, Bosheng Qin, Juncheng Li, Shengyu Zhang, Wenqiao Zhang, Siliang Tang, Fei Wu, Yueting Zhuang

WWW 2026

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang^✉

CVPR 2026

Instruction Tuning for Large Language Models: A Survey

Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Guoyin Wang, Fei Wu

ACM Comput. Surv. 2026

NaviCache: Test-Time Self-Calibration Caching for Video Generation

Zheqi Lv, Zhibo Zhu, Jinke Wang, Qi Tian, Shengyu Zhang^✉, Zhengyu Chen, Chengxi Zang, Zhou Zhao, Fei Wu

ICML 2026

CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration

Keming Ye, Zhou Zhao, Fan Wu, Shengyu Zhang^✉

ICLR 2026

RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction

Sihao Liu, YuFan Xiong, Zhonghua Jiang, Zhaode Wang, Shengyu Zhang^✉

ACL Findings 2026

Preprints · arXiv

Training-Free Semantic Correction for Autoregressive Visual Models

Junhao Chen, Chanyu Zhu, Zheqi Lv, Keting Yin, Shengyu Zhang^✉

arXiv 2026

Paper Project1

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

Wenkai Wang, Tao Xiong, Jingchen Ni, Yunpeng Bao, Xiyun Li, Tianqi Liu, Hongcan Guo, Zilong Huang, Shengyu Zhang^✉

arXiv 2026

Reinforcement Learning in Generative Multimodal AI: A Survey

Zijing Hu, Junkun Yuan, Kairong Han, Yunze Tong, Shengyu Zhang, Fei Wu, Kun Kuang

TechRxiv 2026

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang^✉

arXiv 2026

Paper Project68

Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation

Tianyu Zhan, Kairui Fu, Chengfei Lv, Zheqi Lv, Shengyu Zhang^✉

arXiv 2026

ReCal: Reward Calibration for RL-based LLM Routing

Qihang Yu, Hanwen Tong, Zhengqi Zhang, Bo Zheng, Feng Wei, Shengyu Zhang^✉, Zemin Liu, Fei Wu

arXiv 2026

World-Model-Augmented Web Agents with Action Correction

Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li, Shengyu Zhang^✉

arXiv 2026

2025

Published

CHORD: Customizing Hybrid-precision On-device Model for Sequential Recommendation with Device-cloud Collaboration

Tianqi Liu, Kairui Fu, Shengyu Zhang^✉, Wenyan Fan, Zhaocheng Du, Jieming Zhu, Fan Wu, Fei Wu

ACM MM 2025

Collaboration of Large Language Models and Small Recommendation Models for Device-Cloud Recommendation

Zheqi Lv, Tianyu Zhan, Wenjie Wang, Xinyu Lin, Shengyu Zhang^✉, Wenqiao Zhang, Jiwei Li, Kun Kuang, Fei Wu

KDD 2025

Cuff-KT: Tackling Learners' Real-time Learning Pattern Adjustment via Tuning-Free Knowledge State Guided Model Updating

Yiyun Zhou, Zheqi Lv, Shengyu Zhang, Jingyuan Chen

KDD 2025

Paper Project5

Democratizing AI through model fusion: A comprehensive review and future directions

Qi Zhou, Yiming Zhang, Yanggan Gu, Yuanyi Wang, Zhijie Sang, Zhaoyi Yan, Zhen Li, Shengyu Zhang, Fei Wu, Hongxia Yang

Nexus 2025

Device-Cloud Collaborative Correction for On-Device Recommendation

Tianyu Zhan, Shengyu Zhang^✉, Zheqi Lv, Jieming Zhu, Jiwei Li, Fan Wu, Fei Wu

IJCAI 2025

Disentangled Knowledge Tracing for Alleviating Cognitive Bias

Yiyun Zhou, Zheqi Lv, Shengyu Zhang, Jingyuan Chen

WWW 2025

Paper Project26

EcoFace: Audio-Visual Emotional Co-Disentanglement Speech-Driven 3D Talking Face Generation

Jiajian Xie, Shengyu Zhang^✉, Mengze Li, Chengfei Lv, Zhou Zhao, Fei Wu

ICLR 2025

Paper Project0

Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks

Yurun Chen, Xueyu Hu, Keting Yin, Juncheng Li, Shengyu Zhang^✉

ACM MM 2025

ExpTalk: Diverse Emotional Expression via Adaptive Disentanglement and Refined Alignment for Speech-Driven 3D Facial Animation

Zhan Qu, Shengyu Zhang^✉, Mengze Li, Zhuo Chen, Chengfei Lv, Zhou Zhao, Fei Wu

IJCAI 2025

FedMcon: an adaptive aggregation method for federated learning via meta controller

Tao Shen, Zexi Li, Ziyu Zhao, Didi Zhu, Zheqi Lv, Kun Kuang, Shengyu Zhang, Chao Wu, Fei Wu

FITEE 2025

Forward Once for All: Structural Parameterized Adaptation for Efficient Cloud-coordinated On-device Recommendation

Kairui Fu, Zheqi Lv, Shengyu Zhang^✉, Fan Wu, Kun Kuang

KDD 2025

Knowledge-empowered, collaborative, and co-evolving AI models: The post-LLM roadmap

Engineering 2025

MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

Kunxi Li, Zhonghua Jiang, Zhouzhou Shen, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉, Fan Wu, Fei Wu

ACL 2025

MergeNet: Knowledge Migration Across Heterogeneous Models, Tasks, and Modalities

Kunxi Li, Tianyu Zhan, Kairui Fu, Shengyu Zhang^✉, Kun Kuang, Jiwei Li, Zhou Zhao, Fan Wu, Fei Wu

AAAI 2025

Optimize Incompatible Parameters Through Compatibility-aware Knowledge Integration

Zheqi Lv, Keming Ye, Zishu Wei, Qi Tian, Shengyu Zhang^✉, Wenqiao Zhang, Wenjie Wang, Kun Kuang, Tat-Seng Chua, Fei Wu

AAAI 2025

OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use

ACL 2025

Paper Project487

Tackling Device Data Distribution Real-time Shift via Prototype-based Parameter Editing

Zheqi Lv, Wenqiao Zhang, Kairui Fu, Qi Tian, Shengyu Zhang^✉, Jiajie Su, Jingyuan Chen, Kun Kuang, Fei Wu

ACM MM 2025

FedCFA: Alleviating Simpson's Paradox in Model Aggregation with Counterfactual Federated Learning

Zhonghua Jiang, Jimin Xu, Shengyu Zhang^✉, Tao Shen, Jiwei Li, Kun Kuang, Haibin Cai, Fei Wu

AAAI 2025

Paper Project24

Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving

Chuxue Cao, Mengze Li, Juntao Dai, Jinluan Yang, Zijian Zhao, Shengyu Zhang, Weijie Shi, Chengzhong Liu, Sirui Han, Yike Guo

EMNLP 2025

Preprints · arXiv

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

Zheqi Lv, Junhao Chen, Qi Tian, Keting Yin, Shengyu Zhang^✉, Fei Wu

arXiv 2025

Paper Project14

PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models

Zhonghua Jiang, Kunxi Li, Yiyun Zhou, Sihao Liu, Yufan Xiong, Zhaode Wang, Chengfei Lv, Shengyu Zhang^✉

arXiv 2025

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Yuhang Liu, Pengxiang Li, Congkai Xie, Xueyu Hu, Xiaotian Han, Shengyu Zhang^✉, Hongxia Yang, Fei Wu

arXiv 2025

Paper Project67

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang^✉

arXiv 2025

GUI-PRA: Process Reward Agent for GUI Tasks

Tao Xiong, Xavier Hu, Yurun Chen, Yuhang Liu, Changqiao Wu, Pengzhi Gao, Wei Liu, Jian Luan, Shengyu Zhang^✉

arXiv 2025