Publications

You can also find my articles on my Google Scholar profile.

Publications

● Generalizable Geometric Image Caption Synthesis

Authors: Yue Xin*, 'Wenyuan Wang*, Rui Pan, Ruida Wang, BingXu Meng, Renjie Pi, Shizhe Diao, Tong Zhang

ICLR 2026(Under Review)

A reinforcement learning-based framework for generating semantically aligned geometry image-caption pairs, creating the first dataset with full modality equivalence for geometric reasoning.

● Probabilistic Residual User Clustering

Authors: Wenyuan Wang, Yusong Zhao, Zihao Xu, Hengyi Wang, Shreya Venugopal, Desmond Lobo, Chengzhi Mao, Qi Xu, Zhigang Hua, Yan Xie, Bo Long, Shuang Yang, Hao Wang

IJCAI2025 Workshop / Submitted to TMLR

A causal Bayesian framework that clusters users and models residuals between predicted and true ratings to enhance recommendation accuracy.

● Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Authors: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang

NAACL 2025 Main

A comprehensive benchmark for evaluating the long-context capabilities of multimodal large language models.

● Continual Learning of Large Language Models: A Comprehensive Survey

Authors: Haizhou Shi, Zihao Xu, Hengyi Wang, Weiyi Qin, Wenyuan Wang, Yibin Wang, Zifeng Wang, Sayna Ebrahimi, Hao Wang

ACM Computing Surveys

A comprehensive survey on continual learning approaches for large language models, covering methodologies, challenges, and future directions.

● Multi-tailed vision transformer for efficient inference

Authors: Yunke Wang, Bo Du, Wenyuan Wang, Chang Xu

Neural Networks

A novel architecture that uses multiple tails to generate visual sequences of different lengths for efficient vision transformer inference.

Wenyuan Wang(王文渊)

Publications

Publications

● Generalizable Geometric Image Caption Synthesis

● Probabilistic Residual User Clustering

● Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

● Continual Learning of Large Language Models: A Comprehensive Survey

● Multi-tailed vision transformer for efficient inference