CVPR 2025 Saturday 06/14

Timezone: America/Chicago

Full Schedule Wed 6/11 Thu 6/12 Fri 6/13 Sat 6/14 Sun 6/15

Registration Desk

Oral Session 3A: 3D Computer Vision

9:00 AM - 10:15 AM

5 Events in this session

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

Zhengqi Li · Richard Tucker · Forrester Cole · Qianqian Wang · Linyi Jin · Vickie Ye · Angjoo Kanazawa · Aleksander Holynski · Noah Snavely

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

Linyi Jin · Richard Tucker · Zhengqi Li · David Fouhey · Noah Snavely · Aleksander Holynski

Continuous 3D Perception Model with Persistent State

Qianqian Wang · Yifei Zhang · Aleksander Holynski · Alexei A. Efros · Angjoo Kanazawa

TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion

Yiran Wang · Jiaqi Li · Chaoyi Hong · Ruibo Li · Liusheng Sun · Xiao Song · Zhe Wang · Zhiguo Cao · Guosheng Lin

Neural Inverse Rendering from Propagating Light

Anagh Malik · Benjamin Attal · Andrew Xie · Matthew O’Toole · David B. Lindell

Go to Event Page

Oral

Oral Session 3B: Multimodal Computer Vision

9:00 AM - 10:15 AM

5 Events in this session

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

Kaiyu Li · Ruixun Liu · Xiangyong Cao · Xueru Bai · Feng Zhou · Deyu Meng · Wang Zhi

Towards Universal Dataset Distillation via Task-Driven Diffusion

Ding Qi · Jian Li · Junyao Gao · Shuguang Dou · Ying Tai · Jianlong Hu · Bo Zhao · Yabiao Wang · Chengjie Wang · Cai Rong Zhao

IceDiff: High Resolution and High-Quality Arctic Sea Ice Forecasting with Generative Diffusion Prior

Jingyi Xu · Siwei Tu · Weidong Yang · Ben Fei · Shuhao Li · Keyi Liu · Yeqi Luo · Lipeng Ma · Lei Bai

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning

Kunyu Wang · Xueyang Fu · Xin Lu · Chengjie Ge · Chengzhi Cao · Wei Zhai · Zheng-Jun Zha

Keep the Balance: A Parameter-Efficient Symmetrical Framework for RGB+X Semantic Segmentation

Jiaxin Cai · Jingze Su · Qi Li · Wenjie Yang · Shu Wang · Tiesong Zhao · Shengfeng He · Wenxi Liu

Go to Event Page

Oral

Oral Session 3C: Vision and Language

9:00 AM - 10:15 AM

5 Events in this session

Identifying and Mitigating Position Bias of Multi-image Vision-Language Models

Xinyu Tian · Shu Zou · Zhaoyuan Yang · Jing Zhang

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

Zhihe Yang · Xufang Luo · Dongqi Han · Yunjian Xu · Dongsheng Li

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

Zicheng Zhang · Tengchuan Kou · Chunyi Li · Shushi Wang · Wei Sun · Wei Wang · Xiaoyu Li · ZongYu Wang · Xuezhi Cao · Xiongkuo Min · Xiaohong Liu · Guangtao Zhai

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Jihan Yang · Shusheng Yang · Anjali W. Gupta · Rilyn Han · Li Fei-Fei · Saining Xie

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

Andrew Szot · Bogdan Mazoure · Omar Attia · Aleksei Timofeev · Harsh Agrawal · R Devon Hjelm · Zhe Gan · Zsolt Kira · Alexander Toshev

Go to Event Page

Demonstration

Demos

10:30 AM - 12:30 PM

Event Ellipsometer: Event-based Mueller-Matrix Video Imaging, Ryota Maeda, Yunseong Moon, Seung-Hwan Baek
Mobile Diffusion for Video Editing, Amirhossein Habibian 3 3D-Pose-Based Evaluation of the Risk of Sarcopenia, Yu-Hsuan Chiu, Gee-Sern Jison Hsu, Jiunn-Horng Kang, Jie-Syuan Wu
Automated Video Clustering and Annotation Software (AVCAS), Chukwuemeka Duru, George Awad
GenECA: A Generalizable Framework for Real-Time Multimodal Embodied Conversational Agents with Emotion-Sensitive Interaction, Santosh Patapati, Trisanth Srinivasan
AR2D2: Training a Robot Without A Robot, Abhimanyu Saighal, Jiafei Duan, Ranjay Krishna, Dieter Fox
HiRISE: High-Resolution Image Scaling for Edge ML via In-Sensor Compression and Selective ROI, Brendan Reidy, Peyton Chandarana, Ramtin Zand
Event-Driven ASL Recognition: Building a DVS Dataset for Neuromorphic Systems, Arshia Eslami, James (Blake) Seekings, Peyton Chandarana, Ramtin Zand
Real-time Facial Expression Recognition For Intuitive Robot Coaches, Peyton Chandarana, Mohammadreza Mohammadi, Hasti Zanganeh, Ramtin Zand
TaoAvatar, Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
Toward Provably Private Image Obfuscation with Diffusion Models, Joseph Roberson, Tianbao Ma, Liyue Fan
VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation, Thomas Frick, Niccolo Avogaro, Yagmur G. Cinar, Daniel Caraballo, Cezary Skura, Filip M. Janicki, Piotr Kluska, Brown Ebouky, Nicola Farronato, Florian Scheidegger, Cristiano Malossi, Konrad Schindler, Andrea Bartezzaghi, Roy Assaf, Mattia Rigotti
Edge AI in Action: Deploying Multi-Modal Models in Edge AI Devices, Fabricio Batista Narcizo, Elizabete Munzlinger, Anuj Dutt, Shan Ahmed Shaffi, Sai Narsi Reddy Donthi Reddy
Morfis, Dimitrios Mallis, Mohamed Adel Mohamed Ali, Ahmet Serdar Karadeniz, Anis Kacem, Djamila Aouada

... more

Poster

Poster Session 3

10:30 AM - 12:30 PM

483 Events in this session

LLM-driven Multimodal and Multi-Identity Listening Head Generation

Peiwen Lai · Weizhi Zhong · Yipeng Qin · Xiaohang Ren · Baoyuan Wang · Guanbin Li

INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations

Yongming Zhu · Longhao Zhang · Zhengkun Rong · Tianshu Hu · Shuang Liang · Zhipengge

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

Jiazhi Guan · Kaisiyuan Wang · Zhiliang Xu · Quanwei Yang · Yasheng SUN · Shengyi He · Borong Liang · Yukang Cao · Yingying Li · Haocheng Feng · Errui Ding · Jingdong Wang · Youjian Zhao · Hang Zhou · Ziwei Liu

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

Jiahe Li · Jiawei Zhang · Xiao Bai · Jin Zheng · Jun Zhou · Lin Gu

Dynamic Stereotype Theory Induced Micro-expression Recognition with Oriented Deformation

Bohao Zhang · Xuejiao Wang · Changbo Wang · Gaoqi He

Coherent 3D Portrait Video Reconstruction via Triplane Fusion

Shengze Wang · Xueting Li · Chao Liu · Matthew Chan · Michael Stengel · Henry Fuchs · Shalini De Mello · Koki Nagano

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Jianchuan Chen · Jingchuan Hu · Gaige Wang · Zhonghua Jiang · Tiansong Zhou · Zhiwen Chen · Chengfei Lv

Synthetic Prior for Few-Shot Drivable Head Avatar Inversion

Wojciech Zielonka · Stephan J. Garbin · Alexandros Lattas · George Kopanas · Paulo Gotardo · Thabo Beeler · Justus Thies · Timo Bolkart

RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars

Linzhou Li · Yumeng Li · Yanlin Weng · Youyi Zheng · Kun Zhou

AvatarArtist: Open-Domain 4D Avatarization

Hongyu Liu · Xuan Wang · Ziyu Wan · Yue Ma · Jingye Chen · Yanbo Fan · Yujun Shen · Yibing Song · Qifeng Chen

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

Dimitrios Gerogiannis · Foivos Paraperas Papantoniou · Rolandos Alexandros Potamias · Alexandros Lattas · Stefanos Zafeiriou

Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Zhiyang Guo · Jinxu Xiang · Kai Ma · Wengang Zhou · Houqiang Li · Ran Zhang

PhysAnimator: Physics-Guided Generative Cartoon Animation

Tianyi Xie · Yiwei Zhao · Ying Jiang · Chenfanfu Jiang

Zero-Shot Head Swapping in Real-World Scenarios

Sohyun Jeong · Taewoong Kang · Hyojin Jang · Jaegul Choo

CaricatureBooth: Data-Free Interactive Caricature Generation in a Photo Booth

Zhiyu Qu · Yunqi Miao · Zhensong Zhang · Jifei Song · Jiankang Deng · Yi-Zhe Song

FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields

Kwan Yun · Chaelin Kim · Hangyeul Shin · Junyong Noh

D^3-Human: Dynamic Disentangled Digital Human from Monocular Video

Honghu Chen · Bo Peng · Yunfan Tao · Juyong Zhang

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

Radu Alexandru Rosu · Keyu Wu · Yao Feng · Youyi Zheng · Michael J. Black

Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios

Hang Shao · lei luo · Jianjun Qian · Mengkai Yan · Shuo Chen · Jian Yang

GCC: Generative Color Constancy via Diffusing a Color Checker

Chen-Wei Chang · Cheng-De Fan · Chia-Che Chang · Yi-Chen Lo · Yu-Chee Tseng · Jiun-Long Huang · Yu-Lun Liu

DarkIR: Robust Low-Light Image Restoration

Daniel Feijoo · Juan C. Benito · Alvaro Garcia · Marcos Conde

PolarFree: Polarization-based Reflection-Free Imaging

Mingde Yao · Menglu Wang · King Man Tam · Lingen Li · Tianfan Xue · Jinwei Gu

OpticalNet: An Optical Imaging Dataset and Benchmark Beyond the Diffraction Limit

Benquan Wang · Ruyi An · Jin-Kyu So · Sergei Kurdiumov · Eng Aik Chan · Giorgio Adamo · Yuhan Peng · Yewen Li · Bo An

A Physics-Informed Blur Learning Framework for Imaging Systems

liqun.chen · Yuxuan Li · Jun Dai · Jinwei Gu · Tianfan Xue

MaDCoW: Marginal Distortion Correction for Wide-Angle Photography with Arbitrary Objects

Kevin Zhang · Jia-Bin Huang · Jose Echevarria · Stephen DiVerdi · Aaron Hertzmann

Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination Variation

Hadi Alzayer · Philipp Henzler · Jonathan T. Barron · Jia-Bin Huang · Pratul P. Srinivasan · Dor Verbin

IRGS: Inter-Reflective Gaussian Splatting with 2D Gaussian Ray Tracing

Chun Gu · Xiaofei Wei · Zixuan Zeng · Yuxuan Yao · Li Zhang

Volumetrically Consistent 3D Gaussian Rasterization

Chinmay Talegaonkar · Yash Belhe · Ravi Ramamoorthi · Nicholas Antipa

MultimodalStudio: A Heterogeneous Sensor Dataset and Framework for Neural Rendering across Multiple Imaging Modalities

Federico Lincetto · Gianluca Agresti · Mattia Rossi · Pietro Zanuttigh

Neural Inverse Rendering from Propagating Light

Anagh Malik · Benjamin Attal · Andrew Xie · Matthew O’Toole · David B. Lindell

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

Sean Wu · Shamik Basu · Tim Broedermann · Luc Van Gool · Christos Sakaridis

MAGE : Single Image to Material-Aware 3D via the Multi-View G-Buffer Estimation Model

Haoyuan Wang · Zhenwei Wang · Xiaoxiao Long · Cheng Lin · Gerhard Hancke · Rynson W.H. Lau

3D-HGS: 3D Half-Gaussian Splatting

Haolin Li · Jinyang Liu · Mario Sznaier · Octavia Camps

Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Junha Hyung · Kinam Kim · Susung Hong · Min-Jung Kim · Jaegul Choo

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation

Zhuoman Liu · Weicai Ye · Yan Luximon · Pengfei Wan · Di ZHANG

ProbeSDF: Light Field Probes For Neural Surface Reconstruction

Briac Toussaint · Diego Thomas · Jean-Sébastien Franco

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Zhiyuan Ma · Xinyue Liang · Rongyuan Wu · Xiangyu Zhu · Zhen Lei · Lei Zhang

FruitNinja: 3D Object Interior Texture Generation with Gaussian Splatting

Fangyu Wu · Yuhao Chen

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

Wang Zhao · Yan-Pei Cao · Jiale Xu · Yue-Jiang Dong · Ying Shan

CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images

Chen Cheng · Jiacheng Wei · Tianrun Chen · Chi Zhang · Xiaofeng Yang · Shangzhan Zhang · Bingchen Yang · Chuan-Sheng Foo · Guosheng Lin · Qixing Huang · Fayao Liu

MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation

Jinnan Chen · Lingting Zhu · Zeyu HU · Shengju Qian · Yugang Chen · Xin Wang · Gim Hee Lee

Scaling Mesh Generation via Compressive Tokenization

Haohan Weng · Zibo Zhao · Biwen Lei · Xianghui Yang · Jian Liu · Zeqiang Lai · Zhuo Chen · Liu Yuhong · Jie Jiang · Chunchao Guo · Tong Zhang · Shenghua Gao · C.L.Philip Chen

Hierarchical Gaussian Mixture Model Splatting for Efficient and Part Controllable 3D Generation

Qitong Yang · Mingtao Feng · Zijie Wu · Weisheng Dong · Fangfang Wu · Yaonan Wang · Ajmal Mian

Identity-preserving Distillation Sampling by Fixed-Point Iterator

SeonHwa Kim · Jiwon Kim · Soobin Park · Donghoon Ahn · Jiwon Kang · Seungryong Kim · Kyong Hwan Jin · Eunju Cha

PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?

Martin Spitznagel · Jan Vaillant · Janis Keuper

EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting

Dong In Lee · Hyeongcheol Park · Jiyoung Seo · Eunbyung Park · Hyunje Park · Ha Dam Baek · Shin sangheon · sangmin kim · Sangpil Kim

DashGaussian: Optimizing 3D Gaussian Splatting in 200 Seconds

Youyu Chen · Junjun Jiang · Kui Jiang · Xiao Tang · Zhihao Li · Xianming Liu · Yinyu Nie

Efficient Decoupled Feature 3D Gaussian Splatting via Hierarchical Compression

Zhenqi Dai · Ting Liu · Yanning Zhang

SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting

Jiahui Zhang · Fangneng Zhan · Ling Shao · Shijian Lu

RestorGS: Depth-aware Gaussian Splatting for Efficient 3D Scene Restoration

Yuanjian Qiao · Mingwen Shao · Lingzhuang Meng · Kai Xu

Seeing A 3D World in A Grain of Sand

Yufan Zhang · Yu Ji · Yu Guo · Jinwei Ye

CoA: Towards Real Image Dehazing via Compression-and-Adaptation

Long Ma · Yuxin Feng · Yan Zhang · Jinyuan Liu · Weimin Wang · Guang-Yong Chen · Chengpei Xu · Zhuo Su

S2D-LFE: Sparse-to-Dense Light Field Event Generation

Yutong Liu · Wenming Weng · Yueyi Zhang · Zhiwei Xiong

Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

Li Fang · Hao Zhu · Longlong Chen · Fei Hu · Long Ye · Zhan Ma

FrugalNeRF: Fast Convergence for Extreme Few-shot Novel View Synthesis without Learned Priors

Chin-Yang Lin · Chung-Ho Wu · Changhan Yeh · Shih Han Yen · Cheng Sun · Yu-Lun Liu

MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World

Ankit Dhiman · Manan Shah · R. Venkatesh Babu

Matrix3D: Large Photogrammetry Model All-in-One

Yuanxun Lu · Jingyang Zhang · Tian Fang · Jean-Daniel Nahmias · Yanghai Tsin · Long Quan · Xun Cao · Yao Yao · Shiwei Li

SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs

Guibiao Liao · Qing Li · Zhenyu Bao · Guoping Qiu · KANGLIN LIU

Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency

Hyunho Ha · Lei Xiao · Christian Richardt · Thu Nguyen-Phuoc · Changil Kim · Min H. Kim · Douglas Lanman · Numair Khan

EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis

Sheng Miao · Jiaxin Huang · Dongfeng Bai · Xu Yan · Hongyu Zhou · Yue Wang · Bingbing Liu · Andreas Geiger · Yiyi Liao

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

Yuhan Wang · Fangzhou Hong · Shuai Yang · Liming Jiang · Wayne Wu · Chen Change Loy

Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views

Jiang Wu · Rui Li · Yu Zhu · Rong Guo · Jinqiu Sun · Yanning Zhang

NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction

Wenyuan Zhang · Emily Yue-ting Jia · Junsheng Zhou · Baorui Ma · Kanle Shi · Yu-Shen Liu · Zhizhong Han

Efficient Video Super-Resolution for Real-time Rendering with Decoupled G-buffer Guidance

Mingjun Zheng · Long Sun · Jiangxin Dong · Jinshan Pan

MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Sangwoon Kwak · Joonsoo Kim · Jun Young Jeong · Won-Sik Cheong · Jihyong Oh · Munchurl Kim

RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance

Yuheng Jiang · Zhehao Shen · Chengcheng Guo · Yu Hong · Zhuo Su · Yingliang Zhang · Marc Habermann · Lan Xu

DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

Miaowei Wang · Yibo Zhang · Rui Ma · Weiwei Xu · Changqing Zou · Daniel Morris

Thin-Shell-SfT: Fine-Grained Monocular Non-rigid 3D Surface Tracking with Neural Deformation Fields

Navami Kairanda · Marc Habermann · Shanthika Shankar Naik · Christian Theobalt · Vladislav Golyanik

Co-Speech Gesture Video Generation with Implicit Motion-Audio Entanglement

Xinjie Li · Ziyi Chen · Xinlu Yu · Iek-Heng Chu · Peng Chang · Jing Xiao

QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers

Natacha Kuete Meli · Vladislav Golyanik · Marcel Seelbach Benkner · Michael Moeller

Image Reconstruction from Readout-Multiplexed Single-Photon Detector Arrays

Shashwath Bharadwaj · Ruangrawee Kitichotkul · Akshay Agarwal · Vivek K Goyal

Spk2SRImgNet: Super-Resolve Dynamic Scene from Spike Stream via Motion Aligned Collaborative Filtering

Yuanlin Wang · Yiyang Zhang · Ruiqin Xiong · Jing Zhao · Jian Zhang · Xiaopeng Fan · Tiejun Huang

EventPSR: Surface Normal and Reflectance Estimation from Photometric Stereo Using an Event Camera

Bohan Yu · Jin Han · Boxin Shi · Imari Sato

PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting

Cheng Zhang · Haofei Xu · Qianyi Wu · Camilo Cruz Gambardella · Dinh Phung · Jianfei Cai

QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

Xuan Shen · Weize Ma · Jing Liu · Changdi Yang · Rui Ding · Quanyi Wang · Henghui Ding · Wei Niu · Yanzhi Wang · Pu Zhao · Jun Lin · Jiuxiang Gu

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Jianhao Zheng · Zihan Zhu · Valentin Bieri · Marc Pollefeys · Songyou Peng · Iro Armeni

Continuous 3D Perception Model with Persistent State

Qianqian Wang · Yifei Zhang · Aleksander Holynski · Alexei A. Efros · Angjoo Kanazawa

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

Zhengqi Li · Richard Tucker · Forrester Cole · Qianqian Wang · Linyi Jin · Vickie Ye · Angjoo Kanazawa · Aleksander Holynski · Noah Snavely

Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video

Hoang Chuong Nguyen · Wei Mao · Jose M. Alvarez · Miaomiao Liu

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Jinneyong Kim · Seung-Hwan Baek

MVSAnywhere: Zero-Shot Multi-View Stereo

Sergio Izquierdo · Mohamed Sayed · Michael Firman · Guillermo Garcia-Hernando · Daniyar Turmukhambetov · Javier Civera · Oisin Mac Aodha · Gabriel Brostow · Jamie Watson

Three-view Focal Length Recovery From Homographies

Yaqing Ding · Viktor Kocur · Zuzana Berger Haladova · Qianliang Wu · Shen Cai · Jian Yang · Zuzana Kukelova

Full-DoF Egomotion Estimation for Event Cameras Using Geometric Solvers

Ji Zhao · Banglei Guan · Zibin Liu · Laurent Kneip

GeoDepth: From Point-to-Depth to Plane-to-Depth Modeling for Self-Supervised Monocular Depth Estimation

Haifeng Wu · Shuhang Gu · Lixin Duan · Wen Li

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

Xudong Jiang · Fangjinhua Wang · Silvano Galliani · Christoph Vogel · Marc Pollefeys

HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset

Ron Ferens · Yosi Keller

Learning to Filter Outlier Edges in Global SfM

Nicole Damblon · Marc Pollefeys · Daniel Barath

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

Linyi Jin · Richard Tucker · Zhengqi Li · David Fouhey · Noah Snavely · Aleksander Holynski

Towards Optimizing Large-Scale Multi-Graph Matching in Bioimaging

Max Kahl · Sebastian Stricker · Lisa Hutschenreiter · Florian Bernard · Carsten Rother · Bogdan Savchynskyy

Bridging Viewpoint Gaps: Geometric Reasoning Boosts Semantic Correspondence

Qiyang Qian · Hansheng Chen · Masayoshi Tomizuka · Kurt Keutzer · Qianqian Wang · Chenfeng Xu

MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

Aviral Chharia · Wenbo Gou · Haoye Dong

Multi-View Pose-Agnostic Change Localization with Zero Labels

Chamuditha Jayanga Galappaththige · Jason Lai · Lloyd Windrim · Donald G. Dansereau · Niko Suenderhauf · Dimity Miller

Structure-Aware Correspondence Learning for Relative Pose Estimation

Yihan Chen · Wenfei Yang · Huan Ren · Shifeng Zhang · Tianzhu Zhang · Feng Wu

Co-op: Correspondence-based Novel Object Pose Estimation

Sungphill Moon · Hyeontae Son · Dongcheol Hur · Sangwook Kim

Any6D: Model-free 6D Pose Estimation of Novel Object

Taeyeop Lee · Bowen Wen · Minjun Kang · Gyuree Kang · In So Kweon · Kuk-Jin Yoon

CRISP: Object Pose and Shape Estimation with Test-Time Adaptation

Jingnan Shi · Rajat Talak · Harry Zhang · David Jin · Luca Carlone

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

Jingshun Huang · Haitao Lin · Tianyu Wang · Yanwei Fu · Xiangyang Xue · Yi Zhu

EchoMatch: Partial-to-Partial Shape Matching via Correspondence Reflection

Yizheng Xie · Viktoria Ehm · Paul Roetzer · Nafie El Amrani · Maolin Gao · Florian Bernard · Daniel Cremers

Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation

Sayak Nag · Udita Ghosh · Calvin-Khang Ta · Sarosij Bose · Jiachen Li · Amit K. Roy-Chowdhury

Focusing on Tracks for Online Multi-Object Tracking

Kyujin Shim · Kangwook Ko · YuJin Yang · Changick Kim

GRAE-3DMOT: Geometry Relation-Aware Encoder for Online 3D Multi-Object Tracking

Hyunseop Kim · Hyo-Jun Lee · Yonguk Lee · Jinu Lee · Hanul Kim · Yeong Jun Koh

PointSR: Self-Regularized Point Supervision for Drone-View Object Detection

Weizhuo Li · Yue Xi · Wenjing Jia · zehao zhang · Fei Li · Xiangzeng Liu · Qiguang Miao

Multi-Modal Aerial-Ground Cross-View Place Recognition with Neural ODEs

Sijie Wang · Rui She · Qiyu Kang · Siqi Li · Disheng Li · Tianyu Geng · Shangshu Yu · Wee Peng Tay

OffsetOPT: Explicit Surface Reconstruction without Normals

Huan Lei

High-Fidelity Lightweight Mesh Reconstruction from Point Clouds

Chen Zhang · Wentao Wang · Ximeng Li · Xinyao Liao · Wanjuan Su · Wenbing Tao

Parametric Point Cloud Completion for Polygonal Surface Reconstruction

Zhaiyu Chen · Yuqing Wang · Liangliang Nan · Xiao Xiang Zhu

Self-Supervised Large Scale Point Cloud Completion for Archaeological Site Restoration

Aocheng Li · James R. Zimmer-Dauphinee · Rajesh Kalyanam · Ian Lindsay · Parker VanValkenburgh · Steven Wernke · Daniel Aliaga

Dual Focus-Attention Transformer for Robust Point Cloud Registration

Kexue Fu · Ming'zhi Yuan · Changwei Wang · Weiguang Pang · Jing Chi · Manning Wang · Longxiang Gao

Generalized Gaussian Entropy Model for Point Cloud Attribute Compression with Dynamic Likelihood Intervals

Changhao Peng

TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion

Yiran Wang · Jiaqi Li · Chaoyi Hong · Ruibo Li · Liusheng Sun · Xiao Song · Zhe Wang · Zhiguo Cao · Guosheng Lin

SeaLion: Semantic Part-Aware Latent Point Diffusion Models for 3D Generation

Dekai Zhu · Yan Di · Stefan Gavranovic · Slobodan Ilic

Spectral Informed Mamba for Robust Point Cloud Processing

Ali Bahri · Moslem Yazdanpanah · Mehrdad Noori · Sahar Dastani · Milad Cheraghalikhani · David OSOWIECHI · Gustavo Vargas Hakim · Farzad Beizaee · Ismail Ben Ayed · Christian Desrosiers

Hyperbolic Uncertainty-Aware Few-Shot Incremental Point Cloud Segmentation

Tanuj Sur · Samrat Mukherjee · Kaizer Rahaman · Subhasis Chaudhuri · Muhammad Haris Khan · Biplab Banerjee

CamPoint: Boosting Point Cloud Segmentation with Virtual Camera

Jianhui Zhang · Luo Yizhi · Zicheng Zhang · Xuecheng Nie · Bonan Li

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge

Radu Berdan · Beril Besbinar · Christoph Reinders · Junji Otsuka · Daisuke Iso

ViKIENet: Towards Efficient 3D Object Detection with Virtual Key Instance Enhanced Network

Zhuochen Yu · Bijie Qiu · Andy W. H. Khong

ViiNeuS: Volumetric Initialization for Implicit Neural Surface Reconstruction of Urban Scenes with Limited Image Overlap

Hala Djeghim · Nathan Piasco · Moussab Bennehar · Luis Guillermo Roldao Jimenez · Dzmitry Tsishkou · Désiré Sidibé

D^3CTTA: Domain-Dependent Decorrelation for Continual Test-Time Adaption of 3D LiDAR Segmentation

Jichun Zhao · Haiyong Jiang · Haoxuan Song · Jun Xiao · Dong Gong

Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving

Alexey Nekrasov · Malcolm Burdorf · Stewart Worrall · Bastian Leibe · Julie Stephany Berrio Perez

Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene Attacks

Daizong Liu · Wei Hu

Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAV Target Detection

Houzhang Fang · Xiaolin Wang · Zengyang Li · Lu Wang · Qingshan Li · Yi Chang · Luxin Yan

RCP-Bench: Benchmarking Robustness for Collaborative Perception Under Diverse Corruptions

Shihang Du · Sanqing Qu · Tianhang Wang · Xudong Zhang · Yunwei Zhu · Jian Mao · Fan Lu · Qiao Lin · Guang Chen

Generative Map Priors for Collaborative BEV Semantic Segmentation

Jiahui Fu · Yue Gong · Luting Wang · Shifeng Zhang · Xu Zhou · Si Liu

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

Xiyue Guo · Jiarui Hu · Junjie Hu · Hujun Bao · Guofeng Zhang

Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene Completion

Jongseong Bae · Junwoo Ha · Ha Young Kim

OccMamba: Semantic Occupancy Prediction with State Space Models

Heng Li · Yuenan Hou · Xiaohan Xing · Yuexin Ma · Xiao Sun · Yanyong Zhang

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Haoyi Jiang · Liu Liu · Tianheng Cheng · Xinjie wang · Tianwei Lin · Zhizhong Su · Wenyu Liu · Xinggang Wang

UniScene: Unified Occupancy-centric Driving Scene Generation

Bohan Li · Jiazhe Guo · Hongsi Liu · Yingshuang Zou · Yikang Ding · Xiwu Chen · Hu ZHU · Feiyang Tan · Chi Zhang · Tiancai Wang · Shuchang Zhou · Li Zhang · Xiaojuan Qi · Hao Zhao · Mu Yang · Wenjun Zeng · Xin Jin

SplatAD: Real-Time Lidar and Camera Rendering with 3D Gaussian Splatting for Autonomous Driving

Georg Hess · Carl Lindström · Maryam Fatemi · Christoffer Petersson · Lennart Svensson

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

Katrin Renz · Long Chen · Elahe Arani · Oleg Sinavski

FreeSim: Toward Free-viewpoint Camera Simulation in Driving Scenes

Lue Fan · Hao ZHANG · Qitai Wang · Hongsheng Li · Zhaoxiang Zhang

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

Guosheng Zhao · Chaojun Ni · Xiaofeng Wang · Zheng Zhu · Xueyang Zhang · Yida Wang · Guan Huang · xinze chen · Boyuan Wang · Youyi Zhang · Wenjun Mei · Xingang Wang

Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene

Tai-Yu Daniel Pan · Sooyoung Jeon · Mengdi Fan · Jinsu Yoo · Zhenyang Feng · Mark Campbell · Kilian Q Weinberger · Bharath Hariharan · Wei-Lun Chao

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Bencheng Liao · Shaoyu Chen · haoran yin · Bo Jiang · Cheng Wang · Sixu Yan · xinbang zhang · Xiangyu Li · ying zhang · Qian Zhang · Xinggang Wang

TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent Perception

Zhiying Song · Lei Yang · Fuxi Wen · Jun Li

Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM

Yizhou Huang · Yihua Cheng · Kezhi Wang

SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving

Xuesong Chen · Linjiang Huang · Tao Ma · Rongyao Fang · Shaoshuai Shi · Hongsheng Li

Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method

Xinshuai Song · weixing chen · Yang Liu · Weikai Chen · Guanbin Li · Liang Lin

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving

Zhi-Yuan Zhang · Xiaofan Li · Zhihao Xu · Wenjie Peng · Zijian Zhou · Miaojing Shi · Shuangping Huang

Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models

Hao Ren · Yiming Zeng · Zetong Bi · Zhaoliang Wan · Junlong Huang · Hui Cheng

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

Steeven JANNY · Hervé Poirier · Leonid Antsfeld · Guillaume Bono · Gianluca Monaci · Boris Chidlovskii · Francesco Giuliari · Alessio Del Bue · Christian Wolf

ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting

Shaofei Cai · Zihao Wang · Kewei Lian · Zhancun Mu · Xiaojian Ma · Anji Liu · Yitao Liang

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments

Can Zhang · Gim Hee Lee

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Xin Wen · Bingchen Zhao · Yilun Chen · Jiangmiao Pang · Xiaojuan Qi

Robotic Visual Instruction

Yanbang Li · ZiYang Gong · Haoyang Li · Xiaoqi Huang · Haolan Kang · Guangpingbai · Xianzheng Ma

DynScene: Scalable Generation of Dynamic Robotic Manipulation Scenes for Embodied AI

Sangmin Lee · Sungyong Park · Heewon Kim

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation

Sen Wang · Le Wang · Sanping Zhou · Jingyi Tian · lijiayi · Haowen Sun · Wei Tang

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

Ning Gao · Yilun Chen · Shuai Yang · Xinyi Chen · Yang Tian · Hao Li · Haifeng Huang · Hanqing Wang · Tai Wang · Jiangmiao Pang

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Wenbo Wang · Fangyun Wei · Lei Zhou · Xi Chen · Lin Luo · Xiaohan Yi · Yizhong Zhang · Yaobo Liang · Chang Xu · Yan Lu · Jiaolong Yang · Baining Guo

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

Youxin Pang · Ruizhi Shao · Jiajun Zhang · Hanzhang Tu · Yun Liu · Boyao Zhou · Hongwen Zhang · Yebin Liu

Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

Shijian Jiang · Qi Ye · Rengan Xie · Yuchi Huo · Jiming Chen

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

Yinqiao Wang · Hao Xu · Pheng-Ann Heng · Chi-Wing Fu

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

Rolandos Alexandros Potamias · Jinglei Zhang · Jiankang Deng · Stefanos Zafeiriou

Analyzing the Synthetic-to-Real Domain Gap in 3D Hand Pose Estimation

Zhuoran ZHAO · Linlin Yang · Pengzhan Sun · Pan Hui · Angela Yao

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

Sirui Xu · Hung Yu Ling · Yu-Xiong Wang · Liangyan Gui

PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation

Uyoung Jeong · Jonathan Freer · Seungryul Baek · Hyung Jin Chang · Kwang In Kim

M3GYM: A Large-Scale Multimodal Multi-view Multi-person Pose Dataset for Fitness Activity Understanding in Real-world Settings

Qingzheng Xu · Ru Cao · Xin Shen · Heming Du · Sen Wang · Xin Yu

Certified Human Trajectory Prediction

Mohammadhossein Bahari · Saeed Saadatnejad · Amirhossein Askari Farsangi · Seyed-Mohsen Moosavi-Dezfooli · Alex Alahi

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate

Ming Yan · Xincheng Lin · Yuhua Luo · Shuqi Fan · Yudi Dai · Qixin Zhong · Lincai Zhong · Yuexin Ma · Lan Xu · Chenglu Wen · Siqi Shen · Cheng Wang

Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment

Hiromu Taketsugu · Takeru Oba · Takahiro Maeda · Shohei Nobuhara · Norimichi Ukita

Vision-Guided Action: Enhancing 3D Human Motion Prediction with Gaze-informed Affordance in 3D Scenes

Ting Yu · Yi Lin · Jun Yu · Zhenyu Lou · Qiongjie Cui

On Denoising Walking Videos for Gait Recognition

Dongyang Jin · Chao Fan · Jingzhe Ma · Jingkai Zhou · Weihua Chen · Shiqi Yu

ChainHOI: Joint-based Kinematic Chain Modeling for Human-Object Interaction Generation

Ling-An Zeng · Guohong Huang · Yi-Lin Wei · Shengbo Gu · Yu-Ming Tang · Jingke Meng · Wei-Shi Zheng

StickMotion: Generating 3D Human Motions by Drawing a Stickman

Tao Wang · Zhihua Wu · Qiaozhi He · Jiaming Chu · Ling Qian · Yu Cheng · Junliang Xing · Jian Zhao · Lei Jin

MixerMDM: Learnable Composition of Human Motion Diffusion Models

Pablo Ruiz-Ponce · German Barquero · Cristina Palmero · Sergio Escalera · Jose Garcia-Rodriguez

HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

Boyuan Wang · Xiaofeng Wang · Chaojun Ni · Guosheng Zhao · Zhiqin Yang · Zheng Zhu · Muyang Zhang · YuKun Zhou · xinze chen · Guan Huang · lihong liu · Xingang Wang

Poly-Autoregressive Prediction for Modeling Interactions

Neerja Thakkar · Tara Sadjadpour · Jathushan Rajasegaran · Shiry Ginosar · Jitendra Malik

Adapting Pre-trained 3D Models for Point Cloud Video Understanding via Cross-frame Spatio-temporal Perception

Baixuan Lv · Yaohua Zha · Tao Dai · Xue Yuerong · Ke Chen · Shu-Tao Xia

Recovering Dynamic 3D Sketches from Videos

Jaeah Lee · Changwoon Choi · Young Min Kim · Jaesik Park

FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity

Jinxi Li · Ziyang Song · Siyuan Zhou · Bo Yang

Dynamic Camera Poses and Where to Find Them

Chris Rockwell · Joseph Tung · Tsung-Yi Lin · Ming-Yu Liu · David Fouhey · Chen-Hsuan Lin

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

Jingxi Chen · Brandon Y. Feng · Haoming Cai · Tianfu Wang · Levi Burner · Dehao Yuan · Cornelia Fermuller · Christopher Metzler · Yiannis Aloimonos

InterDyn: Controllable Interactive Dynamics with Video Diffusion Models

Rick Akkerman · Haiwen Feng · Michael J. Black · Dimitrios Tzionas · Victoria Abrevaya

DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Emanuele Aiello · Umberto Michieli · Diego Valsesia · Mete Ozay · Enrico Magli

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Hanlin Wang · Hao Ouyang · Qiuyu Wang · Wen Wang · Ka Leong Cheng · Qifeng Chen · Yujun Shen · Limin Wang

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Xi Chen · Zhifei Zhang · He Zhang · Yuqian Zhou · Soo Ye Kim · Qing Liu · Yijun Li · Jianming Zhang · Nanxuan Zhao · Yilin Wang · Hui Ding · Zhe Lin · Hengshuang Zhao

Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think

Zhenyi Lu · Xiaoye Qu · Zhenyi Lu · Wei Wei · Sichen Liu · Yu Cheng

Generative Omnimatte: Learning to Decompose Video into Layers

Yao-Chih Lee · Erika Lu · Sarah Rumbley · Michal Geyer · Jia-Bin Huang · Tali Dekel · Forrester Cole

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot · Shie Mannor · Assaf Shocher · Gal Chechik · Assaf Hallak

Towards Practical Real-Time Neural Video Compression

Zhaoyang Jia · Bin Li · Jiahao Li · Wenxuan Xie · Linfeng Qi · Houqiang Li · Yan Lu

Neural Video Compression with Context Modulation

Chuanbo Tang · Zhuoyuan Li · Yifan Bian · Li Li · Dong Liu

Event-based Video Super-Resolution via State Space Models

Zeyu Xiao · Xinchao Wang

STDD: Spatio-Temporal Dual Diffusion for Video Generation

Shuaizhen Yao · Xiaoya Zhang · Xin Liu · Mengyi Liu · Zhen Cui

IceDiff: High Resolution and High-Quality Arctic Sea Ice Forecasting with Generative Diffusion Prior

Jingyi Xu · Siwei Tu · Weidong Yang · Ben Fei · Shuhao Li · Keyi Liu · Yeqi Luo · Lipeng Ma · Lei Bai

OSV: One Step is Enough for High-Quality Image to Video Generation

Xiaofeng Mao · Zhengkai Jiang · Fu-Yun Wang · Jiangning Zhang · Hao Chen · Mingmin Chi · Yabiao Wang · Wenhan Luo

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui · Xun Guo · Wengang Zhou · Yan Lu

CASP: Consistency-aware Audio-induced Saliency Prediction Model for Omnidirectional Video

Zhaolin Wan · Han Qin · Zhiyang Li · Xiaopeng Fan · Wangmeng Zuo · Debin Zhao

Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning

Zhiyuan Yan · Yandan Zhao · Shen Chen · Mingyi Guo · Xinghe Fu · Taiping Yao · Shouhong Ding · Yunsheng Wu · Li Yuan

OSDFace: One-Step Diffusion Model for Face Restoration

Jingkai Wang · Jue Gong · Lin Zhang · Zheng Chen · Xing Liu · Hong Gu · Yutong Liu · Yulun Zhang · Xiaokang Yang

MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting

Mengqiu XU · Kaixin Chen · Heng Guo · Yixiang Huang · Ming Wu · Zhenwei Shi · Chuang Zhang · Jun Guo

Feature Spectrum Learning for Remote Sensing Change Detection

Qi Zang · Dong Zhao · Shuang Wang · Dou Quan · Licheng Jiao · Zhun Zhong

Dual-Granularity Semantic Guided Sparse Routing Diffusion Model for General Pansharpening

Yinghui Xing · Qu Li Tao · Shizhou Zhang · Di Xu · YingkunYang · Yanning Zhang

Hyperspectral Pansharpening via Diffusion Models with Iteratively Zero-Shot Guidance

Jin-Liang Xiao · Ting-Zhu Huang · Liang-Jian Deng · Guang Lin · Zihan Cao · Chao Li · Qibin Zhao

Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image Denoising

Yuchen Wang · Hongyuan Wang · Lizhi Wang · Xin Wang · Lin Zhu · Wanxuan Lu · Hua Huang

Hazy Low-Quality Satellite Video Restoration Via Learning Optimal Joint Degradation Patterns and Continuous-Scale Super-Resolution Reconstruction

Ning Ni · Libao Zhang

Iterative Predictor-Critic Code Decoding for Real-World Image Dehazing

Jiayi Fu · Siyu Liu · Zikun Liu · Chun-Le Guo · Hyunhee Park · Rui-Qi Wu · Guoqing Wang · Chongyi Li

Efficient Visual State Space Model for Image Deblurring

Lingshun Kong · Jiangxin Dong · Jinhui Tang · Ming-Hsuan Yang · Jinshan Pan

Rotation-Equivariant Self-Supervised Method in Image Denoising

Hanze Liu · Jiahong Fu · Qi Xie · Deyu Meng

A Universal Scale-Adaptive Deformable Transformer for Image Restoration across Diverse Artifacts

Xuyi He · Yuhui Quan · Ruotao Xu · Hui Ji

Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality Assumption

Du CHEN · Tianhe Wu · Kede Ma · Lei Zhang

Complexity Experts are Task-Discriminative Learners for Any Image Restoration

Eduard Zamfir · Zongwei Wu · Nancy Mehta · Yuedong Tan · Danda Paudel · Yulun Zhang · Radu Timofte

Visual-Instructed Degradation Diffusion for All-in-One Image Restoration

Haina Qin · Wenyang Luo · Zewen Chen · Yufan Liu · Bing Li · Weiming Hu · libin wang · DanDan Zheng · Yuming Li

PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution

Zhu Li Bo · Jianze Li · Haotong Qin · Wenbo Li · Yulun Zhang · Yong Guo · Xiaokang Yang

Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning

Isma Hadji · Mehdi Noroozi · Victor Escorcia · Anestis Zaganidis · Brais Martinez · Georgios Tzimiropoulos

HUNet: Homotopy Unfolding Network for Image Compressive Sensing

Feiyang Shen · Hongping Gan

Dual Prompting Image Restoration with Diffusion Transformers

Dehong Kong · Fan Li · Zhixin Wang · Jiaqi Xu · Renjing Pei · Wenbo Li · Wenqi Ren

Frequency-Biased Synergistic Design for Image Compression and Compensation

Jiaming Liu · Qi Zheng · Zihao Liu · Yilian Zhong · Peiye Liu · Tao Liu · Shusong Xu · Yanheng Lu · Sicheng Li · Dimin Niu · Yibo Fan

FIRE: Robust Detection of Diffusion-Generated Images via Frequency-Guided Reconstruction Error

Beilin Chu · Xuan Xu · Xin Wang · Yufei Zhang · Weike You · Linna Zhou

Robust Message Embedding via Attention Flow-Based Steganography

Huayuan Ye · Shenzhuo Zhang · Shiqi Jiang · Jing Liao · Shuhang Gu · Dejun Zheng · Changbo Wang · Chenhui Li

Learned Image Compression with Dictionary-based Entropy Model

Jingbo Lu · Leheng Zhang · Xingyu Zhou · Mu Li · Wen Li · Shuhang Gu

D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Weinan Jia · Mengqi Huang · Nan Chen · Lei Zhang · Zhendong Mao

Classifier-Free Guidance Inside the Attraction Basin May Cause Memorization

Anubhav Jain · Yuya Kobayashi · Takashi Shibuya · Yuhta Takida · Nasir Memon · Julian Togelius · Yuki Mitsufuji

Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability

Lei Wang · Senmao Li · Fei Yang · Jianye Wang · Ziheng Zhang · Yuhan Liu · Yaxing Wang · Jian Yang

BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

Hui Zhang · Tingwei Gao · Jie Shao · Zuxuan Wu

Diffusion Model is Effectively Its Own Teacher

Xinyin Ma · Runpeng Yu · Songhua Liu · Gongfan Fang · Xinchao Wang

Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward

Zhiwei Jia · Yuesong Nan · Huixi Zhao · Gengdai Liu

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler

Xin Ding · Lei Yu · Xin Li · Zhijun Tu · Hanting Chen · Jie Hu · Zhibo Chen

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

Kai Wang · Mingjia Shi · YuKun Zhou · Zekai Li · Xiaojiang Peng · Zhihang Yuan · Yuzhang Shang · Hanwang Zhang · Yang You

Scaling Properties of Diffusion Models For Perceptual Tasks

Rahul Ravishankar · Zeeshan Patel · Jathushan Rajasegaran · Jitendra Malik

Parallelized Autoregressive Visual Generation

Yuqing Wang · Shuhuai Ren · Zhijie Lin · Yujin Han · Haoyuan Guo · Zhenheng Yang · Difan Zou · Jiashi Feng · Xihui Liu

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Chengyue Wu · Xiaokang Chen · Zhiyu Wu · Yiyang Ma · Xingchao Liu · Zizheng Pan · Wen Liu · Zhenda Xie · Xingkai Yu · Chong Ruan · Ping Luo

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Shenghai Yuan · Jinfa Huang · Xianyi He · Yunyang Ge · Yujun Shi · Liuhan Chen · Jiebo Luo · Li Yuan

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

Weixi Feng · Chao Liu · Sifei Liu · William Yang Wang · Arash Vahdat · Weili Nie

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Jiazi Bu · Pengyang Ling · Pan Zhang · Tong Wu · Xiaoyi Dong · Yuhang Zang · Yuhang Cao · Dahua Lin · Jiaqi Wang

Keyframe-Guided Creative Video Inpainting

Yuwei Guo · Ceyuan Yang · Anyi Rao · Chenlin Meng · Omer Bar-Tal · Shuangrui Ding · Maneesh Agrawala · Dahua Lin · Bo Dai

SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models

Jaerin Lee · Daniel Jung · Kanggeon Lee · Kyoung Mu Lee

TKG-DM: Training-free Chroma Key Content Generation Diffusion Model

Ryugo Morita · Stanislav Frolov · Brian Bernhard Moser · Takahiro Shirakawa · Ko Watanabe · Andreas Dengel · Jinjia Zhou

K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs

Ziheng Ouyang · Zhen Li · Qibin Hou

SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer

Chunnan Shang · Zhizhong Wang · Hongwei Wang · Xiangming Meng

MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng · Prafull Sharma · Mark Boss · Varun Jampani

MagicQuill: An Intelligent Interactive Image Editing System

Zichen Liu · Yue Yu · Hao Ouyang · Qiuyu Wang · Ka Leong Cheng · Wen Wang · Zhiheng Liu · Qifeng Chen · Yujun Shen

FluxSpace: Disentangled Semantic Editing in Rectified Flow Models

Yusuf Dalva · Kavana Venkatesh · Pinar Yanardag

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model

Jun Zhou · Jiahao Li · Zunnan Xu · Hanhui Li · Yiji Cheng · Fa-Ting Hong · Qin Lin · qinglin lu · Xiaodan Liang

Recognition-Synergistic Scene Text Editing

Zhengyao Fang · Pengyuan Lyu · Jingjing Wu · Chengquan Zhang · Jun Yu · Guangming Lu · Wenjie Pei

HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis

Mengtian Li · Jinshu Chen · Wanquan Feng · Bingchuan Li · Fei Dai · Songtao Zhao · Qian HE

Self-Evolving Visual Concept Library using Vision-Language Critics

Atharva Sehgal · Patrick Yuan · Ziniu Hu · Yisong Yue · Jennifer J. Sun · Swarat Chaudhuri

Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis

Zixuan Wang · DUO PENG · Feng Chen · Yuwei Yang · Yinjie Lei

Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts

Feng Liang · Haoyu Ma · Zecheng He · Tingbo Hou · Ji Hou · Kunpeng Li · Xiaoliang Dai · Felix Juefei-Xu · Samaneh Azadi · Animesh Sinha · Peizhao Zhang · Peter Vajda · Diana Marculescu

AMO Sampler: Enhancing Text Rendering with Overshooting

Xixi Hu · Keyang Xu · Bo Liu · Hongliang Fei · Qiang Liu

ArtiFade: Learning to Generate High-quality Subject from Blemished Images

Shuya Yang · Shaozhe Hao · Yukang Cao · Kwan-Yee K. Wong

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

Shufan Li · Konstantinos Kallidromitis · Akash Gokul · Zichun Liao · Yusuke Kato · Kazuki Kozuka · Aditya Grover

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Enis Simsar · Thomas Hofmann · Federico Tombari · Pinar Yanardag

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

Zhanhao Liang · Yuhui Yuan · Shuyang Gu · Bohan CHEN · Tiankai Hang · Mingxi Cheng · Ji Li · Liang Zheng

Composing Parts for Expressive Object Generation

Harsh Rangwani · Aishwarya Agarwal · Kuldeep Kulkarni · R. Venkatesh Babu · Srikrishna Karanam

DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling

Xin Xie · Dong Gong

Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions

Stefan Andreas Baumann · Felix Krause · Michael Neumayr · Nick Stracke · Melvin Sevi · Vincent Tao Hu · Björn Ommer

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Lital Binyamin · Yoad Tewel · Hilit Segev · Eran Hirsch · Royi Rassin · Gal Chechik

Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization

Feifei Li · Mi Zhang · Yiming Sun · Min Yang

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

Mingcheng Li · Xiaolu Hou · Ziyang Liu · Dingkang Yang · Ziyun Qian · Jiawei Chen · Jinjie Wei · Yue Jiang · Qingyao Xu · Lihua Zhang

StoryGPT-V: Large Language Models as Consistent Story Visualizers

Xiaoqian Shen · Mohamed Elhoseiny

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Chengyou Jia · Changliang Xia · Zhuohang Dang · Weijia Wu · Hangwei Qian · Minnan Luo

OmniGen: Unified Image Generation

Shitao Xiao · Yueze Wang · Junjie Zhou · Huaying Yuan · Xingrun Xing · Ruiran Yan · Chaofan Li · Shuting Wang · Tiejun Huang · Zheng Liu

ShapeWords: Guiding Text-to-Image Synthesis with 3D Shape-Aware Prompts

Dmitrii M Petrov · Pradyumn Goyal · Divyansh Shivashok · Yuanming Tao · Melinos Averkiou · Evangelos Kalogerakis

From Words to Structured Visuals: A Benchmark and Framework for Text-to-Diagram Generation and Editing

Jingxuan Wei · Cheng Tan · Qi Chen · Gaowei Wu · Siyuan Li · Zhangyang Gao · Linzhuang Sun · Bihui Yu · Ruifeng Guo

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

Shivam Duggal · Yushi Hu · Oscar Michel · Aniruddha Kembhavi · William Freeman · Noah A. Smith · Ranjay Krishna · Antonio Torralba · Ali Farhadi · Wei-Chiu Ma

EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark

Ming Li · Jike Zhong · Tianle Chen · Yuxiang Lai · Konstantinos Psounis

Towards Precise Embodied Dialogue Localization via Causality Guided Diffusion

Haoyu Wang · Le Wang · Sanping Zhou · Jingyi Tian · Zheng Qin · Yabing Wang · Gang Hua · Wei Tang

Rethinking Training for De-biasing Text-to-Image Generation: Unlocking the Potential of Stable Diffusion

Eunji Kim · Siwon Kim · Minjun Park · Rahim Entezari · Sungroh Yoon

Rectified Diffusion Guidance for Conditional Generation

Mengfei Xia · Nan Xue · Yujun Shen · Ran Yi · Tieliang Gong · Yong-Jin Liu

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Lijun Li · Zhelun Shi · Xuhao Hu · Bowen Dong · Yiran Qin · Xihui Liu · Lu Sheng · Jing Shao

The Illusion of Unlearning: The Unstable Nature of Machine Unlearning in Text-to-Image Diffusion Models

Naveen George · Karthik Nandan Dasaraju · Rutheesh Reddy Chittepu · Konda Reddy Mopuri

Towards Universal Dataset Distillation via Task-Driven Diffusion

Ding Qi · Jian Li · Junyao Gao · Shuguang Dou · Ying Tai · Jianlong Hu · Bo Zhao · Yabiao Wang · Chengjie Wang · Cai Rong Zhao

RealEdit: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations

Peter Sushko · Ayana Bharadwaj · Zhi Yang Lim · Vasily Ilin · Ben Caffee · Dongping Chen · Reza Salehi · Cheng-Yu Hsieh · Ranjay Krishna

Harnessing Global-Local Collaborative Adversarial Perturbation for Anti-Customization

Long Xu · Jiakai Wang · Haojie Hao · Haotong Qin · Jiejie Zhao · Xianglong Liu

Decoder Gradient Shield: Provable and High-Fidelity Prevention of Gradient-Based Box-Free Watermark Removal

Haonan An · Guang Hua · Zhengru Fang · Guowen Xu · Susanto Rahardja · Yuguang Fang

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan · Jiaxu Miao · Yunze Wang · Yi Yang

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

Zexi Jia · Chuanwei Huang · Yeshuang Zhu · Hongyan Fei · Xiaoyue Duan · Yuan Zhiqiang · Ying Deng · Jiapei Zhang · Jinchao Zhang · Jie Zhou

CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI

Siyuan Cheng · Lingjuan Lyu · Zhenting Wang · Xiangyu Zhang · Vikash Sehwag

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Ian Huang · Yanan Bao · Karen Truong · Howard Zhou · Cordelia Schmid · Leonidas Guibas · Alireza Fathi

VI^3NR: Variance Informed Initialization for Implicit Neural Representations

Chamin Hewa Koneputugodage · Yizhak Ben-Shabat · Sameera Ramasinghe · Stephen Gould

EigenGS Representation: From Eigenspace to Gaussian Image Space

LO-WEI TAI · Ching-En Ching En, Li · Cheng-Lin Chen · Chih-Jung Tsai · Hwann-Tzong Chen · Tyng-Luh Liu

Few-shot Personalized Scanpath Prediction

Ruoyu Xue · Jingyi Xu · Sounak Mondal · Hieu Le · Gregory Zelinsky · Minh Hoai · Dimitris Samaras

Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

Pierre Vuillecard · Jean-marc Odobez

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie · Qile He · Youjia Zhu · Qiwei He · Mengtian Li

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

Saksham Singh Kushwaha · Yapeng Tian

Seeing Speech and Sound: Distinguishing and Locating Audio Sources in Visual Scenes

Hyeonggon Ryu · Seongyu Kim · Joon Chung · Arda Senocak

Audio-Visual Instance Segmentation

Ruohao Guo · Xianghua Ying · Yaru Chen · Dantong Niu · Guangyao Li · Liao Qu · Yanyu Qi · Jinxing Zhou · Bowei Xing · Wenzhen Yue · Ji Shi · Qixun Wang · Peiliang Zhang · Buwen Liang

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

Yung-Hsuan Lai · Janek Ebbers · Yu-Chiang Frank Wang · François Germain · Michael J. Jones · Moitreya Chatterjee

DistinctAD: Distinctive Audio Description Generation in Contexts

Bo Fang · Wenhao Wu · Qiangqiang Wu · YuXin Song · Antoni B. Chan

ExpertAF: Expert Actionable Feedback from Video

Kumar Ashutosh · Tushar Nagarajan · Georgios Pavlakos · Kris Kitani · Kristen Grauman

FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding

Rong Gao · Xin Liu · Zhuozhao Hu · Bohao Xing · Baiqiang XIA · Zitong YU · Heikki Kälviäinen

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge · Yizhuo Li · Yixiao Ge · Ying Shan

LLaVA-Critic: Learning to Evaluate Multimodal Models

Tianyi Xiong · Xiyao Wang · Dong Guo · Qinghao Ye · Haoqi Fan · Quanquan Gu · Heng Huang · Chunyuan Li

Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation

Yiping Wang · Xuehai He · Kuan Wang · Luyao Ma · Jianwei Yang · Shuohang Wang · Simon Shaolei Du · yelong shen

Progress-Aware Video Frame Captioning

Zihui Xue · Joungbin An · Xitong Yang · Kristen Grauman

Learning from Streaming Video with Orthogonal Gradients

Tengda Han · Dilara Gokay · Joseph Heyward · Chuhan Zhang · Daniel Zoran · Viorica Patraucean · Joao Carreira · Dima Damen · Andrew Zisserman

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Jihan Yang · Shusheng Yang · Anjali W. Gupta · Rilyn Han · Li Fei-Fei · Saining Xie

Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations

Jungin Park · Jiyoung Lee · Kwanghoon Sohn

VEU-Bench: Towards Comprehensive Understanding of Video Editing

Bozheng Li · Yongliang Wu · YI LU · Jiashuo Yu · Licheng Tang · Jiawang Cao · Wenqing Zhu · Yuyang Sun · Jay Wu · Wenbo Zhu

Question-Aware Gaussian Experts for Audio-Visual Question Answering

Hongyeob Kim · Inyoung Jung · Dayoon Suh · Youjia Zhang · Sangmin Lee · Sungeun Hong

MLVU: Benchmarking Multi-task Long Video Understanding

Junjie Zhou · Yan Shu · Bo Zhao · Boya Wu · Zhengyang Liang · Shitao Xiao · Minghao Qin · Xi Yang · yongping xiong · Bo Zhang · Tiejun Huang · Zheng Liu

M-LLM Based Video Frame Selection for Efficient Video Understanding

Kai Hu · Feng Gao · Xiaohan Nie · Peng Zhou · Son Dinh Tran · Tal Neiman · Lingyun Wang · Mubarak Shah · Raffay Hamid · Bing Yin · Trishul Chilimbi

On the Consistency of Video Large Language Models in Temporal Comprehension

Minjoon Jung · Junbin Xiao · Byoung-Tak Zhang · Angela Yao

VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding

Chaoyu Li · Eun Woo Im · Pooyan Fazli

ReWind: Understanding Long Videos with Instructed Learnable Memory

Anxhelo Diko · Tinghuai Wang · Wassim Swaileh · Shiyan Sun · Ioannis Patras

MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations

Kyungho Bae · Jinhyung Kim · Sihaeng Lee · Soonyoung Lee · Gunhee Lee · Jinwoo Choi

Number it: Temporal Grounding Videos like Flipping Manga

Yongliang Wu · Xinting Hu · Yuyang Sun · Yizhou Zhou · Wenbo Zhu · Fengyun Rao · Bernt Schiele · Xu Yang

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding

Andong Deng · Zhongpai Gao · Anwesa Choudhuri · Benjamin Planche · Meng Zheng · Bin Wang · Terrence Chen · Chen Chen · Ziyan Wu

STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding

Zichen Liu · Kunlun Xu · Bing Su · Xu Zou · Yuxin Peng · Jiahuan Zhou

SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction

Enrico Pallotta · Sina Mokhtarzadeh Azar · Shuai Li · Olga Zatsarynna · Jürgen Gall

SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation

Hao Du · Bo Wu · Yan Lu · Zhendong Mao

DTOS: Dynamic Time Object Sensing with Large Multimodal Model

Jirui Tian · Jinrong Zhang · Shenglan Liu · Luhao Xu · Zhixiong Huang · Gao Huang

Decoupled Motion Expression Video Segmentation

Hao Fang · Runmin Cong · Xiankai Lu · Xiaofei Zhou · Sam Kwong · Wei Zhang

EdgeTAM: On-Device Track Anything Model

Chong Zhou · Chenchen Zhu · Yunyang Xiong · Saksham Suri · Fanyi Xiao · Lemeng Wu · Raghuraman Krishnamoorthi · Bo Dai · Chen Change Loy · Vikas Chandra · Bilge Soran

Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity

Huaxin Zhang · Xiaohao Xu · Xiang Wang · Jialong Zuo · Xiaonan Huang · Changxin Gao · Shanjun Zhang · Li Yu · Nong Sang

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps

Valentin Gabeff · Haozhe Qi · Brendan Flaherty · Gencer Sumbul · Alexander Mathis · Devis Tuia

Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal Transport

Mengnan Liu · Le Wang · Sanping Zhou · Kun Xia · Xiaolong Sun · Gang Hua

Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition

Anqi Zhu · Jingmin Zhu · James Bailey · Mingming Gong · Qiuhong Ke

Mono3DVLT: Monocular-Video-Based 3D Visual Language Tracking

Hongkai Wei · YANG YANG · Shijie Sun · Mingtao Feng · Xiangyu Song · Qi Lei · Hongli Hu · Rong Wang · Huansheng Song · Naveed Akhtar · Ajmal Mian

FSboard: Over 3 Million Characters of ASL Fingerspelling Collected via Smartphones

Manfred Georg · Garrett Tanzer · Esha Uboweja · Saad Hassan · Maximus Shengelia · Sam Sepah · Sean Forbes · Thad Starner

Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

Chanhui Lee · Yeonghwan Song · Jeany Son

Detecting Adversarial Data Using Perturbation Forgery

Qian Wang · Chen Li · Yuchen Luo · Hefei Ling · Shijuan Huang · Ruoxi Jia · Ning Yu

Stacking Brick by Brick: Aligned Feature Isolation for Incremental Face Forgery Detection

Jikang Cheng · Zhiyuan Yan · Ying Zhang · Li Hao · Jiaxin Ai · Qin Zou · Chen Li · Zhongyuan Wang

SapiensID: Foundation for Human Recognition

Minchul Kim · Dingqiang Ye · Yiyang Su · Feng Liu · Xiaoming Liu

Spiking Transformer with Spatial-Temporal Attention

Donghyun Lee · Yuhang Li · Youngeun Kim · Shiting Xiao · Priyadarshini Panda

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

Tianqing Zhang · Kairong Yu · Xian Zhong · Hongwei Wang · Qi Xu · Qiang Zhang

Efficient Event-Based Object Detection: A Hybrid Neural Network with Spatial and Temporal Attention

Soikat Hasan Ahmed · Jan Finkbeiner · Emre Neftci

DIFFER: Disentangling Identity Features via Semantic Cues for Clothes-Changing Person Re-ID

Xin Liang · Yogesh S. Rawat

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

Kaiyu Li · Ruixun Liu · Xiangyong Cao · Xueru Bai · Feng Zhou · Deyu Meng · Wang Zhi

Mixture of Submodules for Domain Adaptive Person Search

Minsu Kim · Seungryong Kim · Kwanghoon Sohn

An Image-like Diffusion Method for Human-Object Interaction Detection

Xiaofei Hui · Haoxuan Qu · Hossein Rahmani · Jun Liu

Free Lunch Enhancements for Multi-modal Crowd Counting

Haoliang Meng · Xiaopeng Hong · Zhengqin Lai · Miao Shang

RORem: Training a Robust Object Remover with Human-in-the-Loop

Ruibin Li · Tao Yang · Song Guo · Lei Zhang

Exact: Exploring Space-Time Perceptive Clues for Weakly Supervised Satellite Image Time Series Semantic Segmentation

Hao Zhu · Yan Zhu · Jiayu Xiao · Tianxiang Xiao · Yike Ma · Yucheng Zhang · Feng Dai

MaSS13K: A Matting-level Semantic Segmentation Benchmark

Chenxi Xie · Minghan LI · Hui Zeng · Jun Luo · Lei Zhang

Insightful Instance Features for 3D Instance Segmentation

Wonseok Roh · Hwanhee Jung · Giljoo Nam · Dong In Lee · Hyeongcheol Park · Sang Ho Yoon · Jungseock Joo · Sangpil Kim

Convex Combination Star Shape Prior for Data-driven Image Semantic Segmentation

Xinyu Zhao · Jun Xie · Shengzhe Chen · Jun Liu

InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception

Haijie Li · Yanmin Wu · Jiarui Meng · Qiankun Gao · Zhiyao Zhang · Ronggang Wang · Jian Zhang

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

Andrew Szot · Bogdan Mazoure · Omar Attia · Aleksei Timofeev · Harsh Agrawal · R Devon Hjelm · Zhe Gan · Zsolt Kira · Alexander Toshev

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

Junha Lee · Chunghyun Park · Jaesung Choe · Yu-Chiang Frank Wang · Jan Kautz · Minsu Cho · Chris Choy

UnCommon Objects in 3D

Xingchen Liu · Piyush Tayal · Jianyuan Wang · Jesus Zarzar · Tom Monnier · Konstantinos Tertikas · Jiali Duan · Antoine Toisoul · Jason Y. Zhang · Natalia Neverova · Andrea Vedaldi · Roman Shapovalov · David Novotny

PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding

Hongjia Zhai · Hai Li · Zhenzhe Li · Xiaokun Pan · Yijia He · Guofeng Zhang

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

Yan Wang · Baoxiong Jia · Ziyu Zhu · Siyuan Huang

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

JUNSEONG KIM · GeonU Kim · Kim Yu-Ji · Yu-Chiang Frank Wang · Jaesung Choe · Tae-Hyun Oh

Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning

Hanxun Yu · Wentong Li · Song Wang · Junbo Chen · Jianke Zhu

Universal Scene Graph Generation

Shengqiong Wu · Hao Fei · Tat-seng Chua

DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering

Jingzhou Luo · Yang Liu · weixing chen · Zhen Li · Yaowei Wang · Guanbin Li · Liang Lin

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Shijie Zhou · Hui Ren · Yijia Weng · Shuwang Zhang · Zhen Wang · Dejia Xu · Zhiwen Fan · Suya You · Zhangyang Wang · Leonidas Guibas · Achuta Kadambi

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

Zihan Wang · Gim Hee Lee

Magma: A Foundation Model for Multimodal AI Agents

Jianwei Yang · Reuben Tan · Qianhui Wu · Ruijie Zheng · Baolin Peng · Yongyuan Liang · Yu Gu · Mu Cai · Seonghyeon Ye · Joel Jang · Yuquan Deng · Jianfeng Gao

Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning

Jing Zhu · Yuhang Zhou · Shengyi Qian · Zhongmou He · Tong Zhao · Neil Shah · Danai Koutra

Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection

Zihao Zhang · Aming Wu · Yahong Han

Olympus: A Universal Task Router for Computer Vision Tasks

Yuanze Lin · Yunsheng Li · Dongdong Chen · Weijian Xu · Ronald Clark · Philip H.S. Torr

Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning

Bardia Safaei · Faizan Siddiqui · Jiacong Xu · Vishal M. Patel · Shao-Yuan Lo

Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning

JiHyeok Jung · EunTae Kim · SeoYeon Kim · Joo Ho Lee · Bumsoo Kim · Buru Chang

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

Yunze Man · De-An Huang · Guilin Liu · Shiwei Sheng · Shilong Liu · Liangyan Gui · Jan Kautz · Yu-Xiong Wang · Zhiding Yu

Model Diagnosis and Correction via Linguistic and Implicit Attribute Editing

Xuanbai Chen · Xiang Xu · Zhihua Li · Tianchen Zhao · Pietro Perona · Qin ZHANG · Yifan Xing

Foundations of the Theory of Performance-Based Ranking

Sébastien Piérard · Anaïs Halin · Anthony Cioppa · Adrien Deliege · Marc Van Droogenbroeck

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

Sagar Soni · Akshay Dudhane · Hiyam Debary · Mustansar Fiaz · Muhammad Akhtar Munir · Muhammad Sohail Danish · Paolo Fraccaro · Campbell D Watson · Levente Klein · Fahad Shahbaz Khan · Salman Khan

EMOE: Modality-Specific Enhanced Dynamic Emotion Experts

Yiyang Fang · Wenke Huang · Guancheng Wan · Kehua Su · Mang Ye

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

Fengxiang Wang · hongzhen wang · Zonghao Guo · Di Wang · Yulin Wang · Mingshuo Chen · Qiang Ma · Long Lan · Wenjing Yang · Jing Zhang · Zhiyuan Liu · Maosong Sun

DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels

Erjian Guo · Zhen Zhao · Zicheng Wang · Tong Chen · YUNYI LIU · Luping Zhou

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

Xiaofu Chen · Yaxin Luo · Luo · Jiayi Ji · Henghui Ding · Yiyi Zhou

ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models

Heng Yin · Yuqiang Ren · Ke Yan · Shouhong Ding · Yongtao Hao

PerLA: Perceptive 3D Language Assistant

Guofeng Mei · Wei Lin · Luigi Riz · Yujiao Wu · Fabio Poiesi · Yiming Wang

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang · Ruili Feng · Keyu Yan · Huangji Wang · Zhicai Wang · Shangwen Zhu · Han Zhang · Jie Xiao · Pingyu Wu · Kai Zhu · Jixuan Chen · Chen-Wei Xie · Yue Yang · Hongyang Zhang · Yu Liu · Fan Cheng

Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification

Yang Qin · Chao Chen · Zhihang Fu · Dezhong Peng · Xi Peng · Peng Hu

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

Zicheng Zhang · Tengchuan Kou · Chunyi Li · Shushi Wang · Wei Sun · Wei Wang · Xiaoyu Li · ZongYu Wang · Xuezhi Cao · Xiongkuo Min · Xiaohong Liu · Guangtao Zhai

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

Yuanmin Tang · Jue Zhang · Xiaoting Qin · Jing Yu · Gaopeng Gou · Gang Xiong · Qingwei Lin · Saravan Rajmohan · Dongmei Zhang · Qi Wu

Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and Understanding

Zhaoran Zhao · Peng Lu · Anran Zhang · Pei Pei Li · Xia Li · Xuannan Liu · Yang Hu · Shiyi Chen · liweiwang · Wenhao Guo

Active Data Curation Effectively Distills Large-Scale Multimodal Models

Vishaal Udandarao · Nikhil Parthasarathy · Muhammad Ferjad Naeem · Talfan Evans · Samuel Albanie · Federico Tombari · Yongqin Xian · Alessio Tonioni · Olivier J Henaff

Yo’Chameleon: Personalized Vision and Language Generation

Thao Nguyen · Krishna Kumar Singh · Jing Shi · Trung Bui · Yong Jae Lee · Yuheng Li

Relation-Rich Visual Document Generator for Visual Information Extraction

Zi-Han Jiang · Chien-Wei Lin · WeiHua Li · Hsuan-Tung Liu · Yi-Ren Yeh · Chu-Song Chen

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding

Zining Wang · Tongkun Guan · Pei Fu · Chen Duan · Qianyi Jiang · Zhentao Guo · Shan Guo · Junfeng Luo · Wei Shen · Xiaokang Yang

A Simple yet Effective Layout Token in Large Language Models for Document Understanding

Zhaoqing Zhu · Chuwei Luo · Zirui Shao · Feiyu Gao · Hangdi Xing · Qi Zheng · Ji Zhang

Teaching Large Language Models to Regress Accurate Image Quality Scores Using Score Distribution

Zhiyuan You · Xin Cai · Jinjin Gu · Tianfan Xue · Chao Dong

FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

Mothilal Asokan · Kebin wu · Fatima Albreiki

MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures

Lucas Morin · Valery Weber · Ahmed Nassar · Gerhard Ingmar Meijer · Luc Van Gool · Yawei Li · Peter W. J. Staar

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

Andrea Maracani · Savas Ozkan · Sijun Cho · Hyo-Won Kim · Eunchung Noh · Jeongwon Min · Cho Jung Min · Dookun Park · Mete Ozay

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

Xin Zhang · Robby T. Tan

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

Haoran Hao · Jiaming Han · Changsheng Li · Yu-Feng Li · Xiangyu Yue

What’s in the Image? A Deep-Dive into the Vision of Vision Language Models

Omri Kaduri · Shai Bagon · Tali Dekel

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

Zhihe Yang · Xufang Luo · Dongqi Han · Yunjian Xu · Dongsheng Li

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

Chenxin Tao · Shiqian Su · Xizhou Zhu · Chenyu Zhang · Zhe Chen · Jiawen Liu · Wenhai Wang · Lewei Lu · Gao Huang · Yu Qiao · Jifeng Dai

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Bo Tong · Bokai Lai · Yiyi Zhou · Luo · Yunhang Shen · Ke Li · Xiaoshuai Sun · Rongrong Ji

Identifying and Mitigating Position Bias of Multi-image Vision-Language Models

Xinyu Tian · Shu Zou · Zhaoyuan Yang · Jing Zhang

PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models

Dhouib Mohamed · Davide Buscaldi · Vanier Sonia · Aymen Shabou

Conical Visual Concentration for Efficient Large Vision-Language Models

Long Xing · Qidong Huang · Xiaoyi Dong · Jiajie Lu · Pan Zhang · Yuhang Zang · Yuhang Cao · Conghui He · Jiaqi Wang · Feng Wu · Dahua Lin

Assessing and Learning Alignment of Unimodal Vision and Language Models

Le Zhang · Qian Yang · Aishwarya Agrawal

Continual SFT Matches Multimodal RLHF with Negative Supervision

Ke Zhu · Yu Wang · Yanpeng Sun · Qiang Chen · Jiang-Jiang Liu · gang zhang · Jingdong Wang

ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models

Hao Yin · Guangzong Si · Zilei Wang

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection

Le Yang · Ziwei Zheng · Boxu Chen · Zhengyu Zhao · Chenhao Lin · Chao Shen

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

Yuanchen Wu · Lu Zhang · Hang Yao · Junlong Du · Ke Yan · Shouhong Ding · Yunsheng Wu · Xiaoqiang Li

MLLM-as-a-Judge for Image Safety without Human Labeling

Zhenting Wang · Shuming Hu · Shiyu Zhao · Xiaowen Lin · Felix Juefei-Xu · Zhuowei Li · Ligong Han · Harihar Subramanyam · Li Chen · Jianfa Chen · nan jiang · Lingjuan Lyu · Shiqing Ma · Dimitris N. Metaxas · Ankit Jain

Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves?

Yuan-Hong Liao · Rafid Mahmood · Sanja Fidler · David Acuna

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

Peng Xie · Yequan Bie · Jianda Mao · Yangqiu Song · Yang Wang · Hao Chen · Kani Chen

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

Sanghwan Kim · Rui Xiao · Iuliana Georgescu · Stephan Alaniz · Zeynep Akata

Reproducible Vision-Language Models Meet Concepts Out of Pre-Training

Ziliang Chen · Xin Huang · Xiaoxuan Fan · Keze Wang · Yuyu Zhou · Quanlong Guan · Liang Lin

Once-Tuning-Multiple-Variants: Tuning Once and Expanded as Multiple Vision-Language Model Variants

Chong Yu · Tao Chen · Zhongxue Gan

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves

Shihan Wu · Ji Zhang · Pengpeng Zeng · Lianli Gao · Jingkuan Song · Heng Tao Shen

SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling

Qi Zhu · Jiangwei Lao · Deyi Ji · Junwei Luo · Kang Wu · Yingying Zhang · Lixiang Ru · Jian Wang · Jingdong Chen · Ming Yang · Dong Liu · Feng Zhao

Task-Aware Clustering for Prompting Vision-Language Models

Fusheng Hao · Fengxiang He · Fuxiang Wu · Tichao Wang · Chengqun Song · Jun Cheng

Learning Textual Prompts for Open-World Semi-Supervised Learning

Yuxin Fan · Junbiao Cui · Jiye Liang

BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models

Taha Koleilat · Hojat Asgariandehkordi · Hassan Rivaz · Yiming Xiao

ILIAS: Instance-Level Image retrieval At Scale

Giorgos Kordopatis-Zilos · Vladan Stojnić · Anna Manko · Pavel Suma · Nikolaos-Antonios Ypsilantis · Nikos Efthymiadis · Zakaria Laskar · Jiri Matas · Ondrej Chum · Giorgos Tolias

VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge

Vishwesh Nath · Wenqi Li · Dong Yang · Andriy Myronenko · Yao Lu · Zhijian Liu · Danny Yin · Yucheng Tang · Pengfei Guo · Ziyue Xu · Can Zhao · Yufan He · Greg Heinrich · Mingxin Zheng · Benjamin D. Simon · Stephanie Anne Harmon · Michael Zephyr · Marc Edgar · Stephen R. Aylward · Pavlo Molchanov · Yan Mee LAW · Baris Turkbey · Holger R. Roth · Daguang Xu

Explaining in Diffusion: Explaining a Classifier with Diffusion Semantics

Tahira Kazimi · Ritika Allada · Pinar Yanardag

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

Bo Wang · Dingwei Tan · Yen-Ling Kuo · Zhaowei Sun · Jeremy M Wolfe · Tat-Jen Cham · Mengmi Zhang

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

Junjie Wang · BIN CHEN · Yulin Li · Bin Kang · Yichi Chen · Zhuotao Tian

Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Pedro Hermosilla · Christian Stippel · Leon Sick

Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition

Zheda Mai · Ping Zhang · Cheng-Hao Tu · Hong-You Chen · Quang-Huy Nguyen · Li Zhang · Wei-Lun Chao

TADFormer: Task-Adaptive Dynamic TransFormer for Efficient Multi-Task Learning

Seungmin Baek · Soyul Lee · Hayeon Jo · Hyesong Choi · Dongbo Min

LoKi: Low-dimensional KAN for Efficient Fine-tuning Image Models

Xuan Cai · Renjie Pan · Hua Yang

Training-free Neural Architecture Search through Variance of Knowledge of Deep Network Weights

Ondrej Tybl · Lukas Neumann

FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation

Zhuguanyu Wu · Shihe Wang · Jiayi Zhang · Jiaxin Chen · Yunhong Wang

Transformers without Normalization

Jiachen Zhu · Xinlei Chen · Kaiming He · Yann LeCun · Zhuang Liu

GroupMamba: Efficient Group-Based Visual State Space Model

Abdelrahman Shaker · Syed Talal Wasim · Salman Khan · Jürgen Gall · Fahad Shahbaz Khan

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Sanghyeok Lee · Joonmyung Choi · Hyunwoo J. Kim

JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba

Xiaoyong Lu · Songlin Du

Keep the Balance: A Parameter-Efficient Symmetrical Framework for RGB+X Semantic Segmentation

Jiaxin Cai · Jingze Su · Qi Li · Wenjie Yang · Shu Wang · Tiesong Zhao · Shengfeng He · Wenxi Liu

Mamba-Reg: Vision Mamba Also Needs Registers

Feng Wang · Jiahao Wang · Sucheng Ren · Guoyizhe Wei · Jieru Mei · Wei Shao · Yuyin Zhou · Alan L. Yuille · Cihang Xie

Rethinking Token Reduction with Parameter-Efficient Fine-Tuning in ViT for Pixel-Level Tasks

Cheng Lei · Ao Li · Hu Yao · Ce Zhu · Le Zhang

No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image Recognition

Rong Qin · Xin Liu · Xingyu Liu · Jiaxuan Liu · Jinglei Shi · Liang Lin · Jufeng Yang

Language Guided Concept Bottleneck Models for Interpretable Continual Learning

Lu Yu · HaoYu Han · Zhe Tao · Hantao Yao · Changsheng Xu

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models

Shenghao Fu · Qize Yang · Qijie Mo · Junkai Yan · Xihan Wei · Jingke Meng · Xiaohua Xie · Wei-Shi Zheng

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

Yongkang Li · Tianheng Cheng · Bin Feng · Wenyu Liu · Xinggang Wang

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng · Zhengqin Xu · Zhilin Zeng · Yu Huang · Yaoming Wang · Wei Shen

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Xiao-Hui Li · Fei Yin · Cheng-Lin Liu

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning

Kunyu Wang · Xueyang Fu · Xin Lu · Chengjie Ge · Chengzhi Cao · Wei Zhai · Zheng-Jun Zha

Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation

Chanyoung Kim · Dayun Ju · Woojung Han · Ming-Hsuan Yang · Seong Jae Hwang

FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized Segmentation

Dong Zhao · Jinlong Li · Shuang Wang · Mengyao Wu · Qi Zang · Nicu Sebe · Zhun Zhong

POT: Prototypical Optimal Transport for Weakly Supervised Semantic Segmentation

Jian Wang · Tianhong Dai · Bingfeng Zhang · Siyue Yu · ENG GEE LIM · Jimin Xiao

FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding

Thanh-Dat Truong · Utsav Prabhu · Bhiksha Raj · Jackson Cothren · Khoa Luu

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

Shifan Zhang · Hongzi Zhu · Yinan He · Minyi Guo · Ziyang Lou · Shan Chang

Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning

Tian Liu · Huixin Zhang · Shubham Parashar · Shu Kong

Compositional Caching for Training-free Open-vocabulary Attribute Detection

Marco Garosi · Alessandro Conti · Gaowen Liu · Elisa Ricci · Massimiliano Mancini

Open Ad-hoc Categorization with Contextualized Feature Learning

Zilin Wang · Sangwoo Mo · Stella X. Yu · Sima Behpour · Liu Ren

MOS: Modeling Object-Scene Associations in Generalized Category Discovery

Zhengyuan Peng · Jinpeng Ma · Zhimin Sun · Ran Yi · Haichuan Song · Xin Tan · Lizhuang Ma

Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval

Mankeerat Sidhu · Hetarth Chopra · Ansel Blume · Jeonghwan Kim · Revanth Gangi Reddy · Heng Ji

Fractal Calibration for Long-tailed Object Detection

Konstantinos Alexandridis · Ismail Elezi · Jiankang Deng · Anh Nguyen · Shan Luo

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

Quentin Guimard · Moreno D'Incà · Massimiliano Mancini · Elisa Ricci

DEIM: DETR with Improved Matching for Fast Convergence

Shihua Huang · Zhichao Lu · Xiaodong Cun · Yongjun YU · Xiao Zhou · Xi Shen

CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

Songlong Xing · Zhengyu Zhao · Nicu Sebe

FlexUOD: The Answer to Real-world Unsupervised Image Outlier Detection

Zhonghang Liu · Kun Zhou · Changshuo Wang · Daniel Lin · Jiangbo Lu

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

Zhaopeng Gu · Bingke Zhu · Guibo Zhu · Yingying Chen · Ming Tang · Jinqiao Wang

Towards Training-free Anomaly Detection with Vision and Language Foundation Models

Jinjin Zhang · Guodong Wang · yizhou jin · Di Huang

Real-IAD D³: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

wenbing zhu · Lidong Wang · Ziqing Zhou · Chengjie Wang · Yurui Pan · Ruoyi.Zhang · Zhuhao Chen · Linjie Cheng · Bin-Bin Gao · Jiangning Zhang · Zhenye Gan · Yuxie Wang · Yulong Chen · Bruce Qian · Mingmin Chi · Bo Peng · Lizhuang Ma

DFM: Differentiable Feature Matching for Anomaly Detection

Wu Sheng · Yimi Wang · Xudong Liu · Yuguang Yang · Runqi Wang · Guodong Guo · David Doermann · Baochang Zhang

Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression

Xiaoyi Qu · David Aponte · Colby Banbury · Daniel Robinson · Tianyu Ding · Kazuhito Koishida · Ilya Zharkov · Tianyi Chen

OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation

Xiao Cui · Yulei Qin · Wengang Zhou · Hongsheng Li · Houqiang Li

Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval

Yushuai Sun · Zikun Zhou · Dongmei Jiang · Yaowei Wang · Jun Yu · Guangming Lu · Wenjie Pei

Less is More: Efficient Model Merging with Binary Task Switch

Biqing Qi · Fangyuan Li · Zhen Wang · Junqi Gao · Dong Li · Peng Ye · Bowen Zhou

On the Generalization of Handwritten Text Recognition Models

Carlos Garrido-Munoz · Jorge Calvo-Zaragoza

Investigating the Role of Weight Decay in Enhancing Nonconvex SGD

Tao Sun · Yuhao Huang · Li Shen · Kele Xu · Bao Wang

KAC: Kolmogorov-Arnold Classifier for Continual Learning

Yusong Hu · Zichen Liang · Fei Yang · Qibin Hou · Xialei Liu · Ming-Ming Cheng

LoRA Subtraction for Drift-Resistant Space in Exemplar-Free Continual Learning

Xuan Liu · Xiaobin Chang

Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

Chenggong Ni · Fan Lyu · Jiayao Tan · Fuyuan Hu · Rui Yao · Tao Zhou

Tripartite Weight-Space Ensemble for Few-Shot Class-Incremental Learning

Juntae Lee · Munawar Hayat · Sungrack Yun

T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

Seong-Hyeon Hwang · Minsu Kim · Steven Euijong Whang

Seeking Consistent Flat Minima for Better Domain Generalization via Refining Loss Landscapes

Aodi Li · Liansheng Zhuang · Xiao Long · MingHong Yao · Shafei Wang

PEER Pressure: Model-to-Model Regularization for Single Source Domain Generalization

Dongkyu Cho · Inwoo Hwang · Sanghack Lee

A Unified Framework for Heterogeneous Semi-supervised Learning

Marzi Heidari · Abdullah Alchihabi · Hao Yan · Yuhong Guo

CGMatch: A Different Perspective of Semi-supervised Learning

Bo Cheng · Jueqing Lu · Yuan Tian · Haifeng Zhao · Yi Chang · Lan Du

Label Shift Meets Online Learning: Ensuring Consistent Adaptation with Universal Dynamic Regret

Yucong Dai · Shilin Gu · Ruidong Fan · Chao Xu · Chenping Hou

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection

Zhuo Xu · Xiang Xiang · Yifan Liang

H2ST: Hierarchical Two-Sample Tests for Continual Out-of-Distribution Detection

Yuhang Liu · Wenjie Zhao · Yunhui Guo

Detecting Out-of-Distribution Through the Lens of Neural Collapse

Litian Liu · Yao Qin

FedCS: Coreset Selection for Federated Learning

Chenhe Hao · Weiying Xie · Daixun Li · Haonan Qin · Hangyu Ye · Leyuan Fang · Yunsong Li

FedCALM: Conflict-aware Layer-wise Mitigation for Selective Aggregation in Deeper Personalized Federated Learning

Hao Zheng · Zhigang Hu · Boyu Wang · Liu Yang · Meiguang Zheng · Aikun Xu

Model Poisoning Attacks to Federated Learning via Multi-Round Consistency

Yueqi Xie · Minghong Fang · Neil Zhenqiang Gong

FedSPA: Generalizable Federated Graph Learning under Homophily Heterogeneity

Zihan Tan · Guancheng Wan · Wenke Huang · Guibin Zhang · He Li · Carl Yang · Mang Ye

TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions

Wang Yu-Hang · Junkang Guo · Aolei Liu · Kaihao Wang · Zaitong Wu · Zhenyu Liu · Wenfei Yin · Jian Liu

Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples

WEIWEI LI · Junzhuo Liu · Yuanyuan Ren · Yuchen Zheng · Yahao Liu · Wen Li

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin · Linwei Tao · Minjing Dong · Chang Xu

Enhancing Testing-Time Robustness for Trusted Multi-View Classification in the Wild

Wei Liu · Yufei Chen · Xiaodong Yue

Enhanced then Progressive Fusion with View Graph for Multi-View Clustering

Zhibin Dong · Meng Liu · Siwei Wang · KE LIANG · Yi Zhang · Suyuan Liu · Jiaqi Jin · Xinwang Liu · En Zhu

A Hubness Perspective on Representation Learning for Graph-Based Multi-View Clustering

Zheming Xu · He Liu · Congyan Lang · Tao Wang · Yidong Li · Michael C. Kampffmeyer

CLOC: Contrastive Learning for Ordinal Classification with Multi-Margin N-pair Loss

Dileepa Pitawela · Gustavo Carneiro · Hsiang-Ting Chen

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification

Siyi Du · Xinzhe Luo · Declan ORegan · Chen Qin

Q-PART: Quasi-Periodic Adaptive Regression with Test-time Training for Pediatric Left Ventricular Ejection Fraction Regression

Jie Liu · Tiexin Qin · Hui Liu · Yilei Shi · Lichao Mou · Xiao Xiang Zhu · Shiqi Wang · Haoliang Li

OralXrays-9: Towards Hospital-Scale Panoramic X-ray Anomaly Detection via Personalized Multi-Object Query-Aware Mining

Bingzhi Chen · Sisi Fu · Xiaocheng Fang · Jieyi Cai · Boya Zhang · Minhua Lu · Yishu Liu

DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation

Sang-Jun Park · Keun-Soo Heo · Dong-Hee Shin · Young-Han Son · Ji-Hye Oh · Tae-Eui Kam

FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification

Zhengrui Guo · Conghao Xiong · Jiabo MA · Qichen Sun · Lishuang Feng · Jinzhuo Wang · Hao Chen

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

Tingting Zheng · Kui Jiang · Yi Xiao · Sicheng Zhao · Hongxun Yao

MERGE: Multi-faceted Hierarchical Graph-based GNN for Gene Expression Prediction from Whole Slide Histopathology Images

Aniruddha Ganguly · Debolina Chatterjee · Wentao Huang · Jie Zhang · Alisa Yurovsky · Travis Steele Johnson · Chao Chen

Test-Time Domain Generalization via Universe Learning: A Multi-Graph Matching Approach for Medical Image Segmentation

Xingguo Lv · Xingbo Dong · Liwen Wang · Jiewen Yang · Lei Zhao · Bin Pu · Zhe Jin · Xuejun Li

CSC-PA: Cross-image Semantic Correlation via Prototype Attentions for Single-network Semi-supervised Breast Tumor Segmentation

Zhenhui Ding · Guilian Chen · Qin Zhang · Huisi Wu · Jing Qin

Take the Bull by the Horns: Learning to Segment Hard Samples

Yuan Guo · Jingyu Kong · Yu Wang · Yuping Duan

Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images

Jie Mei · Chenyu Lin · Yu Qiu · Yaonan Wang · Hui Zhang · Ziyang Wang · Dong Dai

KMD: Koopman Multi-modality Decomposition for Generalized Brain Tumor Segmentation under Incomplete Modalities

Tianyi Liu · Haochuan Jiang · Kaizhu Huang

Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation

Kunpeng Qiu · Zhiqiang Gao · Zhiying Zhou · MINGJIE SUN · Yongxin Guo

DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation

Chun-Hung Wu · Shih-Hong Chen · Chih Yao Hu · Hsin-Yu Wu · Kai-Hsin Chen · Yu-You Chen · Chih-Hai Su · Chih-Kuo Lee · Yu-Lun Liu

VasTSD: Learning 3D Vascular Tree-state Space Diffusion Model for Angiography Synthesis

Zhifeng Wang · Renjiao Yi · Xin Wen · Chenyang Zhu · Kai Xu

Go to Event Page

Session

Art Gallery Tour with Curator, Luba Elliott

Luba Elliott

11:00 AM - 11:30 AM

This will be a guided tour of the gallery by the curator Luba Elliott and some of the exhibiting artists.

... more

Mentorship

Speed Mentorship

11:00 AM - 1:30 PM

During this special session, the mentors will switch multiple times between small groups of students. This is your chance to ask questions and get insights and advice from professionals in the field. Lunch will be served in the room.

Space is limited, so be sure to arrive at 11:00am to ensure you have a seat when the session kicks off at 11:15am.

... more

Oral

Oral Session 4A: Image and Video Synthesis

1:00 PM - 2:15 PM

5 Events in this session

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jingfeng Yao · Bin Yang · Xinggang Wang

Language-Guided Image Tokenization for Generation

Kaiwen Zha · Lijun Yu · Alireza Fathi · David A. Ross · Cordelia Schmid · Dina Katabi · Xiuye Gu

DreamRelation: Bridging Customization and Relation Generation

Qingyu Shi · Lu Qi · Jianzong Wu · Jinbin Bai · Jingbo Wang · Yunhai Tong · Xiangtai Li

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Jian Han · Jinlai Liu · Yi Jiang · Bin Yan · Yuqi Zhang · Zehuan Yuan · BINGYUE PENG · Xiaobing Liu

Autoregressive Distillation of Diffusion Transformers

Yeongmin Kim · Sotiris Anagnostidis · Yuming Du · Edgar Schoenfeld · Jonas Kohler · Markos Georgopoulos · Albert Pumarola · Ali Thabet · Artsiom Sanakoyeu

Go to Event Page

Oral

Oral Session 4B: Embodied Computer Vision

1:00 PM - 2:15 PM

5 Events in this session

PDFactor: Learning Tri-Perspective View Policy Diffusion Field for Multi-Task Robotic Manipulation

Jingyi Tian · Le Wang · Sanping Zhou · Sen Wang · lijiayi · Haowen Sun · Wei Tang

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Chan Hee Song · Valts Blukis · Jonathan Tremblay · Stephen Tyree · Yu Su · Stan Birchfield

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

Jieming Cui · Tengyu Liu · Ziyu Meng · Jiale Yu · Ran Song · Wei Zhang · Yixin Zhu · Siyuan Huang

Navigation World Models

Amir Bar · Gaoyue Zhou · Danny Tran · Trevor Darrell · Yann LeCun

Viewpoint Rosetta Stone: Unlocking Unpaired Ego-Exo Videos for View-invariant Representation Learning

Mi Luo · Zihui Xue · Alex Dimakis · Kristen Grauman

Go to Event Page

Oral

Oral Session 4C: 3D Computer Vision

1:00 PM - 2:15 PM

5 Events in this session

DORNet: A Degradation Oriented and Regularized Network for Blind Depth Super-Resolution

Zhengxue Wang · Zhiqiang Yan · Jinshan Pan · Guangwei Gao · Kai Zhang · Jian Yang

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

Bangyan Liao · Zhenjun Zhao · Haoang Li · Yi Zhou · Yingping Zeng · Hao Li · Peidong Liu

Learned Binocular-Encoding Optics for RGBD Imaging Using Joint Stereo and Focus Cues

Yuhui Liu · Liangxun Ou · Qiang Fu · Hadi Amata · Wolfgang Heidrich · YIFAN PENG

Camera Resection from Known Line Pencils and a Radially Distorted Scanline

Juan Carlos Dibene Simental · Enrique Dunn

Opportunistic Single-Photon Time of Flight

Sotiris Nousias · Mian Wei · Howard Xiao · Maxx Wu · Shahmeer Athar · Kevin J Wang · Anagh Malik · David A. Barmherzig · David B. Lindell · Kiriakos Kutulakos

Go to Event Page

Session

Panel Discussion

1:30 PM - 2:30 PM

This panel will be moderated by Luba Elliott, the CVPR AI Art Gallery curator, and will feature presentations and discussion with the following gallery artists:

Masaru Mizuochi (Sony Corporation) Mingyong Cheng (UC San Diego) Yamin Xu (Bowling Green State U

... more

Invited Talk

The Llama Herd of Models: System 1, 2, 3 Go!

Laurens Van der Maaten

2:30 PM - 3:30 PM

Modern artificial intelligence (AI) systems are powered by foundation models. These models enable AI systems to understand and produce language, to perceive and generate visual content, to recognize and produce speech, and to perform actions in digital environments. While foundation models initially resembled System 1 (thinking fast), they are starting to implement a type of System 2 (thinking slow) that enables them to reason through complex problems before producing an answer. In this talk, I will describe the development of the Llama family of foundational models. I will also argue that the next frontier in the development of foundation models is to equip them with a “System 3” that enables models to think together.

... more

Speaker Bio

Laurens van der Maaten is a Distinguished Research Scientist at Meta AI. He made contributions to many different aspects of AI, including representation learning, web-scale training of visual recognition systems, and privacy and security in machine learning. His work has received best paper awards at CVPR and UAI. Laurens co-led the development of Llama 3 and led the development of the Llama 4 Reasoning model.

... more

Meeting

PAMI TC Meeting

3:45 PM - 4:45 PM

Session

Art Gallery Tour with Curator, Luba Elliott

5:00 PM - 5:30 PM

This will be a guided tour of the gallery by the curator Luba Elliott and some of the exhibiting artists.

... more

Demonstration

Demos

5:00 PM - 7:00 PM

Robust Zero-Shot Depth Perception through Mono-Stereo Fusion, Luca Bartolomei, Matteo Poggi, Fabio Tosi,Stefano Mattoccia
Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation, Máté Tóth, Péter Kovács, Zoltán Bendefy, Zoltán Hortsin, Tamás Matuszka
AstroLoc: Robust Space to Ground Image Localizer, Gabriele Berton, Alex Stoken, Carlo Masone
PromptVFX: Text-Driven Fields for Open-World 3D Gaussian Animation, Mert Kiray, Paul Uhlenbruck, Benjamin Busam
Towards real-time multimodal world models for interactive experiences, Tabish Rashid, Dave Bignell, Raluca Georgescu, Mariya Hendriksen, Abdelhak Lemkhenter, Shanzheng Tan, Linda Wen, Katja Hofmann, Sarah Parisot
Live freeway traffic state super-resolution, Junyi Ji, Alex Richardson, Derek Gloudemans, Gergely Zachár, Matthew Nice, William Barbour, Jonathan Sprinkle, Benedetto Piccoli, Daniel B. Work
Efficient Segmentation for Edge Devices, Xin Li,Shuai Zhang 8 GenEx: Generating an explorable world, TaiMing Lu, Jieneng Chen
VIZ: Virtual and Physical Navigation System for the Visually Impaired, Trisanth Srinivasan, Santosh Patapati
A Snapshot Low-Light Depth from Defocus System, Wei Xu, Charles James Wagner, Junjie Luo, Qi Guo
City-wide interactive image geo-localization with MegaLoc, Gabriele Berton, Carlo Masone
FruitNinja: 3d object interior texture generation with gaussian splatting, Yuhao Chen, Shahan Nedadahandeh, Fangyu Wu
Seeing Around Corners in Real-Time using Mobile LiDAR, Aaron Young, Siddharth Somasundaram, Nick Tsao, Nikhil Behari, Akshat Dave, Adithya Pediredla, Ramesh Raskar
Grounding Pixels in Facts: Distilled Knowledge Retrieval for Factual Text-to-Video Generation, Daniel Lee, Arjun Chandra, Yang Zhou, Yunyao Li, Simone Conia
Focal Split: Untethered Snapshot Depth from Differential Defocus, Junjie Luo, John Mamish, Alan Fu, Thomas Concannon, Josiah Hester, Emma Alexander, Qi Guo

... more

Poster

Poster Session 4

5:00 PM - 7:00 PM

482 Events in this session

EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing

Gaoxiang Cong · Jiadong Pan · Liang Li · Yuankai Qi · Yuxin Peng · Anton van den Hengel · Jian Yang · Qingming Huang

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech

Jihoon Kim · Jeongsoo Choi · Jaehun Kim · Chaeyoung Jung · Joon Chung

Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling

Yinuo Wang · Yanbo Fan · Xuan Wang · Yu Guo · Fei Wang

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Enric Corona · Andrei Zanfir · Eduard Gabriel Bazavan · NIKOS KOLOTOUROS · Thiemo Alldieck · Cristian Sminchisescu

Hunyuan-Portrait: Implicit Condition Control for Enhanced Portrait Animation

Zunnan Xu · Zhentao Yu · Zixiang Zhou · Jun Zhou · Xiaoyu Jin · Fa-Ting Hong · Xiaozhong Ji · Junwei Zhu · Chengfei Cai · Shiyu Tang · Qin Lin · Xiu Li · qinglin lu

MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices

Jianwen Jiang · Gaojie Lin · Zhengkun Rong · Chao Liang · Yongming Zhu · Jiaqi Yang · Tianyun Zhong

Gaussian Eigen Models for Human Heads

Wojciech Zielonka · Timo Bolkart · Thabo Beeler · Justus Thies

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Zhenglin Zhou · Fan Ma · Hehe Fan · Tat-seng Chua

PERSE: Personalized 3D Generative Avatars from A Single Portrait

Hyunsoo Cha · Inhee Lee · Hanbyul Joo

WildAvatar: Learning In-the-wild 3D Avatars from the Web

Zihao Huang · Shoukang Hu · Guangcong Wang · Tianqi Liu · Yuhang Zang · Zhiguo Cao · Wei Li · Ziwei Liu

Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting

Hanxi Liu · Yifang Men · Zhouhui Lian

FreeCloth: Free-form Generation Enhances Challenging Clothed Human Modeling

Hang Ye · Xiaoxuan Ma · Hai Ci · Wentao Zhu · Yizhou Wang

MagicArticulate: Make Your 3D Models Articulation-Ready

Chaoyue Song · Jianfeng Zhang · Xiu Li · Fan Yang · Yiwen Chen · Zhongcong Xu · Jun Hao Liew · Xiaoyang Guo · Fayao Liu · Jiashi Feng · Guosheng Lin

PSHuman: Photorealistic Single-image 3D Human Reconstruction using Cross-Scale Multiview Diffusion and Explicit Remeshing

Peng Li · Wangguandong Zheng · Yuan Liu · Tao Yu · Yangguang Li · Xingqun Qi · Xiaowei Chi · Siyu Xia · Yan-Pei Cao · Wei Xue · Wenhan Luo · Yike Guo

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis

Jiaqi Liu · Jichao Zhang · Paolo Rota · Nicu Sebe

Robust-MVTON: Learning Cross-Pose Feature Alignment and Fusion for Robust Multi-View Virtual Try-On

Nannan Zhang · Yijiang Li · Dong Du · Zheng Chong · Zhengwentai Sun · Jianhao Zeng · Yusheng Dai · Zhenyu Xie · Hairui Zhu · Xiaoguang Han

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

Yang Zheng · Menglei Chai · Delio Vicini · Yuxiao Zhou · Yinghao Xu · Leonidas Guibas · Gordon Wetzstein · Thabo Beeler

S^3-Face: SSS-Compliant Facial Reflectance Estimation via Diffusion Priors

Xingyu Ren · Jiankang Deng · Yuhao Cheng · Wenhan Zhu · Yichao Yan · Xiaokang Yang · Stefanos Zafeiriou · Chao Ma

DL2G: Degradation-guided Local-to-Global Restoration for Eyeglass Reflection Removal

Yizhilv · Xiao Lu · Hong Ding · Jingbo Hu · Zhi Jiang · Chunxia Xiao

Improving Visual and Downstream Performance of Low-Light Enhancer with Vision Foundation Models Collaboration

yuxuan Gu · Huaian Chen · Yi Jin · Haoxuan Wang · Pengyang Ling · ZHIXIANG WEI · Enhong Chen

PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution

Shuangfan Zhou · Chu Zhou · Youwei Lyu · Heng Guo · Zhanyu Ma · Boxin Shi · Imari Sato

Learned Binocular-Encoding Optics for RGBD Imaging Using Joint Stereo and Focus Cues

Yuhui Liu · Liangxun Ou · Qiang Fu · Hadi Amata · Wolfgang Heidrich · YIFAN PENG

Volume Tells: Dual Cycle-Consistent Diffusion for 3D Fluorescence Microscopy De-noising and Super-Resolution

ZELIN LI · Chenwei Wang · Zhaoke Huang · Centre for Intelligent Multidimensional Data Analysis · Hong Kong Baptist University · Hong Kong Baptist University · Hong Kong Baptist University

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images

Jungho Lee · Suhwan Cho · Taeoh Kim · Ho-Deok Jang · Minhyeok Lee · Geonho Cha · Dongyoon Wee · Dogyoon Lee · Sangyoun Lee

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

Zixuan Chen · Yujin Wang · Xin Cai · Zhiyuan You · Zhe-Ming Lu · Fan Zhang · Shi Guo · Tianfan Xue

LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene

Xiaoyu Zhang · Weihong Pan · Chong Bao · Xiyu Zhang · Xiaojun Xiang · Hanqing Jiang · Hujun Bao

SpecTRe-GS: Modeling Highly Specular Surfaces with Reflected Nearby Objects by Tracing Rays in 3D Gaussian Splatting

Jiajun Tang · Fan Fei · Zhihao Li · Xiao Tang · Shiyong Liu · Youyu Chen · Binxiao Huang · Dave Zhenyu Chen · Xiaofei Wu · Boxin Shi

SVG-IR: Spatially-Varying Gaussian Splatting for Inverse Rendering

Hanxiao Sun · Yupeng Gao · Jin Xie · Jian Yang · Beibei Wang

RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian Splatting

Qiyu Dai · Xingyu Ni · Qianfan Shen · Mengyu Chu · Wenzheng Chen · Baoquan Chen

Light Transport-aware Diffusion Posterior Sampling for Single-View Reconstruction of 3D Volumes

Ludwic Leonard · Nils Thuerey · rüdiger westermann

StarVector: Generating Scalable Vector Graphics Code from Images and Text

Juan Rodriguez · Abhay Puri · Shubham Agarwal · Issam Laradji · Pau Rodriguez · Sai Rajeswar · David Vazquez · Christopher Pal · Marco Pedersoli

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

Cheng Sun · Jaesung Choe · Charles Loop · Wei-Chiu Ma · Yu-Chiang Frank Wang

BG-Triangle: Bézier Gaussian Triangle for 3D Vectorization and Rendering

Minye Wu · Haizhao Dai · Kaixin Yao · Jingyi Yu · Tinne Tuytelaars

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

Himangi Mittal · Peiye Zhuang · Hsin-Ying Lee · Shubham Tulsiani

Mesh Mamba: A Unified State Space Model for Saliency Prediction in Non-Textured and Textured Meshes

Kaiwei Zhang · Dandan Zhu · Xiongkuo Min · Guangtao Zhai

DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation

Xiaoliang Ju · Hongsheng Li

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Mark Boss · Zixuan Huang · Aaryaman Vasishta · Varun Jampani

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

Rui Chen · Jianfeng Zhang · Yixun Liang · Guan Luo · Weiyu Li · Jiarui Liu · Xiu Li · Xiaoxiao Long · Jiashi Feng · Ping Tan

Few-shot Implicit Function Generation via Equivariance

Suizhi Huang · Xingyi Yang · Hongtao Lu · Xinchao Wang

Instant3dit: Multiview Inpainting for Fast Editing of 3D Objects

Amir Barda · Matheus Gadelha · Vladimir G. Kim · Noam Aigerman · Amit H. Bermano · Thibault Groueix

PyTorchGeoNodes: Enabling Differentiable Shape Programs for 3D Shape Reconstruction

Sinisa Stekovic · Arslan Artykov · Stefan Ainetter · Mattia Durso · Friedrich Fraundorfer

Perturb-and-Revise: Flexible 3D Editing with Generative Trajectories

Susung Hong · Johanna Suvi Karras · Ricardo Martin · Ira Kemelmacher-Shlizerman

DaCapo: Score Distillation as Stacked Bridge for Fast and High-quality 3D Editing

Yufei Huang · Bangyan Liao · Yuqi Hu · Haitao Lin · Lirong Wu · Siyuan Li · Cheng Tan · Zicheng Liu · Yunfan Liu · Zelin Zang · Chang Yu · Zhen Lei

Structure from Collision

Takuhiro Kaneko

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting

Zixuan Chen · Guangcong Wang · Jiahao Zhu · Jianhuang Lai · Xiaohua Xie

DORNet: A Degradation Oriented and Regularized Network for Blind Depth Super-Resolution

Zhengxue Wang · Zhiqiang Yan · Jinshan Pan · Guangwei Gao · Kai Zhang · Jian Yang

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

Hengyu Liu · Yuehao Wang · Chenxin Li · Ruisi Cai · Kevin Wang · Wuyang Li · Pavlo Molchanov · Peihao Wang · Zhangyang Wang

Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization

You Shen · Zhipeng Zhang · Xinyang Li · Yansong Qu · Yu Lin · Shengchuan Zhang · Liujuan Cao

OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities

Suyoung Lee · JAEYOUNG CHUNG · Kihoon Kim · Jaeyoo Huh · Gunhee Lee · Minsoo Lee · Kyoung Mu Lee

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Chung-Ho Wu · Yang-Jung Chen · Ying-Huan Chen · Jie-Ying Lee · Bo-Hsu Ke · Chun-Wei Tuan Mu · Yichuan Huang · Chin-Yang Lin · Min-Hung Chen · Yen-Yu Lin · Yu-Lun Liu

Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views

Chong Bao · Xiyu Zhang · Zehao Yu · Jiale Shi · Guofeng Zhang · Songyou Peng · Zhaopeng Cui

Advancing Adversarial Robustness in GNeRFs: The IL2-NeRF Attack

Nicole Meng · Caleb Manicke · Ronak Sahu · Caiwen Ding · Yingjie Lao

EVPGS: Enhanced View Prior Guidance for Splatting-based Extrapolated View Synthesis

Jiahe Li · Feiyu Wang · Xiaochao Qu · WU CHENGJING · Luoqi Liu · Ting Liu

CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion Model

Xiaoding Yuan · Shitao Tang · Kejie Li · Peng Wang

Pippo: High-Resolution Multi-View Humans from a Single Image

Yash Kant · Ethan Weber · Jin Kyu Kim · Rawal Khirodkar · Zhaoen Su · Julieta Martinez · Igor Gilitschenski · Shunsuke Saito · Timur Bagautdinov

3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement

Yihang Luo · Shangchen Zhou · Yushi Lan · Xingang Pan · Chen Change Loy

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

Hanwen Jiang · Zexiang Xu · Desai Xie · Chen Ziwen · Haian Jin · Fujun Luan · ZHIXIN SHU · Kai Zhang · Sai Bi · Xin Sun · Jiuxiang Gu · Qixing Huang · Georgios Pavlakos · Hao Tan

DepthSplat: Connecting Gaussian Splatting and Depth

Haofei Xu · Songyou Peng · Fangjinhua Wang · Hermann Blum · Daniel Barath · Andreas Geiger · Marc Pollefeys

SimVS: Simulating World Inconsistencies for Robust View Synthesis

Alex Trevithick · Roni Paiss · Philipp Henzler · Dor Verbin · Rundi Wu · Hadi Alzayer · Ruiqi Gao · Ben Poole · Jonathan T. Barron · Aleksander Holynski · Ravi Ramamoorthi · Pratul P. Srinivasan

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Hanyang Wang · Fangfu Liu · Jiawei Chi · Yueqi Duan

ActiveGAMER: Active GAussian Mapping through Efficient Rendering

Liyan Chen · Huangying Zhan · Kevin Chen · Xiangyu Xu · Qingan Yan · Changjiang Cai · Yi Xu

EAP-GS: Efficient Augmentation of Pointcloud for 3D Gaussian Splatting in Few-shot Scene Reconstruction

Dongrui Dai · Yuxiang Xing

Shading Meets Motion: Self-supervised Indoor 3D Reconstruction Via Simultaneous Shape-from-Shading and Structure-from-Motion

Guoyu Lu

Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting

Jinbo Yan · Rui Peng · Zhiyan Wang · Luyang Tang · Jiayu Yang · Jie Liang · Jiahao Wu · Ronggang Wang

BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting

Yiren Lu · Yunlai Zhou · Disheng Liu · tuo liang · Yu Yin

GauSTAR: Gaussian Surface Tracking and Reconstruction

Chengwei Zheng · Lixin Xue · Juan Jose Zarate · Jie Song

Opportunistic Single-Photon Time of Flight

Sotiris Nousias · Mian Wei · Howard Xiao · Maxx Wu · Shahmeer Athar · Kevin J Wang · Anagh Malik · David A. Barmherzig · David B. Lindell · Kiriakos Kutulakos

ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

Zhengxian Yang · Shi Pan · Shengqi Wang · Haoxiang Wang · Li Lin · Guanjun Li · Zhengqi Wen · Borong Lin · Jianhua Tao · Tao Yu

Reconstructing Animals and the Wild

Peter Kulits · Michael J. Black · Silvia Zuffi

Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis

M. Hamza Mughal · Rishabh Dabral · Merel CJ Scholman · Vera Demberg · Christian Theobalt

Dense Dispersed Structured Light for Hyperspectral 3D Imaging of Dynamic Scenes

Suhyun Shin · Seungwoo Yoon · Ryota Maeda · Seung-Hwan Baek

HUSH: Holistic Panoramic 3D Scene Understanding using Spherical Harmonics

Jongsung Lee · HARIN PARK · Byeong-Uk Lee · Kyungdon Joo

USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting

Kang Chen · Jiyuan Zhang · Zecheng Hao · Yajing Zheng · Tiejun Huang · Zhaofei Yu

SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion

Xuan Zhu · Jijun Xiang · Xianqi Wang · Longliang Liu · Yu Wang · Hong Zhang · Fei Guo · Xin Yang

Sea-ing in Low-light

Nisha Varghese · A. N. Rajagopalan

Consistency-aware Self-Training for Iterative-based Stereo Matching

Jingyi Zhou · Peng Ye · Haoyu Zhang · Jiakang Yuan · Rao Qiang · Liu YangChenXu · Wu Cailin · Feng Xu · Tao Chen

SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos

Yuzheng Liu · Siyan Dong · Shuzhe Wang · Yingda Yin · Yanchao Yang · Qingnan Fan · Baoquan Chen

4D-Fly: Fast 4D Reconstruction from a Single Monocular Video

Diankun Wu · Fangfu Liu · Yi-Hsin Hung · Yue Qian · Xiaohang Zhan · Yueqi Duan

Camera Resection from Known Line Pencils and a Radially Distorted Scanline

Juan Carlos Dibene Simental · Enrique Dunn

AnyMap: Learning a General Camera Model for Structure-from-Motion with Unknown Distortion in Dynamic Scenes

Andrea Porfiri Dal Cin · Georgi Dikov · Jihong Ju · Mohsen Ghafoorian

SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split Optimization

Junchen Yu · Siyuan Cao · Runmin Zhang · Chenghao Zhang · Zhu Yu · Shujie Chen · Bailin Yang · Hui-Liang Shen

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

Riku Murai · Eric Dexheimer · Andrew J. Davison

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

Yifan Yu · Shaohui Liu · Rémi Pautrat · Marc Pollefeys · Viktor Larsson

AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos

Felix Wimbauer · Weirong Chen · Dominik Muhle · Christian Rupprecht · Daniel Cremers

GPVK-VL: Geometry-Preserving Virtual Keyframes for Visual Localization under Large Viewpoint Changes

Yunxuan Li · Lei Fan · Xiaoying Xing · Jianxiong Zhou · Ying Wu

Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization

Siyan Dong · Shuzhe Wang · Shaohui Liu · Lulu Cai · Qingnan Fan · Juho Kannala · Yanchao Yang

Viewpoint Rosetta Stone: Unlocking Unpaired Ego-Exo Videos for View-invariant Representation Learning

Mi Luo · Zihui Xue · Alex Dimakis · Kristen Grauman

Self-Supervised Cross-View Correspondence with Predictive Cycle Consistency

Alan Baade · Changan Chen

Can Generative Video Models Help Pose Estimation?

Ruojin Cai · Jason Y. Zhang · Philipp Henzler · Zhengqi Li · Noah Snavely · Ricardo Martin

Light3R-SfM: Towards Feed-forward Structure-from-Motion

Sven Elflein · Qunjie Zhou · Laura Leal-Taixe

BADGR: Bundle Adjustment Diffusion Conditioned by Gradients for Wide-Baseline Floor Plan Reconstruction

Yuguang Li · Ivaylo Boyadzhiev · Zixuan Liu · Linda Shapiro · Alex Colburn

SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens

Chi Su · Xiaoxuan Ma · Jiajun Su · Yizhou Wang

HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation

Hongwei Zheng · Han Li · Wenrui Dai · Ziyang Zheng · Chenglin Li · Junni Zou · Hongkai Xiong

Pos3R: 6D Pose Estimation for Unseen Objects Made Easy

Weijian Deng · Dylan Campbell · Chunyi Sun · Jiahao Zhang · Shubham Kanitkar · Matthew Shaffer · Stephen Gould

ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation

Tao Tan · Qiulei Dong

Leveraging Global Stereo Consistency for Category-Level Shape and 6D Pose Estimation from Stereo Images

Junning Qiu · Minglei Lu · Fei Wang · Yu Guo · Yonggen Ling

One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency

Li Jin · Yujie Wang · Wenzheng Chen · Qiyu Dai · Qingzhe Gao · Xueying Qin · Baoquan Chen

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Zixuan Huang · Mark Boss · Aaryaman Vasishta · James Rehg · Varun Jampani

SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking

Wenrui Cai · Qingjie Liu · Yunhong Wang

MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

Haolin Qin · Tingfa Xu · Tianhao Li · Zhenxiang Chen · Tao Feng · Jianan Li

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

Bangyan Liao · Zhenjun Zhao · Haoang Li · Yi Zhou · Yingping Zeng · Hao Li · Peidong Liu

All-Day Multi-Camera Multi-Target Tracking

Huijie Fan · Yu Qiao · Yihao Zhen · Tinghui Zhao · Baojie Fan · Qiang Wang

Shape Abstraction via Marching Differentiable Support Functions

Sunkyung Park · Jeongmin Lee · Dongjun Lee

MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image

Shaoming Li · Qing Cai · Songqi KONG · Runqing Tan · Heng Tong · Shiji Qiu · Yongguo Jiang · Zhi Liu

Implicit Correspondence Learning for Image-to-Point Cloud Registration

Xinjun Li · Wenfei Yang · Jiacheng Deng · Zhixin Cheng · Xu Zhou · Tianzhu Zhang

Consistent Normal Orientation for 3D Point Clouds via Least Squares on Delaunay Graph

Rao Fu · Jianmin Zheng · Liang Yu

Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model

Haobo Jiang · Jin Xie · Jian Yang · Liang Yu · Jianmin Zheng

SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization

Yi Du · Zhipeng Zhao · Shaoshu Su · Sharath Golluri · Haoze Zheng · Runmao Yao · Chen Wang

Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition

Khanh Nguyen · Ghulam Mubashar Hassan · Ajmal Mian

PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter

Yaohua Zha · Yanzi Wang · Hang Guo · Jinpeng Wang · Tao Dai · Bin Chen · Zhihao Ouyang · Xue Yuerong · Ke Chen · Shu-Tao Xia

Point Cloud Upsampling Using Conditional Diffusion Module with Adaptive Noise Suppression

Boqian Zhang · shen yang · Hao Chen · Chao Yang · Jing Jia · Guang Jiang

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

Zhaochong An · Guolei Sun · Yun Liu · Runjia Li · Junlin Han · Ender Konukoglu · Serge Belongie

EdgeDiff: Edge-aware Diffusion Network for Building Reconstruction from Point Clouds

Yujun Liu · Ruisheng Wang · Shangfeng Huang · GuoRong Cai

WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion

Yang Wu · Yun Zhu · Kaihua Zhang · Jianjun Qian · Jin Xie · Jian Yang

FASTer: Focal token Acquiring-and-Scaling Transformer for Long-term 3D Objection Detection

Chenxu Dang · Pei An · Xinmin Zhang · ZaiPeng Duan · Xuzhong Hu · Jie Ma

LiSu: A Dataset and Method for LiDAR Surface Normal Estimation

Dušan Malić · Christian Fruhwirth-Reisinger · Samuel Schulter · Horst Possegger

DiffLO: Semantic-Aware LiDAR Odometry with Diffusion-Based Refinement

huang yongshu · Chen Liu · Minghang Zhu · Sheng Ao · Chenglu Wen · Cheng Wang

SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation

Duc-Hai Pham · Tung Do · Phong Nguyen · Binh-Son Hua · Khoi Nguyen · Rang Nguyen

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Haotong Lin · Sida Peng · Jingxiao Chen · Songyou Peng · Jiaming Sun · Minghuan Liu · Hujun Bao · Jiashi Feng · Xiaowei Zhou · Bingyi Kang

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion

Xiaomeng Chu · Jiajun Deng · Guoliang You · Yifan Duan · Houqiang Li · Yanyong Zhang

ZeroVO: Visual Odometry with Minimal Assumptions

Lei Lai · Zekai Yin · Eshed Ohn-Bar

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

You Wu · Xucheng Wang · Xiangyang Yang · Mengyuan Liu · Dan Zeng · Hengzhou Ye · Shuiwang Li

On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events

Jesse Hagenaars · Yilun Wu · Federico Paredes Valles · Stein Stroobants · Guido De Croon

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

Shu-Wei Lu · Yi-Hsuan Tsai · Yi-Ting Chen

3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation

Gyeongrok Oh · Sung June Kim · Heeju Ko · Hyunggun Chi · Jinkyu Kim · Dongwook Lee · Daehyun Ji · Sungjoon Choi · Sujin Jang · Sangpil Kim

SOAP: Vision-Centric 3D Semantic Scene Completion with Scene-Adaptive Decoder and Occluded Region-Aware View Projection

Hyo-Jun Lee · Yeong Jun Koh · Hanul Kim · Hyunseop Kim · Yonguk Lee · Jinu Lee

VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow

Yancong Lin · Shiming Wang · Liangliang Nan · Julian F. P. Kooij · Holger Caesar

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

Haiming Zhang · Wending Zhou · Shenzhen The Chinese University of Hongkong · Hong Kong University of Science and Technology · Huawei Technologies Ltd. · Huawei Technologies Ltd. · Huawei Technologies Ltd. · Huawei Technologies Ltd. · Huawei Technologies Ltd. · Shenzhen The Chinese University of Hong Kong

InteractionMap: Improving Online Vectorized HDMap Construction with Interaction

Kuang Wu · Chuan Yang · Zhanbin Li

DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion

Wei Wu · Xi Guo · Weixuan TANG · Tingxuan Huang · Chiyu Wang · Chenjing Ding

T2SG: Traffic Topology Scene Graph for Topology Reasoning in Autonomous Driving

Changsheng Lv · Mengshi Qi · Liang Liu · Huadong Ma

Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments

Luke Rowe · Roger Girgis · Anthony Gosselin · Liam Paull · Christopher Pal · Felix Heide

Leveraging SD Map to Augment HD Map-based Trajectory Prediction

Zhiwei Dong · Ran Ding · Wei Li · Zhang Peng · Guobin Tang · Jia Guo

Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework

Yi Yu · Weizhen Han · Libing Wu · Bingyi Liu · Enshu Wang · Zhuangzhuang Zhang

CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-Scale Reinforcement Learning in Autonomous Driving

Dongkun Zhang · Jiaming Liang · Ke Guo · Sha Lu · Qi Wang · Rong Xiong · Zhenwei Miao · Yue Wang

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models

Wufei Ma · Luoxin Ye · Nessa McWeeney · Celso M. de Melo · Alan L. Yuille · Jieneng Chen

DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving

Zhenhua Xu · Yan Bai · Yujia Zhang · Zhuoling Li · Fei Xia · Kwan-Yee K. Wong · Jianqiang Wang · Hengshuang Zhao

Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations

Ahmad Rahimi · Po-Chien Luan · Yuejiang Liu · Frano Rajič · Alex Alahi

MoFlow: One-Step Flow Matching for Human Trajectory Forecasting via Implicit Maximum Likelihood Estimation based Distillation

Yuxiang Fu · Qi Yan · Ke Li · Lele Wang · Renjie Liao

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

Yuncong Yang · Han Yang · Jiachen Zhou · Peihao Chen · Hongxin Zhang · Yilun Du · Chuang Gan

HandOS: 3D Hand Reconstruction in One Stage

Xingyu Chen · Zhuheng Song · Xiaoke Jiang · Yaoqing Hu · Junzhi Yu · Lei Zhang

MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data

Zifan Wang · Ziqing Chen · Junyu Chen · Jilong Wang · Yuxin Yang · Yunze Liu · Xueyi Liu · He Wang · Li Yi

PDFactor: Learning Tri-Perspective View Policy Diffusion Field for Multi-Task Robotic Manipulation

Jingyi Tian · Le Wang · Sanping Zhou · Sen Wang · lijiayi · Haowen Sun · Wei Tang

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

Jieming Cui · Tengyu Liu · Ziyu Meng · Jiale Yu · Ran Song · Wei Zhang · Yixin Zhu · Siyuan Huang

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Chan Hee Song · Valts Blukis · Jonathan Tremblay · Stephen Tyree · Yu Su · Stan Birchfield

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

Yawen Shao · Wei Zhai · Yuhang Yang · Hongchen Luo · Yang Cao · Zheng-Jun Zha

Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

He Zhu · Quyu Kong · Kechun Xu · Xunlong Xia · Bing Deng · Jieping Ye · Rong Xiong · Yue Wang

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

Yueru Jia · Jiaming Liu · Sixiang Chen · Chenyang Gu · Zhilve Wang · Xiaoqi Li · Longzan Luo · Pengwei Wang · Renrui Zhang · Zhongyuan Wang · Shanghang Zhang

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Mingjie Pan · Jiyao Zhang · Tianshu Wu · Yinghao Zhao · Wenlong Gao · Hao Dong

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision

Tomoya Yoshida · Shuhei Kurita · Taichi Nishimura · Shinsuke Mori

Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation

Yu Qi · Yuanchen Ju · Tianming Wei · Chi Chu · Lawson L.S. Wong · Huazhe Xu

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

Qi Lv · Hao Li · Xiang Deng · Rui Shao · Yinchuan Li · Jianye Hao · Longxiang Gao · MICHAEL YU WANG · Liqiang Nie

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

Shun Iwase · Muhammad Zubair Irshad · Katherine Liu · Vitor Guizilini · Robert Lee · Takuya Ikeda · Ayako Amma · Koichi Nishiwaki · Kris Kitani · Rares Andrei Ambrus · Sergey Zakharov

LatentHOI: On the Generalizable Hand Object Motion Generation with Latent Hand Diffusion.

Muchen Li · Sammy Christen · Chengde Wan · Yujun Cai · Renjie Liao · Leonid Sigal · Shugao Ma

Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions

Boran Wen · Dingbang Huang · Zichen Zhang · Jiahong Zhou · Jianbin Deng · Jingyu Gong · Yulong Chen · Lizhuang Ma · Yonglu Li

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

Jeongwan On · Kyeonghwan Gwak · Gunyoung Kang · Junuk Cha · Soohyun Hwang · Hyein Hwang · Seungryul Baek

FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation

Kefan Chen · Chaerin Min · Linguang Zhang · Shreyas Hampali · Cem Keskin · Srinath Sridhar

GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities

Rao Fu · Dingxi Zhang · Alex Jiang · Wanjia Fu · Austin Funk · Daniel Ritchie · Srinath Sridhar

Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning

Buzhen Huang · Chen Li · Chongyang Xu · Dongyue Lu · Jinnan Chen · Yangang Wang · Gim Hee Lee

AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer

Jin Lyu · Tianyi Zhu · Yi Gu · Li Lin · Pujin Cheng · Yebin Liu · Xiaoying Tang · Liang An

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

Andrea Boscolo Camiletto · Jian Wang · Eduardo Alvarado · Rishabh Dabral · Thabo Beeler · Marc Habermann · Christian Theobalt

SyncSDE: A Probabilistic Framework for Diffusion Synchronization

Hyunjun Lee · Hyunsoo Lee · Sookwan Han

Lifting Motion to the 3D World via 2D Diffusion

Jiaman Li · Karen Liu · Jiajun Wu

Motions as Queries: One-Stage Multi-Person Holistic Human Motion Capture

Kenkun Liu · Yurong Fu · Weihao Yuan · Jing Lin · Peihao Li · Xiaodong Gu · Lingteng Qiu · Haoqian Wang · Zilong Dong · Xiaoguang Han

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

Yinhuai Wang · Qihan Zhao · Runyi Yu · Hok Wai Tsui · Ailing Zeng · Jing Lin · Zhengyi Luo · Jiwen Yu · Xiu Li · Qifeng Chen · Jian Zhang · Lei Zhang · Ping Tan

Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

Yingying Fan · Quanwei Yang · Kaisiyuan Wang · Hang Zhou · Yingying Li · Haocheng Feng · Errui Ding · Yu Wu · Jingdong Wang

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong · Ziyi Wang · Yuexin Ma · Xiangyu Yue

Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li · Qianli Ma · Tsung-Yi Lin · Yongxin Chen · Chenfanfu Jiang · Ming-Yu Liu · Donglai Xiang

Human Motion Instruction Tuning

Lei Li · Sen Jia · Jianhao Wang · Zhongyu Jiang · Feng Zhou · Ju Dai · Tianfang Zhang · Zongkai Wu · Jenq-Neng Hwang

EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space

Jianrong Zhang · Hehe Fan · Yi Yang

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Chi-Pin Huang · Yen-Siang Wu · Hung-Kai Chung · Kai-Po Chang · Fu-En Yang · Yu-Chiang Frank Wang

FIction: 4D Future Interaction Prediction from Video

Kumar Ashutosh · Georgios Pavlakos · Kristen Grauman

Mamba4D: Efficient 4D Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models

Jiuming Liu · Jinru Han · Lihao Liu · Angelica I Aviles-Rivero · Chaokang Jiang · Zhe Liu · Hesheng Wang

Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos

Vadim Tschernezki · Diane Larlus · Andrea Vedaldi · Iro Laina

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu · Jinghan Xu · Yi Chang · Hanyu Zhou · Haozhi Zhao · Lin Wang · Luxin Yan

Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors

Zhengfei Kuang · Tianyuan Zhang · Kai Zhang · Hao Tan · Sai Bi · Yiwei Hu · Zexiang Xu · Milos Hasan · Gordon Wetzstein · Fujun Luan

LC-Mamba: Local and Continuous Mamba with Shifted Windows for Frame Interpolation

Min Wu Jeong · Chae Eun Rhee

ObjectMover: Generative Object Movement with Video Prior

Xin Yu · Tianyu Wang · Soo Ye Kim · Paul Guerrero · Xi Chen · Qing Liu · Zhe Lin · Xiaojuan Qi

VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors

Juil Koo · Paul Guerrero · Chun-Hao P. Huang · Duygu Ceylan · Minhyuk Sung

One-Minute Video Generation with Test-Time Training

Jiarui Xu · Shihao Han · Karan Dalal · Daniel Koceja · Yue Zhao · Ka Chun Cheung · Yejin Choi · Jan Kautz · Yu Sun · Xiaolong Wang

Generative Video Propagation

Shaoteng Liu · Tianyu Wang · Jui-Hsien Wang · Qing Liu · Zhifei Zhang · Joon-Young Lee · Yijun Li · Bei Yu · Zhe Lin · Soo Ye Kim · Jiaya Jia

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Chaoyang Wang · Peiye Zhuang · Tuan Duc Ngo · Willi Menapace · Aliaksandr Siarohin · Michael Vasilkovsky · Ivan Skorokhodov · Sergey Tulyakov · Peter Wonka · Hsin-Ying Lee

Condensing Action Segmentation Datasets via Generative Network Inversion

Guodong Ding · Rongyu Chen · Angela Yao

Perceptual Video Compression with Neural Wrapping

Muhammad Umar Karim Khan · Aaron Chadha · Mohammad Ashraful Anam · Yiannis Andreopoulos

EvEnhancer: Empowering Effectiveness, Efficiency and Generalizability for Continuous Space-Time Video Super-Resolution with Events

Shuoyan Wei · Feng Li · Shengeng Tang · Yao Zhao · Huihui Bai

Plug-and-Play Versatile Compressed Video Enhancement

Huimin Zeng · Jiacheng Li · Zhiwei Xiong

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Zongjian Li · Bin Lin · Yang Ye · Liuhan Chen · Xinhua Cheng · Shenghai Yuan · Li Yuan

LongDiff: Training-Free Long Video Generation in One Go

Zhuoling Li · Hossein Rahmani · Qiuhong Ke · Jun Liu

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution

Shian Du · Menghan Xia · Chang Liu · Xintao Wang · Jing Wang · Pengfei Wan · Di ZHANG · Xiangyang Ji

DPFlow: Adaptive Optical Flow Estimation with a Dual-Pyramid Framework

Henrique Morimitsu · Xiaobin Zhu · Roberto M. Cesar Jr · Xiangyang Ji · Xu-Cheng Yin

Dynamic Content Prediction with Motion-aware Priors for Blind Face Video Restoration

Lianxin Xie · csbingbing zheng · Si Wu · Hau San Wong

LP-Diff: Towards Improved Restoration of Real-World Degraded License Plate

Haoyan Gong · Zhenrong Zhang · Yuzheng Feng · Anh Nguyen · Hongbin Liu

AlphaPre: Amplitude-Phase Disentanglement Model for Precipitation Nowcasting

Kenghong Lin · Baoquan Zhang · Demin Yu · Wenzhi Feng · Shidong Chen · Feifan Gao · Xutao Li · Yunming Ye

Effective Cloud Removal for Remote Sensing Images by an Improved Mean-Reverting Denoising Model with Elucidated Design Space

Yi Liu · Wengen Li · Jihong Guan · Shuigeng Zhou · Yichao Zhang

Self-Learning Hyperspectral and Multispectral Image Fusion via Adaptive Residual Guided Subspace Diffusion Model

Jian Zhu · He Wang · Yang Xu · Zebin Wu · Zhihui Wei

Adaptive Rectangular Convolution for Remote Sensing Pansharpening

Xueyang Wang · Zhixin Zheng · Jiandong Shao · Yule Duan · Liang-Jian Deng

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond

Guanyao Wu · Haoyu Liu · Hongming Fu · Yichuan Peng · Jinyuan Liu · Xin Fan · Risheng Liu

Exposure-slot: Exposure-centric Representations Learning with Slot-in-Slot Attention for Region-aware Exposure Correction

Donggoo Jung · DAEHYUN KIM · Guanghui Wang · Tae Hyun Kim

CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

Xin Liu · Jie Liu · Jie Tang · Gangshan Wu

ACL: Activating Capability of Linear Attention for Image Restoration

Yubin Gu · Yuan Meng · Jiayi Ji · Xiaoshuai Sun

Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising

Tong Li · Lizhi Wang · Zhiyuan Xu · Lin Zhu · Wanxuan Lu · Hua Huang

From Zero to Detail: Deconstructing Ultra-High-Definition Image Restoration from Progressive Spectral Perspective

Chen Zhao · Zhizhou Chen · Yunzhe Xu · Enxuan Gu · Jian Li · Zili Yi · qian Wang · Jian Yang · Ying Tai

Multi-Modal Contrastive Masked Autoencoders: A Two-Stage Progressive Pre-training Approach for RGBD Datasets

Muhammad Abdullah Jamal · Omid Mohareri

Auto-Encoded Supervision for Perceptual Image Super-Resolution

MinKyu Lee · Sangeek Hyun · Woojin Jun · Jae-Pil Heo

UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior

I-Hsiang (Aaron) Chen · Wei-Ting Chen · Yu-Wei Liu · Yuan-Chun Chiang · Sy-Yen Kuo · Ming-Hsuan Yang

Uncertainty-guided Perturbation for Image Super-Resolution Diffusion Model

Leheng Zhang · Weiyi You · Kexuan Shi · Shuhang Gu

Image Quality Assessment: Investigating Causal Perceptual Effects with Abductive Counterfactual Inference

Wenhao Shen · Mingliang Zhou · Yu Chen · Xuekai WEI · Yong Feng · Huayan Pu · Weijia Jia

Using Powerful Prior Knowledge of Diffusion Model in Deep Unfolding Networks for Image Compressive Sensing

Chen Liao · Yan Shen · Dan Li · Zhongli Wang

Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition

Zhiyuan Chen · Keyi Li · Yifan Jia · Le Ye · Yufei Ma

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen · Xingpeng Zhang · Zhaoxiang Liu · Huan Hu · Xiang Liu · Kai Wang · Min Wang · Yanlin Qian · Shiguo Lian

Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation

Kendong Liu · Zhiyu Zhu · Hui LIU · Junhui Hou

MambaIC: State Space Models for High-Performance Learned Image Compression

Fanhu Zeng · Hao Tang · Yihua Shao · Siyu Chen · Ling Shao · Yan Wang

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

Jinchang Xu · Shaokang Wang · Jintao Chen · Zhe Li · Peidong Jia · Fei Zhao · Guoqing Xiang · Zhijian Hao · Shanghang Zhang · Xiaodong Xie

Simpler Diffusion: 1.5 FID on ImageNet512 with Pixel-space Diffusion

Emiel Hoogeboom · Thomas Mensink · Jonathan Heek · Kay Lamerigts · Ruiqi Gao · Tim Salimans

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers

Haoran You · Connelly Barnes · Yuqian Zhou · Yan Kang · Zhenbang Du · Wei Zhou · Lingzhi Zhang · Yotam Nitzan · Xiaoyang Liu · Zhe Lin · Eli Shechtman · Sohrab Amirghodsi · Yingyan (Celine) Lin

Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration

Haipeng Fang · Sheng Tang · Juan Cao · Enshuo Zhang · Fan Tang · Tong-yee Lee

NoiseCtrl: A Sampling-Algorithm-Agnostic Conditional Generation Method for Diffusion Models

Longquan Dai · He Wang · Jinhui Tang

See Further When Clear: Curriculum Consistency Model

Yunpeng Liu · Boxiao Liu · Yi Zhang · Xingzhong Hou · Guanglu Song · Yu Liu · Haihang You

RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories

Huiyang Shao · Xin Xia · Yuhong Yang · Ren Yuxi · XING WANG · Xuefeng Xiao

Improved Video VAE for Latent Video Diffusion Model

Pingyu Wu · Kai Zhu · Yu Liu · Liming Zhao · Wei Zhai · Yang Cao · Zheng-Jun Zha

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning

Maosen Zhao · Pengtao Chen · Chong Yu · Yan Wen · Xudong Tan · Tao Chen

TinyFusion: Diffusion Transformers Learned Shallow

Gongfan Fang · Kunjun Li · Xinyin Ma · Xinchao Wang

Towards Precise Scaling Laws for Video Diffusion Transformers

Yuanyang Yin · Yaqi Zhao · Mingwu Zheng · Ke Lin · Jiarong Ou · Rui Chen · Victor Shea-Jay Huang · Jiahao Wang · Xin Tao · Pengfei Wan · Di ZHANG · Baoqun Yin · Wentao Zhang · Kun Gai

Less is More: Efficient Image Vectorization with Adaptive Parameterization

Kaibo Zhao · Liang Bao · Yufei Li · Xu Su · Ke Zhang · Xiaotian Qiao

Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback

Mohd Hozaifa Khan · Ravi Kiran Sarvadevabhatla

AniDoc: Animation Creation Made Easier

Yihao Meng · Hao Ouyang · Hanlin Wang · Qiuyu Wang · Wen Wang · Ka Leong Cheng · Zhiheng Liu · Yujun Shen · Huamin Qu

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Guy Yariv · Yuval Kirstain · Amit Zohar · Shelly Sheynin · Yaniv Taigman · Yossi Adi · Sagie Benaim · Adam Polyak

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis

Tongtong Su · Chengyu Wang · Bingyan Liu · Jun Huang · Dongming Lu

Autoregressive Distillation of Diffusion Transformers

Yeongmin Kim · Sotiris Anagnostidis · Yuming Du · Edgar Schoenfeld · Jonas Kohler · Markos Georgopoulos · Albert Pumarola · Ali Thabet · Artsiom Sanakoyeu

EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation

Diljeet Jagpal · Xi Chen · Vinay P. Namboodiri

TransPixeler: Advancing Text-to-Video Generation with Transparency

Luozhou Wang · Yijun Li · ZhiFei Chen · Jui-Hsien Wang · Zhifei Zhang · He Zhang · Zhe Lin · Ying-Cong Chen

PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model

Xiang Gao · Shuai Yang · Jiaying Liu

Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation

Hyunsoo Kim · Donghyun Kim · Suhyun Kim

StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style Transfer

ruojun xu · Weijie Xi · Xiaodi Wang · Yongbo Mao · Zach Cheng

Attention Distillation: A Unified Approach to Visual Characteristics Transfer

Yang Zhou · Xu Gao · Zichong Chen · Hui Huang

Style-Editor: Text-driven Object-centric Style Editing

Jihun Park · Jongmin Gim · Kyoungmin Lee · Seunghun Lee · Sunghoon Im

Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

Suho Ryu · Kihyun Kim · Eugene Baek · Dongsoo Shin · Joonseok Lee

PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and Attention

Weicheng Wang · Guoli Jia · Zhongqi Zhang · Liang Lin · Jufeng Yang

Paint by Inpaint: Learning to Add Image Objects by Removing Them First

Navve Wasserman · Noam Rotstein · Roy Ganz · Ron Kimmel

MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting

jun huang · Ting Liu · Yihang Wu · Xiaochao Qu · Luoqi Liu · Xiaolin Hu

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting

Yizhe Tang · Zhimin Sun · Yuzhen Du · Ran Yi · Guangben Lu · Teng Hu · LUYING LI · Lizhuang Ma · FangYuan Zou

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation

Bolin Lai · Felix Juefei-Xu · Miao Liu · Xiaoliang Dai · Nikhil Mehta · Chenguang Zhu · Zeyi Huang · James Rehg · Sangmin Lee · Ning Zhang · Tong Xiao

Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation

Pu Cao · Feng Zhou · Lu Yang · TianruiHuang · Qing Song

PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation

Qihan Huang · Weilong Dai · Jinlong Liu · Wanggui He · Hao Jiang · Mingli Song · Jie Song

VODiff: Controlling Object Visibility Order in Text-to-Image Generation

Dong Liang · Jinyuan Jia · Yuhao Liu · Zhanghan Ke · Hongbo Fu · Rynson W.H. Lau

Z-Magic: Zero-shot Multiple Attributes Guided Image Creator

Yingying Deng · Xiangyu He · Fan Tang · Weiming Dong

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Jian Han · Jinlai Liu · Yi Jiang · Bin Yan · Yuqi Zhang · Zehuan Yuan · BINGYUE PENG · Xiaobing Liu

Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis

Woojung Han · Yeonkyung Lee · Chanyoung Kim · Kwanghyun Park · Seong Jae Hwang

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

Jiapeng Zhu · Ceyuan Yang · Kecheng Zheng · Yinghao Xu · Zifan Shi · Yifei Zhang · Qifeng Chen · Yujun Shen

DreamRelation: Bridging Customization and Relation Generation

Qingyu Shi · Lu Qi · Jianzong Wu · Jinbin Bai · Jingbo Wang · Yunhai Tong · Xiangtai Li

Language-Guided Image Tokenization for Generation

Kaiwen Zha · Lijun Yu · Alireza Fathi · David A. Ross · Cordelia Schmid · Dina Katabi · Xiuye Gu

Scaling Down Text Encoders of Text-to-Image Diffusion Models

Lifu Wang · Daqing Liu · Xinchen Liu · Xiaodong He

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Shengqu Cai · Eric Ryan Chan · Yunzhi Zhang · Leonidas Guibas · Jiajun Wu · Gordon Wetzstein

Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation

Fu Feng · Yucheng Xie · Xu Yang · Jing Wang · Xin Geng

Towards Transformer-Based Aligned Generation with Self-Coherence Guidance

Shulei Wang · Wang Lin · Hai Huang · Hanting Wang · Sihang Cai · WenKang Han · Tao Jin · Jingyuan Chen · Jiacheng Sun · Jieming Zhu · Zhou Zhao

Calibrated Multi-Preference Optimization for Aligning Diffusion Models

Kyungmin Lee · Xiaohang Li · Qifei Wang · Junfeng He · Junjie Ke · Ming-Hsuan Yang · Irfan Essa · Jinwoo Shin · Feng Yang · Yinxiao Li

A4A: Adapter for Adapter Transfer via All-for-All Mapping for Cross-Architecture Models

Keyu Tu · Mengqi Huang · Zhuowei Chen · Zhendong Mao

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

Xiaoying Xing · Avinab Saha · Junfeng He · Susan Hao · Paul Vicol · Moonkyung Ryu · Gang Li · Sahil Singla · Sarah Young · Yinxiao Li · Feng Yang · Deepak Ramachandran

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Leigang Qu · Haochuan Li · Wenjie Wang · Xiang Liu · Juncheng Li · Liqiang Nie · Tat-seng Chua

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

Chongjian GE · Chenfeng Xu · Yuanfeng Ji · Chensheng Peng · Masayoshi Tomizuka · Ping Luo · Mingyu Ding · Varun Jampani · Wei Zhan

Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation

Yiming Qin · Zhu Xu · Yang Liu

Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility

Yidi Li · Jun Xiao · Zhengda Lu · Yiqun Wang · Haiyong Jiang

IDEA-Bench: How Far are Generative Models from Professional Designing?

Chen Liang · Lianghua Huang · Jingwu Fang · Huanzhang Dou · Wei Wang · Zhi-Fan Wu · Yupeng Shi · Junge Zhang · Xin Zhao · Yu Liu

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects

Shalini Maiti · Lourdes Agapito · Filippos Kokkinos

CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation

Jiahao Li · Weijian Ma · Xueyang Li · Yunzhong Lou · Guichun Zhou · Xiangdong Zhou

BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Yunqi Gu · Ian Huang · Jihyeon Je · Guandao Yang · Leonidas Guibas

Adversarial Domain Prompt Tuning and Generation for Single Domain Generalization

Zhipeng Xu · De Cheng · XINYANG JIANG · Nannan Wang · Dongsheng Li · Xinbo Gao

Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation

Byung Hyun Lee · Sungjin Lim · Se Young Chun

Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression

Dohyun Kim · Sehwan Park · GeonHee Han · Seung Wook Kim · Paul Hongsuck Seo

Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models

Reza Shirkavand · Peiran Yu · Shangqian Gao · Gowthami Somepalli · Tom Goldstein · Heng Huang

Visual Persona: Foundation Model for Full-Body Human Customization

Jisu Nam · Soowon Son · Zhan Xu · Jing Shi · Difan Liu · Feng Liu · Seungryong Kim · Yang Zhou

The Art of Deception: Color Visual Illusions and Diffusion Models

Alexandra Gomez-Villa · Kai Wang · C.Alejandro Parraga · Bartłomiej Twardowski · Jesus Malo · Javier Vazquez-Corral · Joost van de Weijer

Harnessing Frequency Spectrum Insights for Image Copyright Protection Against Diffusion Models

Zhenguang Liu · Chao Shuai · Shaojing Fan · Ziping Dong · Jinwu Hu · Zhongjie Ba · Kui Ren

Hiding Images in Diffusion Models by Editing Learned Score Functions

Haoyu Chen · Yunqiao Yang · Nan Zhong · Kede Ma

CDI: Copyrighted Data Identification in Diffusion Models

Jan Dubiński · Antoni Kowalczuk · Franziska Boenisch · Adam Dziedzic

A Bias-Free Training Paradigm for More General AI-generated Image Detection

Fabrizio Guillaro · Giada Zingarini · Ben Usman · Avneesh Sud · Davide Cozzolino · Luisa Verdoliva

Task Singular Vectors: Reducing Task Interference in Model Merging

Antonio Andrea Gargiulo · Donato Crisostomi · Maria Sofia Bucarelli · Simone Scardapane · Fabrizio Silvestri · Emanuele Rodolà

Any-Resolution AI-Generated Image Detection by Spectral Learning

Dimitrios Karageorgiou · Symeon Papadopoulos · Ioannis Kompatsiaris · Efstratios Gavves

DefectFill: Realistic Defect Generation with Inpainting Diffusion Model for Visual Inspection

Jaewoo Song · Daemin Park · Kanghyun Baek · Sangyub Lee · Jooyoung Choi · Eunji Kim · Sungroh Yoon

End-to-End Implicit Neural Representations for Classification

Alexander Gielisse · Jan van Gemert

A Flag Decomposition for Hierarchical Datasets

Nathan Mankovich · Ignacio Santamaria · Gustau Camps-Valls · Tolga Birdal

GazeGene: Large-scale Synthetic Gaze Dataset with 3D Eyeball Annotations

Yiwei Bao · Zhiming Wang · Feng Lu

FIFA: Fine-grained Inter-frame Attention for Driver's Video Gaze Estimation

Daosong Hu · Mingyue Cui · Kai Huang

Video-Guided Foley Sound Generation with Multimodal Controls

Ziyang Chen · Prem Seetharaman · Bryan Russell · Oriol Nieto · David Bourgin · Andrew Owens · Justin Salamon

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

Zeyue Tian · Zhaoyang Liu · Ruibin Yuan · Jiahao Pan · Qifeng Liu · Xu Tan · Qifeng Chen · Wei Xue · Yike Guo

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Edson Araujo · Andrew Rouditchenko · Yuan Gong · Saurabhchand Bhati · Samuel Thomas · Brian Kingsbury · Leonid Karlinsky · Rogerio Feris · James Glass · Hilde Kuehne

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Henghui Du · Guangyao Li · Chang Zhou · Chunjie Zhang · Alan Zhao · Di Hu

Circumventing Shortcuts in Audio-visual Deepfake Detection Datasets with Unsupervised Learning

Stefan Smeu · Dragos-Alexandru Boldisor · Dan Oneata · Elisabeta Oneata

PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation

Qiyao Xue · Xiangyu Yin · Boyuan Yang · Wei Gao

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Tianhao Qi · Jianlong Yuan · Wanquan Feng · Shancheng Fang · Jiawei Liu · SiYu Zhou · Qian HE · Hongtao Xie · Yongdong Zhang

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

Yijie Xu · Bolun Zheng · Wei Zhu · Hangjia Pan · Yuchen Yao · Ning Xu · An-An Liu · Quan Zhang · Chenggang Yan

Video-Bench: Human-Aligned Video Generation Benchmark

Hui Han · Siyuan Li · Jiaqi Chen · Yiwen Yuan · Yuling Wu · Yufan Deng · Chak Tou Leong · Hanwen Du · Junchen Fu · Youhua Li · Jie Zhang · Chi Zhang · Li-jia Li · Yongxin Ni

AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM

Wang Jiarui · Huiyu Duan · Guangtao Zhai · Juntong Wang · Xiongkuo Min

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing

Niu Lian · Jun Li · Jinpeng Wang · Ruisheng Luo · Yaowei Wang · Shu-Tao Xia · Bin Chen

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Orr Zohar · Xiaohan Wang · Yann Dubois · Nikhil Mehta · Tong Xiao · Philippe Hansen-Estruch · Licheng Yu · Xiaofang Wang · Felix Juefei-Xu · Ning Zhang · Serena Yeung · Xide Xia

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Junbo Niu · Yifei Li · Ziyang Miao · Chunjiang Ge · Zhou Yuanhang · Qihao He · Xiaoyi Dong · Haodong Duan · Shuangrui Ding · Rui Qian · Pan Zhang · Yuhang Zang · Yuhang Cao · Conghui He · Jiaqi Wang

VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment

Darshana Saravanan · Varun Gupta · Darshan Singh S · Zeeshan Khan · Vineet Gandhi · Makarand Tapaswi

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Yuxuan Wang · Yueqian Wang · Bo Chen · Tong Wu · Dongyan Zhao · Zilong Zheng

DrVideo: Document Retrieval Based Long Video Understanding

Ziyu Ma · Chenhui Gou · Hengcan Shi · Bin Sun · Shutao Li · Hamid Rezatofighi · Jianfei Cai

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Lucas Ventura · Antoine Yang · Cordelia Schmid · Gul Varol

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

Tiantian Geng · Jinrui Zhang · Qingni Wang · Teng Wang · Jinming Duan · Feng Zheng

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan · Hang Zhang · Wentong Li · Zesen Cheng · Boqiang Zhang · Long Li · Xin Li · Deli Zhao · Wenqiao Zhang · Yueting Zhuang · Jianke Zhu · Lidong Bing

Video Summarization with Large Language Models

Min Jung Lee · Dayoung Gong · Minsu Cho

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

Keda Tao · Can Qin · Haoxuan You · Yang Sui · Huan Wang

RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives

Chirag Parikh · Deepti Rawat · Rakshitha R. T. · Tathagata Ghosh · Ravi Kiran Sarvadevabhatla

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

Tanveer Hannan · Md Mohaiminul Islam · Jindong Gu · Thomas Seidl · Gedas Bertasius

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation

Ali Athar · Xueqing Deng · Liang-Chieh Chen

VideoGLaMM : A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Shehan Munasinghe · Hanan Gani · Wenqi Zhu · Jiale Cao · Eric P. Xing · Fahad Shahbaz Khan · Salman Khan

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

Yanjun Li · Zhaoyang Li · Honghui Chen · li'Zhi Xu

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Hang Yin · Xiuwei Xu · Linqing Zhao · Ziwei Wang · Jie Zhou · Jiwen Lu

Semantic and Sequential Alignment for Referring Video Object Segmentation

Feiyu Pan · Hao Fang · Fangkai Li · Yanyu Xu · Yawei Li · Luca Benini · Xiankai Lu

SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation

Yunxiang Fu · Meng Lou · Yizhou Yu

Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly Detection

Farzad Beizaee · Gregory A. Lodygensky · Christian Desrosiers · Jose Dolz

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

Zhenghao Xing · Hao Chen · Binzhu Xie · Jiaqi Xu · Ziyu Guo · Xuemiao Xu · Jianye Hao · Chi-Wing Fu · Xiaowei Hu · Pheng-Ann Heng

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

Han Hu · Wenli Du · Peng Liao · Bing Wang · Siyuan Fan

Understanding Multi-Task Activities from Single-Task Videos

Yuhan Shen · Ehsan Elhamifar

Action Detail Matters: Refining Video Recognition with Local Action Queries

Mengmeng Wang · Zeyi Huang · Xiangjie Kong · Guojiang Shen · Guang Dai · Jingdong Wang · Yong Liu

CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model

Ziyu Yao · Xuxin Cheng · Zhiqi Huang · Lei Li

Heterogeneous Skeleton-Based Action Representation Learning

Xiaoyan Ma · jidong kuang · Hongsong Wang · Jie Gui

Dynamic Updates for Language Adaptation in Visual-Language Tracking

Xiaohai Li · Bineng Zhong · Qihua Liang · Zhiyi Mo · Jian Nong · Shuxiang Song

Boosting Adversarial Transferability through Augmentation in Hypothesis Space

Yu Guo · Weiquan Liu · Qingshan Xu · Shijun Zheng · Shujun Huang · Yu Zang · Siqi Shen · Chenglu Wen · Cheng Wang

UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models

Yuning Han · Bingyin Zhao · Rui Chu · Feng Luo · Biplab Sikdar · Yingjie Lao

CryptoFace: End-to-End Encrypted Face Recognition

Wei Ao · Vishnu Naresh Boddeti

Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection

Xinjie Cui · Yuezun Li · Ao Luo · Jiaran Zhou · Junyu Dong

D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition.

Haoran Wang · Xinji Mai · Zeng Tao · Xuan Tong · Junxiong Lin · Yan Wang · Jiawen Yu · Shaoqi Yan · Ziheng Zhou · Wenqiang Zhang

Can't Slow Me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge Devices

Tianyi Wang · Zichen Wang · Cong Wang · Yuanchao Shu · Ruilong Deng · Peng Cheng · Jiming Chen

Decision SpikeFormer: Spike-Driven Transformer for Decision Making

Wei Huang · Qinying Gu · Nanyang Ye

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-Identification

Zhiqi Pang · Junjie Wang · Lingling Zhao · Chunyu Wang

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification

Jinxi Yang · He Li · Bo Du · Mang Ye

Shift the Lens: Environment-Aware Unsupervised Camouflaged Object Detection

Ji Du · Fangwei Hao · Mingyang Yu · Desheng Kong · Jiesheng Wu · Bin Wang · Jing XU · Ping Li

Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances

Yi Yu · Botao Ren · Peiyuan Zhang · Mingxin Liu · Junwei Luo · Shaofeng Zhang · Feipeng Da · Junchi Yan · Xue Yang

BOOTPLACE: Bootstrapped Object Placement with Detection Transformers

Hang Zhou · Xinxin Zuo · Rui Ma · Li Cheng

Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance Segmentation

Fangyun Wei · Jinjing Zhao · Kun Yan · Chang Xu

PolarNeXt: Rethink Instance Segmentation with Polar Representation

Jiacheng Sun · Xinghong Zhou · Yiqiang Wu · Bin Zhu · Jiaxuan Lu · Yu Qin · Xiaomao Li

SAM2Object: Consolidating View Consistency via SAM2 for Zero-Shot 3D Instance Segmentation

Jihuai Zhao · Junbao Zhuo · Jiansheng Chen · Huimin Ma

COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting

Jiaxin Zhang · Junjun Jiang · Youyu Chen · Kui Jiang · Xianming Liu

DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation

Bo-Wen Yin · Jiao-Long Cao · Ming-Ming Cheng · Qibin Hou

SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model

Chongkai Yu · Ting Liu · Li Anqi · Xiaochao Qu · WU CHENGJING · Luoqi Liu · Xiaolin Hu

Believing is Seeing: Unobserved Object Detection using Generative Models

Subhransu S. Bhattacharjee · Dylan Campbell · Rahul Shome

MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments

Ege Özsoy · Chantal Pellegrini · Tobias Czempiel · Felix Tristram · Kun yuan · David Bani-Harouni · Ulrich Eck · Benjamin Busam · Matthias Keicher · Nassir Navab

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

Jinlong Li · Cristiano Saltori · Fabio Poiesi · Nicu Sebe

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces

Chenyangguang Zhang · Alexandros Delitzas · Fangjinhua Wang · Ruida Zhang · Xiangyang Ji · Marc Pollefeys · Francis Engelmann

SKE-Layout: Spatial Knowledge Enhanced Layout Generation with LLMs

Junsheng Wang · Nieqing Cao · Yan Ding · Mengying Xie · Fuqiang Gu · Chao Chen

Zero-shot 3D Question Answering via Voxel-based Dynamic Token Compression

Hsiang-Wei Huang · Fu-Chen Chen · Wenhao Chai · Che-Chun Su · Lu Xia · Sanghun Jung · Cheng-Yen Yang · Jenq-Neng Hwang · Min Sun · Cheng-Hao Kuo

Empowering Large Language Models with 3D Situation Awareness

Zhihao Yuan · Yibo Peng · Jinke Ren · Yinghong Liao · Yatong Han · Chun-Mei Feng · Hengshuang Zhao · Guanbin Li · Shuguang Cui · Zhen Li

Visual Agentic AI for Spatial Reasoning with a Dynamic API

Damiano Marsili · Rohun Agrawal · Yisong Yue · Georgia Gkioxari

R2C: Mapping Room to Chessboard to Unlock LLM As Low-Level Action Planner

Ziyi Bai · Hanxuan Li · Bin Fu · Chuyan Xiong · Ruiping Wang · Xilin Chen

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

Yi Fang · Bowen Jin · Jiacheng Shen · Sirui Ding · Qiaoyu Tan · Jiawei Han

GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration

Yuchen Sun · Shanhui Zhao · Tao Yu · Hao Wen · Samith Va · Mengwei Xu · Yuanchun Li · Chongyang Zhang

Empowering LLMs to Understand and Generate Complex Vector Graphics

XiMing Xing · Juncheng Hu · Guotao Liang · Jing Zhang · Dong Xu · Qian Yu

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Kevin Qinghong Lin · Linjie Li · Difei Gao · Zhengyuan Yang · Shiwei Wu · Zechen Bai · Stan Weixian Lei · Lijuan Wang · Mike Zheng Shou

SocialGesture: Delving into Multi-person Gesture Understanding

Xu Cao · Pranav Virupaksha · Wenqi Jia · Bolin Lai · Fiona Ryan · Sangmin Lee · James Rehg

Interleaved-Modal Chain-of-Thought

Jun Gao · Yongqi Li · Ziqiang Cao · Wenjie Li

AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities

Guillaume Astruc · Nicolas Gonthier · Clement Mallet · Loic Landrieu

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

Peijie Wang · Zhong-Zhi Li · Fei Yin · Dekang Ran · Cheng-Lin Liu

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

James Burgess · Jeffrey J Nirschl · Laura Bravo-Sánchez · Alejandro Lozano · Sanket Rajan Gupte · Jesus G. Galaz-Montoya · Yuhui Zhang · Yuchang Su · Disha Bhowmik · Zachary Coman · Sarina M. Hasan · Alexandra Johannesson · William D. Leineweber · Malvika G Nair · Ridhi Yarlagadda · Connor Zuraski · Wah Chiu · Sarah Cohen · Jan N. Hansen · Manuel D Leonetti · Chad Liu · Emma Lundberg · Serena Yeung

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Ashmal Vayani · Dinura Dissanayake · Hasindri Watawana · Noor Ahsan · Nevasini Sasikumar · Omkar Thawakar · Henok Biadglign Ademtew · Yahya Hmaiti · Amandeep Kumar · Kartik Kuckreja · Mykola Maslych · Wafa Al Ghallabi · Mihail Minkov Mihaylov · Chao Qin · Abdelrahman Shaker · Mike Zhang · Mahardika Krisna Ihsani · Amiel Gian Esplana · Monil Gokani · Shachar Mirkin · Harsh Singh · Ashay Srivastava · Endre Hamerlik · Fathinah Asma Izzati · Fadillah Adamsyah Maani · Sebastian Cavada · Jenny Chim · Rohit Gupta · Sanjay Manjunath · Kamila Zhumakhanova · Feno Heriniaina Rabevohitra · Azril Hafizi Amirudin · Muhammad Ridzuan · Daniya Najiha Abdul Kareem · Ketan Pravin More · Kunyang Li · Pramesh Shakya · Muhammad Saad · Amirpouya Ghasemaghaei · Amirbek Djanibekov · Dilshod Azizov · Branislava Jankovic · Naman Bhatia · Alvaro Cabrera Berobide · Johan Obando-Ceron · Olympiah Otieno · Fabian Farestam · Muztoba Rabbani · Sanoojan Baliah · Santosh Sanjeev · Abduragim Shtanchaev · Maheen Fatima · Thao Nguyen · Amrin Kareem · Toluwani Aremu · Nathan Augusto Zacarias Xavier · Amit Bhatkal · Hawau Olamide Toyin · Aman Chadha · Hisham Cholakkal · Rao Anwer · Michael Felsberg · Jorma Laaksonen · Thamar Solorio · Monojit Choudhury · Ivan Laptev · Mubarak Shah · Salman Khan · Fahad Shahbaz Khan

Towards General Visual-Linguistic Face Forgery Detection

Ke Sun · Shen Chen · Taiping Yao · Ziyin Zhou · Jiayi Ji · Xiaoshuai Sun · Chia-Wen Lin · Rongrong Ji

Exploring Contextual Attribute Density in Referring Expression Counting

Zhicheng Wang · Zhiyu Pan · Zhan Peng · Jian Cheng · Liwen Xiao · Wei Jiang · Zhiguo Cao

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering

Wenlong Fang · Qiaofeng Wu · Jing Chen · Yun Xue

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering

Tianyu Huai · Jie Zhou · Xingjiao Wu · Qin Chen · Qingchun Bai · Zezhou · Liang He

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

Fan Lu · Wei Wu · Kecheng Zheng · Shuailei Ma · Biao Gong · Jiawei Liu · Wei Zhai · Yang Cao · Yujun Shen · Zheng-Jun Zha

Learning with Noisy Triplet Correspondence for Composed Image Retrieval

Shuxian Li · Changhao He · XitingLiu · Joey Tianyi Zhou · Xi Peng · Peng Hu

ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval

Eric Xing · Pranavi Kolouju · Robert Pless · Abby Stylianou · Nathan Jacobs

PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval

Qiang Zou · Shuli Cheng · Jiayi Chen

GENIUS: A Generative Framework for Universal Multimodal Search

Sungyeon Kim · Xinliang Zhu · Xiaofan Lin · Muhammet Bastan · Douglas Gray · Suha Kwak

Font-Agent: Enhancing Font Understanding with Large Language Models

Yingxin Lai · Cuijie Xu · Haitian Shi · Guoqing Yang · Xiaoning Li · Zhiming Luo · Shaozi Li

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching

Bin Wang · Fan Wu · Linke Ouyang · Zhuangcheng Gu · Rui Zhang · Renqiu Xia · Botian Shi · Bo Zhang · Conghui He

Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

Arun Reddy · Alexander Martin · Eugene Yang · Andrew Yates · Kate Sanders · Kenton Murray · Reno Kriz · Celso M. de Melo · Benjamin Van Durme · Rama Chellappa

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jingfeng Yao · Bin Yang · Xinggang Wang

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

Leqi Shen · Guoqiang Gong · Tianxiang Hao · Tao He · Yifeng Zhang · Pengzhang Liu · Sicheng Zhao · Jungong Han · Guiguang Ding

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Siyuan Li · Luyuan Zhang · Zedong Wang · Juanxi Tian · Cheng Tan · Zicheng Liu · Chang Yu · Qingsong Xie · Haonan Lu · Haoqian Wang · Zhen Lei

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Alejandro Lozano · Min Woo Sun · James Burgess · Liangyu Chen · Jeffrey J Nirschl · Jeffrey Gu · Ivan Lopez · Josiah Aklilu · Austin Wolfgang Katzer · Collin Chiu · Anita Rau · Xiaohan Wang · Yuhui Zhang · Alfred Seunghoon Song · Robert Tibshirani · Serena Yeung

Visual Lexicon: Rich Image Features in Language Space

XuDong Wang · Xingyi Zhou · Alireza Fathi · Trevor Darrell · Cordelia Schmid

Improving Personalized Search with Regularized Low-Rank Parameter Updates

Fiona Ryan · Josef Sivic · Fabian Caba Heilbron · Judy Hoffman · James Rehg · Bryan Russell

AdaDARE-gamma: Balancing Stability and Plasticity in Multi-modal LLMs through Efficient Adaptation

Jingyi Xie · Jintao Yang · Zhunchen Luo · Yunbo Cao · Qiang Gao · Mengyuan Zhang · Wenpeng Hu

FastVLM: Efficient Vision Encoding for Vision Language Models

Pavan Kumar Anasosalu Vasu · Fartash Faghri · Chun-Liang Li · Cem Koc · Nate True · Gokula Krishnan Santhanam · Albert Antony · James Gabriel · Peter Grasch · Oncel Tuzel · Hadi Pouransari

Cross-modal Information Flow in Multimodal Large Language Models

Zhi Zhang · Srishti Yadav · Fengze Han · Ekaterina Shutova

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Senqiao Yang · Yukang Chen · Zhuotao Tian · Chengyao Wang · Jingyao Li · Bei Yu · Jiaya Jia

TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model

Cheng Yang · Yang Sui · Jinqi Xiao · Lingyi Huang · Yu Gong · Chendi Li · Jinghua Yan · Yu Bai · Ponnuswamy Sadayappan · Xia Hu · Bo Yuan

A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

Wangbo Zhao · Yizeng Han · Jiasheng Tang · Zhikai Li · Yibing Song · Kai Wang · Zhangyang Wang · Yang You

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Souhail Hadgi · Luca Moschella · Andrea Santilli · Diego Gomez · Qixing Huang · Emanuele Rodolà · Simone Melzi · Maks Ovsjanikov

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

Yahan Tu · Rui Hu · Jitao Sang

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders

jiajun cao · Yuan Zhang · Tao Huang · Ming Lu · Qizhe Zhang · Ruichuan An · Ningning Ma · Shanghang Zhang

PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset

Jiazhen Liu · Yuhan Fu · Ruobing Xie · Runquan Xie · Xingwu Sun · Fengzong Lian · Zhanhui Kang · Xirong Li

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models

Yongting Zhang · Lu Chen · Guodong Zheng · Yifeng Gao · Rui Zheng · Jinlan Fu · Zhenfei Yin · Senjie Jin · Yu Qiao · Xuanjing Huang · Feng Zhao · Tao Gui · Jing Shao

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Yanbo Wang · Jiyang Guan · Jian Liang · Ran He

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

Shuyang Hao · Bryan Hooi · Jun Liu · Kai-Wei Chang · Zi Huang · Yujun Cai

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models

Jiaming Zhang · Junhong Ye · Xingjun Ma · Yige Li · Yunfan Yang · Yunhao Chen · Jitao Sang · Dit-Yan Yeung

TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models

Xin Wang · Kai Chen · Jiaming Zhang · Jingjing Chen · Xingjun Ma

On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free Approach

Baoshun Tong · Hanjiang Lai · Yan Pan · Jian Yin

Conformal Prediction for Zero-Shot Models

Julio Silva-Rodríguez · Ismail Ben Ayed · Jose Dolz

O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models

Ashshak Sharifdeen · Muhammad Akhtar Munir · Sanoojan Baliah · Salman Khan · Muhammad Haris Khan

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

Yicheng Chen · Xiangtai Li · Yining Li · Yanhong Zeng · Jianzong Wu · Xiangyu Zhao · Kai Chen

Navigation World Models

Amir Bar · Gaoyue Zhou · Danny Tran · Trevor Darrell · Yann LeCun

NLPrompt: Noise-Label Prompt Learning for Vision-Language Models

Bikang Pan · Qun Li · Xiaoying Tang · Wei Huang · Zhen Fang · Feng Liu · Jingya Wang · Jingyi Yu · Ye Shi

Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation

Long Tung Vuong · Hoang Phan · Vy Vo · Anh Tuan Bui · Thanh-Toan Do · Trung Le · Dinh Phung

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

Tianyu Yu · Haoye Zhang · Qiming Li · Qixin Xu · Yuan Yao · Da Chen · Xiaoman Lu · Ganqu Cui · Yunkai Dang · Taiwen He · Xiaocheng Feng · Jun Song · Bo Zheng · Zhiyuan Liu · Tat-seng Chua · Maosong Sun

Test-Time Visual In-Context Tuning

Jiahao Xie · Alessio Tonioni · Nathalie Rauschmayr · Federico Tombari · Bernt Schiele

F^3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics

Pramit Saha · Felix Wagner · Divyanshu Mishra · Can Peng · Anshul Thakur · David A. Clifton · Konstantinos Kamnitsas · Alison Noble

Towards Human-Understandable Multi-Dimensional Concept Discovery

Arne Grobrügge · Niklas Kühl · Gerhard Satzger · Philipp Spitzer

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling

Jinhong Lin · Cheng-En Wu · Huanran Li · Jifan Zhang · Yu Hen Hu · Pedro Morgado

Do Computer Vision Foundation Models Learn the Low-level Characteristics of the Human Visual System?

Yancheng Cai · Fei Yin · Dounia Hammou · Rafal Mantiuk

DepthCues: Evaluating Monocular Depth Perception in Large Vision Models

Duolikun Danier · Mehmet Aygun · Changjian Li · Hakan Bilen · Oisin Mac Aodha

LaVin-DiT: Large Vision Diffusion Transformer

Zhaoqing Wang · Xiaobo Xia · Runnan Chen · Dongdong Yu · Changhu Wang · Mingming Gong · Tongliang Liu

5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks

Dongshuo Yin · Leiyi Hu · Bin Li · Youqun Zhang · Xue Yang

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

Uranik Berisha · Jens Mehnert · Alexandru Paul Condurache

Split Adaptation for Pre-trained Vision Transformers

Lixu Wang · Bingqi Shang · Yi Li · Payal Mohapatra · Wei Dong · Xiao Wang · Qi Zhu

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

Jialai Wang · Yuxiao Wu · Weiye Xu · Yating Huang · Chao Zhang · Zongpeng Li · Mingwei Xu · Zhenkai Liang

MDP: Multidimensional Vision Model Pruning with Latency Constraint

Xinglong Sun · Barath Lakshmanan · Maying Shen · Shiyi Lan · Jingde Chen · Jose M. Alvarez

Mamba-Adaptor: State Space Model Adaptor for Visual Recognition

Fei Xie · Jiahao Nie · Yujin Tang · Wenkang Zhang · Hongshen Zhao

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

Yuan Zhou · Qingshan Xu · Jiequan Cui · Junbao Zhou · Jing Zhang · Richang Hong · Hanwang Zhang

Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models

Zichen Miao · WEI CHEN · Qiang Qiu

DVHGNN: Multi-Scale Dilated Vision HGNN for Efficient Vision Recognition

Caoshuo Li · Tanzhe Li · Xiaobin Hu · Donghao Luo · Taisong Jin

Graph-Embedded Structure-Aware Perceptual Hashing for Neural Network Protection and Piracy Detection

Ruiheng Liu · Haozhe Chen · Boyao Zhao · Kejiang Chen · Weiming Zhang

Hybrid Concept Bottleneck Models

Yang Liu · Tianwei Zhang · Shi Gu

Locality-Aware Zero-Shot Human-Object Interaction Detection

Sanghyun Kim · Deunsol Jung · Minsu Cho

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng · Dongdong Chen · Zhentao Tan · Qiankun Liu · Qi Chu · Tao Gong · Bin Liu · Jing Han · Wenbin Tu · Shengwei Xu · Nenghai Yu

Dual Semantic Guidance for Open Vocabulary Semantic Segmentation

ZhengYang Wang · Tingliang Feng · Fan Lyu · Fanhua Shang · Wei Feng · Liang Wan

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

Zhiwei Yang · Yucong Meng · Kexue Fu · feilong tang · Shuo Wang · Zhijian Song

Improving Semi-Supervised Semantic Segmentation with Sliced-Wasserstein Feature Alignment and Uniformity

Chen Yi Lu · Kasra Derakhshandeh · Somali Chaterji

Soft Self-labeling and Potts Relaxations for Weakly-supervised Segmentation

Zhongwen Zhang · Yuri Boykov

Towards Efficient Foundation Model for Zero-shot Amodal Segmentation

Zhaochen Liu · Limeng Qiao · Xiangxiang Chu · Lin Ma · Tingting Jiang

Generalizable Object Keypoint Localization from Generative Priors

Dongkai Wang · Jiang Duan · Liangjian Wen · Shiyu Xuan · Hao CHEN · Shiliang Zhang

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning

Huajie Jiang · Zhengxian Li · Xiaohan Yu · Yongli Hu · Baocai Yin · Jian Yang · Yuankai Qi

Generalized Zero-Shot Classification via Semantics-Free Inter-Class Feature Generation

Libiao Chen · Dong Nie · Junjun Pan · Jing Yan · Zhenyu Tang

GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery

Enguang Wang · Zhimao Peng · Zhengyuan Xie · Fei Yang · Xialei Liu · Ming-Ming Cheng

v-CLR: View-Consistent Learning for Open-World Instance Segmentation

Chang-Bin Zhang · Jinhong Ni · Yujie Zhong · Kai Han

Detecting Open World Objects via Partial Attribute Assignment

Muli Yang · Gabriel James Goenawan · Huaiyuan Qin · Kai Han · Xi Peng · Yanhua Yang · Hongyuan Zhu

Uncertainty Meets Diversity: A Comprehensive Active Learning Framework for Indoor 3D Object Detection

Jiangyi Wang · Na Zhao

Revisiting Generative Replay for Class Incremental Object Detection

Shizhou Zhang · Xueqiang Lv · Yinghui Xing · Qirui Wu · Di Xu · Yanning Zhang

Decoupled Distillation to Erase: A General Unlearning Method for Any Class-centric Tasks

Yu Zhou · Dian Zheng · Qijie Mo · Ren-Jie Lu · Kun-Yu Lin · Wei-Shi Zheng

Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs

Mauricio Byrd Victorica · György Dán · Henrik Sandberg

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

Jiacong Xu · Shao-Yuan Lo · Bardia Safaei · Vishal M. Patel · Isht Dwivedi

PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

Mojtaba Nafez · Amirhossein Koochakian · Arad Maleki · Jafar Habibi · Mohammad Rohban

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

Ankan Kumar Bhunia · Changjian Li · Hakan Bilen

Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection

Jia Guo · Shuai Lu · Weihang Zhang · Fang Chen · Hongen Liao · Huiqi Li

Distribution Prototype Diffusion Learning for Open-set Supervised Anomaly Detection

Fuyun Wang · Tong Zhang · Yuanzhi Wang · Yide Qiu · Xin Liu · Xu Guo · Zhen Cui

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural Networks

Mohamed Afane · Gabrielle Ebbrecht · Ying Wang · Juntao Chen · Junaid Farooq

Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation

Yanda Chen · Gongwei Chen · Miao Zhang · Weili Guan · Liqiang Nie

Masking meets Supervision: A Strong Learning Alliance

Byeongho Heo · Taekyung Kim · Sangdoo Yun · Dongyoon Han

Scale Efficient Training for Large Datasets

Qing Zhou · Junyu Gao · Qi Wang

Learning on Model Weights using Tree Experts

Eliahu Horwitz · Bar Cavia · Jonathan Kahana · Yedid Hoshen

How to Merge Your Multimodal Models Over Time?

Sebastian Dziadzio · Vishaal Udandarao · Karsten Roth · Ameya Prabhu · Zeynep Akata · Samuel Albanie · Matthias Bethge

Revisiting Fairness in Multitask Learning: A Performance-Driven Approach for Variance Reduction

Xiaohan Qin · Xiaoxing Wang · Junchi Yan

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization

Sihao Liu · Yibo Yang · Xiaojie Li · David A. Clifton · Bernard Ghanem

Online Task-Free Continual Learning via Dynamic Expansionable Memory Distribution

Fei Ye · Adrian Bors

Knowledge Memorization and Rumination for Pre-trained Model-based Class-Incremental Learning

Zijian Gao · Wangwang Jia · Xingxing Zhang · Dulan Zhou · Kele Xu · Feng Dawei · Yong Dou · Xinjun Mao · Huaimin Wang

COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Adaptation

Arnav Mohanty Das · Gantavya Bhatt · Lilly Kumari · Sahil Verma · Jeff Bilmes

Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning

Da-Wei Zhou · Zi-Wen Cai · Han-Jia Ye · Lijun Zhang · De-Chuan Zhan

Gradient-Guided Annealing for Domain Generalization

Aristotelis Ballas · Christos Diou

AdMiT: Adaptive Multi-Source Tuning in Dynamic Environments

Xiangyu Chang · Fahim Faisal Niloy · Sk Miraj Ahmed · Srikanth Krishnamurthy · Basak Guler · Ananthram Swami · Samet Oymak · Amit K. Roy-Chowdhury

Compositional Targeted Multi-Label Universal Perturbations

Hassan Mahmood · Ehsan Elhamifar

Forming Auxiliary High-confident Instance-level Loss to Promote Learning from Label Proportions

Tianhao Ma · Han Chen · Juncheng Hu · Yungang Zhu · Ximing Li

Dynamic Pseudo Labeling via Gradient Cutting for High-Low Entropy Exploration

Jae Hyeon Park · Joo Hyeon Jeon · Jae Yun Lee · Sangyeon Ahn · MinHee Cha · Min Geol Kim · Hyeok Nam · Sung In Cho

ProHOC: Probabilistic Hierarchical Out-of-Distribution Classification via Multi-Depth Networks

Erik Wallin · Fredrik Kahl · Lars Hammarstrand

Test-time Augmentation Improves Efficiency in Conformal Prediction

Divya M Shanmugam · Helen Lu · Swami Sankaranarayanan · John Guttag

Subspace Constraint and Contribution Estimation for Heterogeneous Federated Learning

Xiangtao Zhang · Sheng Li · Ao Li · Yipeng Liu · Fan Zhang · Ce Zhu · Le Zhang

FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning

Gongxi Zhu · Donghao Li · Hanlin Gu · Yuan Yao · Lixin Fan · Yuxing Han

Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection

Jiahao Xu · Zikai Zhang · Rui Hu

RAEncoder: A Label-Free Reversible Adversarial Examples Encoder for Dataset Intellectual Property Protection

Fan Xing · Zhuo Tian · Xuefeng Fan · Xiaoyi Zhou

DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders

Sizai Hou · Songze Li · Duanyi Yao

Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

Shixin Li · Chaoxiang He · Xiaojing Ma · Bin Benjamin Zhu · Shuo Wang · Hongsheng Hu · Dongmei Zhang · Linchen Yu

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation Zone

Yuan Xiao · Yuchen Chen · Shiqing Ma · Chunrong Fang · Tongtong Bai · Mingzheng Gu · Yuxin Cheng · Yanwei Chen · Zhenyu Chen

Theory-Inspired Deep Multi-View Multi-Label Learning with Incomplete Views and Noisy Labels

Quanjiang Li · Tingjin Luo · Jiahui Liao

EASEMVC:Efficient Dual Selection Mechanism for Deep Multi-View Clustering

Baili Xiao · Zhibin Dong · KE LIANG · Suyuan Liu · Siwei Wang · Tianrui Liu · Xingchen Hu · En Zhu · Xinwang Liu

Large-scale Multi-view Tensor Clustering with Implicit Linear Kernels

Jiyuan Liu · Xinwang Liu · chuankun Li · Xinhang Wan · Hao Tan · Yi Zhang · Weixuan Liang · Qian Qu · Yu Feng · Renxiang Guan · KE LIANG

Generative Modeling of Class Probability for Multi-Modal Representation Learning

JungKyoo Shin · Bumsoo Kim · Eunwoo Kim

Fuzzy Multimodal Learning for Trusted Cross-modal Retrieval

Siyuan Duan · Yuan Sun · Dezhong Peng · Zheng Liu · Xiaomin Song · Peng Hu

Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation

Tal Zeevi · Ravid Shwartz-Ziv · Yann LeCun · Lawrence Staib · John A Onofrey

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

Divya Velayudhan · Abdelfatah Ahmed · Mohamad Alansari · Neha Gour · Abderaouf Behouch · Taimur Hassan · Syed Talal Wasim · Nabil Maalej · Muzammal Naseer · Jürgen Gall · Mohammed Bennamoun · Ernesto Damiani · Naoufel Werghi

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

Yang Yue · Yulin Wang · Chenxin Tao · Pan Liu · Shiji Song · Gao Huang

MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification

Jianwei Zhao · XIN LI · Fan Yang · Qiang Zhai · Ao Luo · Yang Zhao · Hong Cheng · Huazhu Fu

Advancing Multiple Instance Learning with Continual Learning for Whole Slide Imaging

Xianrui Li · Yufei Cui · Jun Li · Antoni B. Chan

Multi-modal Topology-embedded Graph Learning for Spatially Resolved Genes Prediction from Pathology Images with Prior Gene Similarity Information

Hang Shi · Chi Changxi · Peng Wan · Daoqiang Zhang · WEI SHAO

The Impact Label Noise and Choice of Threshold has on Cross-Entropy and Soft-Dice in Image Segmentation

Marcus Nordström · Atsuto Maki · Henrik Hult

Show and Segment: Universal Medical Image Segmentation via In-Context Learning

Yunhe Gao · Di Liu · Zhuowei Li · Yunsheng Li · Dongdong Chen · Mu Zhou · Dimitris N. Metaxas

Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Junlong Cheng · Bin Fu · Jin Ye · Guoan Wang · Tianbin Li · Haoyu Wang · Ruoyu Li · He Yao · Chen Junren · Jingwen Li · Yanzhou Su · Min Zhu · Junjun He

nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Calling for a Unified Evaluation Benchmark

Yanfeng Zhou · Lingrui Li · Le Lu · Minfeng Xu

VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging

Yufan He · Pengfei Guo · Yucheng Tang · Andriy Myronenko · Vishwesh Nath · Ziyue Xu · Dong Yang · Can Zhao · Benjamin D. Simon · Mason Belue · Stephanie Anne Harmon · Baris Turkbey · Daguang Xu · Wenqi Li

vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation

Bastian Wittmann · Yannick Wattenberg · Tamaz Amiranashvili · Suprosanna Shit · Bjoern Menze

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

zhuangzhuang chen · hualiang wang · Chubin Ou · Xiaomeng Li

Go to Event Page

Reception

Reception & Musical Performances

7:00 PM - 9:00 PM

Conference-wide reception

Food will be available in Halls CD

Bars available and World Cup Games streamed in Hall A2

Bars and LIVE MUSIC will be featured in the Karl Dean Grand Ballroom

... more

Main Navigation

Registration / Badge Pickup

Oral Session 3A: 3D Computer Vision

Oral Session 3B: Multimodal Computer Vision

Oral Session 3C: Vision and Language

Demos

Poster Session 3

Art Gallery Tour with Curator, Luba Elliott

Speed Mentorship

Oral Session 4A: Image and Video Synthesis

Oral Session 4B: Embodied Computer Vision

Oral Session 4C: 3D Computer Vision

Panel Discussion

The Llama Herd of Models: System 1, 2, 3 Go!

PAMI TC Meeting

Art Gallery Tour with Curator, Luba Elliott

Demos

Poster Session 4

Reception & Musical Performances