Report Content

>mfw Research news

10/30/2025

>VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
https://libaolu312.github.io/VFXMaster

>Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation
https://arxiv.org/abs/2510.25739

>PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models
https://arxiv.org/abs/2510.25600

>RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
https://arxiv.org/abs/2510.25590

>Instance-Level Composed Image Retrieval
https://arxiv.org/abs/2510.25387

>Balanced conic rectified flow
https://arxiv.org/abs/2510.25229

>Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation
https://arxiv.org/abs/2510.24870

>The Generation Phases of Flow Matching: a Denoising Perspective
https://arxiv.org/abs/2510.24830

>Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
https://arxiv.org/abs/2510.24821

>SafeEditor: Unified MLLM for Efficient Post-hoc T2I Safety Editing
https://arxiv.org/abs/2510.24820

>DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts
https://arxiv.org/abs/2510.24813

>Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective
https://arxiv.org/abs/2510.25141

>PSTF-AttControl: Per-Subject-Tuning-Free Personalized Image Generation with Controllable Face Attributes
https://arxiv.org/abs/2510.25084

>Conflict Adaptation in Vision-Language Models
https://arxiv.org/abs/2510.24804

Post Preview