Report Content - 4rchive

>mfw Research news

08/06/2025

>Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings
https://arxiv.org/abs/2508.03453

>BadBlocks: Low-Cost and Stealthy Backdoor Attacks Tailored for Text-to-Image Diffusion Models
https://arxiv.org/abs/2508.03221

>SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision
https://arxiv.org/abs/2508.03177

>LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing
https://arxiv.org/abs/2508.03144

>UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying
https://arxiv.org/abs/2508.03142

>T2UE: Generating Unlearnable Examples from Text Descriptions
https://arxiv.org/abs/2508.03091

>Exploring Fairness across Fine-Grained Attributes in Large Vision-Language Models
https://arxiv.org/abs/2508.03079

>LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
https://vchitect.github.io/LongVie-project

>Software Fairness Dilemma: Is Bias Mitigation a Zero-Sum Game?
https://arxiv.org/abs/2508.03323

>V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models
https://jiiiisoo.github.io/VIP.github.io

>AttZoom: Attention Zoom for Better Visual Features
https://arxiv.org/abs/2508.03625

>Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching
https://arxiv.org/abs/2508.03562

>CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation
https://arxiv.org/abs/2508.03535

>LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation
https://arxiv.org/abs/2508.03485

>When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models
https://arxiv.org/abs/2508.03483

>Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models
https://arxiv.org/abs/2508.03481

Report

Post Preview