← ListarXivPDFRaw MD

#10 CoVR-R:Reason-Aware Composed Video Retrieval

Score: 11.2 | Matched keywords: benchmark, multimodal, reasoning

Detailed Summary (EN)

Problem definition

Core idea & method

Experimental setup & results

Limitations & risks

Read-like-fullpaper digest

This paper addresses In composed video retrieval (CoVR), a system receives a reference video and a short modification text and must return a target video that reflects the requested change. The core method is that leverages large multimodal models to (i) infer causal and temporal consequences implied by the edit, and (ii) align the resulting reasoned queries to candidate videos without task-specific finetuning. Key empirical findings include Our findings suggest that general-purpose LMM reasoning is an effective driver for CoVR, reducing the need for task-specific supervision and opening a path toward more explainable video search.

상세 요약 (KO)

문제 정의

핵심 아이디어/방법

실험 설정/결과

한계/리스크

전체 논문 읽은 느낌 요약

이 문서에서는 CoVR(작성된 비디오 검색)에서 시스템이 참조 비디오와 짧은 수정 텍스트를 수신하고 요청된 변경 사항을 반영하는 대상 비디오를 반환해야 합니다. 핵심 방법은 대규모 다중 모드 모델을 활용하여 (i) 편집에 의해 암시된 인과 및 시간적 결과를 추론하고 (ii) 작업별 미세 조정 없이 결과적으로 추론된 쿼리를 후보 비디오에 얼라인먼트하는 것입니다. 주요 실증적 연구 결과는 다음과 같습니다. 우리의 연구 결과는 범용 LMM 추론이 CoVR의 효과적인 동인이며 작업별 감독의 필요성을 줄이고 보다 설명 가능한 비디오 검색을 향한 길을 열어준다는 것을 시사합니다.