← ListarXivPDFRaw MD

#5 CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains

Score: 20.2 | Matched keywords: agent, benchmark, fine-tuning, multimodal, reasoning, retrieval-augmented

Detailed Summary (EN)

Read-like-fullpaper digest

This paper tackles • Shape: Cong-shaped Vase The form derives from the ancient jade cong, symbolizing “the square within the circle.” The vessel is … Baseline (GPT-5): CiQi-Agent: Based on visual observation, this porcelain piece is a flattened flask with loop handles. Key Points of Identification: • Dynasty: Southern Song Dynasty The smooth and lustrous glaze … • Kiln Site: Longquan Kiln Longquan celadon is renowned for its jade-like texture and subtle tones of fenqing (powder blue) and meiziqing (plum green). Ground Truth: Celadon Flattened Flask with Handles, Guan ware, Song Dynasty (宋官窑青釉贯耳扁瓶) Based on its form and glaze characteristics, this porcelain piece can be identified as: Southern Song Dynasty, Longquan ware, Celadon Cong-shaped Vase.

The core proposal is that integrates two categories of tools: a vision tool and multimodal retrieval tools.

show that CiQi-Agent (7B) outperforms all competitive open- and closed-source models across all six attributes on CiQi-Bench, achieving on average 12.2% higher accuracy than GPT-5.

The central reported finding is show that CiQi-Agent (7B) outperforms all competitive open- and closed-source models across all six attributes on CiQi-Bench, achieving on average 12.2% higher accuracy than GPT-5.

The paper also makes it clear that For future work, we plan to move beyond connoisseurship and tackle the more challenging task of authentication, i.e., distinguishing genuine antique porcelains from later imitations. Overall, the paper is most convincing where its proposed method is directly supported by the reported comparisons, but the scope of the claim should still be read in light of the evaluation setup and stated limitations.

Final takeaway

Problem definition

Core idea & method

Actual findings

How the conclusion was reached

Experimental setup & results

Limitations & risks

상세 요약 (KO)

전체 논문 읽은 느낌 요약

이 논문의 내용은 다음과 같습니다. • 모양: 콩 모양의 꽃병 형태는 고대 옥 콩에서 유래되었으며 '원 안의 사각형'을 상징합니다. 용기는... 기준선(GPT-5): CiQi-에이전트: 육안 관찰에 따르면 이 도자기 조각은 루프 손잡이가 있는 평평한 플라스크입니다. 식별의 핵심 포인트: • 왕조: 남송 왕조 부드럽고 윤기나는 유약… • 가마터: 용천가마 용천청자는 옥 같은 질감과 분청(분청색)과 매자청(매녹색)의 미묘한 색조로 유명합니다. 근거: 청자 손잡이 달린 병, 관 도자기, 송나라 (宋官窑青釉贯耳扁瓶) 형태와 유약 특성에 근거하여 이 도자기 작품은 남송 왕조, 용천기, 청자 콩 모양 꽃병으로 식별될 수 있습니다. 핵심 제안은 비전 도구와 다중 모드 검색 도구라는 두 가지 범주의 도구를 통합하는 것입니다. CiQi-Agent(7B)는 CiQi-Bench의 6가지 속성 모두에서 모든 경쟁 오픈 소스 및 폐쇄 소스 모델보다 성능이 뛰어나며 GPT-5보다 평균 12.2% 더 높은 정확도를 달성한다는 것을 보여줍니다. 중앙 보고 결과에 따르면 CiQi-Agent(7B)는 CiQi-Bench의 6개 속성 모두에서 모든 경쟁 오픈 소스 및 폐쇄 소스 모델보다 성능이 뛰어나며 GPT-5보다 평균 12.2% 더 높은 정확도를 달성하는 것으로 나타났습니다. 이 논문은 또한 향후 작업을 위해 감정가를 넘어 정품 골동품 도자기와 이후의 모조품을 구별하는 보다 어려운 인증 작업을 다룰 계획임을 분명히 밝혔습니다. 전반적으로, 이 논문은 제안된 방법이 보고된 비교에 의해 직접적으로 뒷받침된다는 점에서 가장 설득력이 있지만, 청구 범위는 평가 설정 및 명시된 제한 사항을 고려하여 읽어야 합니다.

핵심 결론

문제 정의

핵심 아이디어/방법

실제 결과

결론이 나온 과정

실험 설정/결과

한계/리스크