← ListarXivPDFRaw MD

#2 PICon: A Multi-Turn Interrogation Framework for Evaluating Persona Agent Consistency

Score: 15.6 | Matched keywords: agent, alignment, large language model, llm

Detailed Summary (EN)

Read-like-fullpaper digest

This paper tackles A declassified CIA report on the interrogation practices of the Hungarian secret police (Central Intelligence Agency, 1954) describes three principles for detecting fabricated identities: pose logically connected follow-up questions about subjects’ life details, confront them with externally obtained facts, and ask them to recount the same events repeatedly. We term this property consistency, the absence of contradictions in the agent’s asserted content, and formalize it along three dimensions: • Internal consistency: an utterance must not conflict with any of the persona agent’s own preceding utterances. First, questions lack logical linkage: they are either independent or connected only by topical continuity, so they elicit superficially consistent answers without stress-testing the persona under logically connected follow-up questioning.

The core proposal is Yet there is no systematic method for verifying whether a persona agent’s responses remain free of contradictions and factual inaccuracies throughout an interaction. A principle from interrogation methodology offers a lens: no matter how elaborate a fabricated identity, systematic interrogation will expose its contradictions.

The paper also makes it clear that While PICON focuses on consistency in asserted content, complementary dimensions such as stylistic coherence and personality stability may warrant separate evaluation criteria tailored to their distinct nature. Developing question strategies robust to evasive responses remains as valuable future work. Integrating evaluation criteria for these subjective dimensions is left for future work.

Final takeaway

Problem definition

Core idea & method

Actual findings

How the conclusion was reached

Experimental setup & results

Limitations & risks

상세 요약 (KO)

전체 논문 읽은 느낌 요약

이 논문은 헝가리 비밀 경찰의 심문 관행에 관한 기밀 해제된 CIA 보고서(중앙 정보국, 1954)를 다루며 조작된 신원을 탐지하는 세 가지 원칙을 설명합니다. 피험자의 생활 세부 사항에 대해 논리적으로 연결된 후속 질문을 제시하고, 외부에서 얻은 사실에 직면하고, 동일한 사건을 반복적으로 이야기하도록 요청합니다. 우리는 이 속성의 일관성, 즉 에이전트가 주장하는 내용에 모순이 없음을 명명하고 이를 세 가지 차원에 따라 형식화합니다. • 내부 일관성: 발언은 페르소나 에이전트 자신의 이전 발언과 충돌해서는 안 됩니다. 첫째, 질문에는 논리적 연결이 부족합니다. 질문은 독립적이거나 주제 연속성에 의해서만 연결되므로 논리적으로 연결된 후속 질문에서 페르소나에 대한 스트레스 테스트를 거치지 않고 표면적으로 일관된 답변을 이끌어냅니다. 핵심 제안은 아직 페르소나 에이전트의 응답이 상호 작용 전반에 걸쳐 모순이나 사실적 부정확성이 없는지 여부를 확인하는 체계적인 방법이 없다는 것입니다. 심문 방법론의 원칙은 렌즈를 제공합니다. 조작된 신원이 아무리 정교하더라도 체계적인 심문은 그 모순을 드러낼 것입니다. 또한 이 보고서는 PICON이 주장하는 내용의 일관성에 중점을 두는 반면 문체적 일관성 및 성격 안정성과 같은 보완적인 차원은 고유한 특성에 맞는 별도의 평가 기준을 보장할 수 있음을 분명히 합니다. 회피적인 응답에 강력한 질문 전략을 개발하는 것은 귀중한 미래 작업으로 남아 있습니다. 이러한 주관적 차원에 대한 평가 기준을 통합하는 것은 향후 작업으로 남겨집니다.

핵심 결론

문제 정의

핵심 아이디어/방법

실제 결과

결론이 나온 과정

실험 설정/결과

한계/리스크