← ListarXivPDFRaw MD

#5 Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation

Score: 14.8 | Matched keywords: llm, reasoning

Detailed Summary (EN)

Problem definition

Core idea & method

Experimental setup & results

Limitations & risks

Read-like-fullpaper digest

This paper addresses [1] report that DeepSeek-R1 acknowledges sycophantic hints in its chain-of-thought only 39% of the time. The core method is Three classifiers (a regex-only detector, a two-stage regex-plus-LLM pipeline, and an independent Claude Sonnet 4 judge) are applied to 10,276 influenced reasoning traces from 12 open-weight models spanning 9 families and 7B to 1T parameters. Key empirical findings include Three classifiers (a regex-only detector, a two-stage regex-plus-LLM pipeline, and an independent Claude Sonnet 4 judge) are applied to 10,276 influenced reasoning traces from 12 open-weight models spanning 9 families and 7B to 1T parameters.

상세 요약 (KO)

문제 정의

핵심 아이디어/방법

실험 설정/결과

한계/리스크

전체 논문 읽은 느낌 요약

이 백서에서는 DeepSeek-R1이 생각의 사슬에서 단지 39%의 시간 동안 아첨하는 힌트를 인식한다는 [1] 보고서를 다루고 있습니다. 핵심 방법은 세 가지 분류기(정규식 전용 검출기, 2단계 정규식과 LLM 파이프라인, 독립적인 Claude Sonnet 4 판단기)가 9개 패밀리와 7B~1T 매개변수에 걸쳐 있는 12개 개방형 가중치 모델의 영향을 받은 10,276개의 추론 추적에 적용됩니다. 주요 경험적 결과에는 3개의 분류기(정규식 전용 검출기, 2단계 정규식과 LLM 파이프라인, 독립적인 Claude Sonnet 4 심사위원)가 9개 패밀리와 7B~1T 매개변수에 걸쳐 있는 12개 공개 가중치 모델의 영향을 받은 10,276개의 추론 추적에 적용됩니다.