Score: 19.4 | Matched keywords: benchmark, large language models, llm, reasoning, token
This paper tackles Yet this literature overwhelmingly measures shortcut reliance through accuracy—a binary signal that reveals that the model fails but not why. Unlike factual hallucinations, which can in principle be verified against external knowledge, reasoning errors—cases where the model draws an incorrect conclusion from correctly perceived premises—are harder to detect because the output sounds plausible and internally consistent. The problem is diagnostic because it is simple: no specialised knowledge, no multi-step arithmetic, no ambiguous premises—just a conflict between a surface heuristic (short distance ⇒walk) and an implicit constraint (the car must be co-located with the wash).
We study this through a diagnose–measure–bridge–treat framework. Causal-behavioral analysis of the “car wash problem” across six models reveals approximately contextindependent sigmoid heuristics: the distance cue exerts 8.7–38× more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB)—500 instances spanning 4 heuristic × 5 constraint families with minimal pairs and explicitness gradients— demonstrates generality across 14 models: under strict
The empirical case is built around The Heuristic Override Benchmark (HOB)—500 instances spanning 4 heuristic × 5 constraint families with minimal pairs and explicitness gradients— demonstrates generality across 14 models: under strict Together, these results characterise heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it. Unlike factual hallucinations, which can in principle be verified against external knowledge, reasoning errors—cases where the model draws an incorrect (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%).
The central reported finding is Together, these results characterise heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it. (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%).
The paper also makes it clear that However, no prior study has provided a systematic analysis that (i) identifies which surface features trigger the heuris Overall, the paper is most convincing where its proposed method is directly supported by the reported comparisons, but the scope of the claim should still be read in light of the evaluation setup and stated limitations.
그러나 이 문헌은 정확성을 통해 지름길 의존도를 압도적으로 측정합니다. 이는 모델이 실패했음을 보여 주지만 이유는 알 수 없는 이진 신호입니다. 원칙적으로 외부 지식에 대해 검증할 수 있는 사실적 환각과 달리 추론 오류(모델이 올바르게 인식된 전제에서 잘못된 결론을 도출하는 경우)는 출력이 그럴듯하고 내부적으로 일관성이 있기 때문에 감지하기가 더 어렵습니다. 문제는 간단하기 때문에 진단적입니다. 전문적인 지식도 없고, 다단계 산술도 없고, 모호한 전제도 없습니다. 단지 표면적 경험적 방법(짧은 거리 ⇒ 걷기)과 암묵적 제약(자동차가 세차장과 같은 위치에 있어야 함) 사이의 충돌만 있을 뿐입니다. 우리는 진단-측정-교량-치료 프레임워크를 통해 이를 연구합니다. 6개 모델에 걸쳐 "세차 문제"에 대한 인과 행동 분석은 대략 상황에 무관한 시그모이드 휴리스틱을 보여줍니다. 거리 단서는 목표보다 8.7~38배 더 많은 영향력을 발휘하고 토큰 수준 속성은 구성 추론보다 키워드 연관성과 더 일관된 패턴을 보여줍니다. 경험적 재정의 벤치마크(HOB) - 최소 쌍 및 명시성 그라데이션을 사용하여 4 휴리스틱 × 5 제약 조건 패밀리에 걸쳐 있는 500개의 인스턴스 - 14개 모델에 걸쳐 일반성을 보여줍니다. 휴리스틱 재정의를 체계적인 추론 취약점으로 간주하고 이를 해결하기 위한 진행 상황을 측정하기 위한 벤치마크를 제공합니다. 원칙적으로 외부 지식에 대해 검증할 수 있는 사실적 환각과 달리 추론 오류는 모델이 잘못된 것을 그리는 경우(10/10 정확), 75%를 초과하는 모델이 없고 존재 제약이 가장 어려운 경우(44%)입니다. 보고된 핵심 결과는 Together입니다. 이러한 결과는 경험적 무시를 체계적인 추론 취약성으로 특성화하고 이를 해결하기 위한 진행 상황을 측정하기 위한 벤치마크를 제공합니다. (10/10 정확), 75%를 초과하는 모델이 없으며 존재 제약 조건이 가장 어렵습니다(44%). 그러나 이전 연구에서는 (i) 어떤 표면 특징이 휴리스를 유발하는지 식별하는 체계적인 분석을 제공하지 않았습니다. 전반적으로 이 논문은 제안된 방법이 보고된 비교에 의해 직접적으로 뒷받침되는 경우 가장 설득력이 있지만 청구 범위는 평가 설정 및 명시된 제한 사항을 고려하여 여전히 읽어야 합니다.