Score: 18.8 | Matched keywords: large language models, llm, reasoning
With the rise of multiple test-time strategies and agents working on long-term tasks, natural questions emerge: "How does context length and content affect the reasoning capabilities of the models?" In particular, "If a model faces an isolated subproblem with irrelevant data in the context, will it solve it similarly as if working on it in isolation?" In this work, we study a surprising phenomenon: we observe a significant distribution shift in how models solve the same problems under different context conditions. We explore how reasoning quality and performance change under simple distracting conditions: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as subtasks within a complex task.
This is primarily a method paper. While this reduction in reasoning traces may reduce overthinking on easier problems without sacrificing accuracy, it leads to performance drops on more challenging tasks. While this reduction in reasoning traces may reduce overthinking on easier problems without sacrificing accuracy, it leads to performance drops on more challenging tasks. faces an isolated subproblem with irrelevant data in the context, will it solve it similarly as if working on it in isolation?" In this work, we study a surprising phenomenon: we observe a significant distribution shift in how models solve the same problems under different context conditions.
We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. While this reduction in reasoning traces may reduce overthinking on easier problems without sacrificing accuracy, it leads to performance drops on more challenging tasks.
While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation.
여러 테스트 시간 전략과 장기 작업을 수행하는 에이전트가 등장하면서 "컨텍스트 길이와 내용이 모델의 추론 기능에 어떤 영향을 미치는가?"라는 자연스러운 질문이 떠오릅니다. 특히, "모델이 맥락에서 관련 없는 데이터로 고립된 하위 문제에 직면한 경우, 마치 고립되어 작업하는 것처럼 유사하게 문제를 해결할 것인가?" 이 연구에서 우리는 놀라운 현상을 연구합니다. 즉, 모델이 서로 다른 상황 조건에서 동일한 문제를 해결하는 방식에 있어 상당한 분포 변화를 관찰합니다. 우리는 단순한 혼란스러운 조건에서 추론의 질과 성과가 어떻게 변하는지 탐구합니다. (1) 길고 관련 없는 맥락으로 인해 문제가 증가합니다. (2) 독립적인 작업이 포함된 다중 회전 대화 설정; (3) 복잡한 작업 내에서 하위 작업으로 제시되는 문제. 이것은 주로 방법론 논문입니다. 추론 추적의 이러한 감소는 정확성을 희생하지 않고 쉬운 문제에 대한 지나친 생각을 줄일 수 있지만 더 어려운 작업에서는 성능 저하로 이어집니다. 추론 추적의 이러한 감소는 정확성을 희생하지 않고 쉬운 문제에 대한 지나친 생각을 줄일 수 있지만 더 어려운 작업에서는 성능 저하로 이어집니다. 이 작업에서 우리는 놀라운 현상을 연구합니다. 모델이 서로 다른 맥락 조건에서 동일한 문제를 해결하는 방법에 상당한 분포 변화가 있음을 관찰합니다. 흥미로운 현상을 관찰합니다. 추론 모델은 문제가 분리되어 제시될 때 생성된 추적에 비해 서로 다른 맥락 조건에서 동일한 문제에 대해 훨씬 짧은 추론 추적(최대 50%)을 생성하는 경향이 있습니다. 정확성을 희생하지 않고 쉬운 문제에 대한 과도한 사고를 줄이면 더 어려운 작업의 성능이 저하됩니다. 이러한 행동 변화는 간단한 문제의 성능을 저하시키지 않지만 더 어려운 작업의 성능에 영향을 미칠 수 있습니다. 흥미로운 현상을 관찰했습니다. 추론 모델은 문제가 단독으로 제시될 때 생성된 추적과 비교하여 다른 컨텍스트 조건에서 동일한 문제에 대해 훨씬 더 짧은 추론 추적(최대 50%)을 생성하는 경향이 있습니다.