← ListarXivPDFRaw MD

#2 Reasoning Gets Harder for LLMs Inside A Dialogue

Score: 20.0 | Matched keywords: benchmark, large language models, llm, reasoning

Detailed Summary (EN)

Problem definition

Core idea & method

Experimental setup & results

Limitations & risks

Read-like-fullpaper digest

This paper addresses Large Language Models (LLMs) have recently demonstrated promising results on a number of complex reasoning benchmarks (DeepSeek-AI, 2025; Yang et al., 2025). The core method is Trains: [{"id": "TR5972", "departure":...}] We are given: [...] The latest train that arrives in London Liverpool Street before sunset departs at 5:59pm. Key empirical findings include highlight the need to evaluate LLM reasoning in realistic interactive scenarios.1 1 Introduction Large Language Models (LLMs) have recently demonstrated promising results on a number of complex reasoning benchmarks (DeepSeek-AI, 2025; Yang et al., 2025).

상세 요약 (KO)

문제 정의

핵심 아이디어/방법

실험 설정/결과

한계/리스크

전체 논문 읽은 느낌 요약

이 문서에서는 최근 여러 복잡한 추론 벤치마크에서 유망한 결과를 입증한 LLM(대규모 언어 모델)을 다룹니다(DeepSeek-AI, 2025; Yang et al., 2025). 핵심 방법은 Trains: [{"id": "TR5972", "departure":...}] 다음과 같습니다. [...] 일몰 전에 런던 리버풀 스트리트에 도착하는 가장 늦은 열차는 오후 5시 59분에 출발합니다. 주요 경험적 연구 결과에는 현실적인 대화형 시나리오에서 LLM 추론을 평가해야 한다는 점을 강조하는 내용이 포함됩니다.1 1 소개 대규모 언어 모델(LLM)은 최근 여러 복잡한 추론 벤치마크에서 유망한 결과를 보여주었습니다(DeepSeek-AI, 2025; Yang et al., 2025).