← ListarXivPDFRaw MD

#2 FinTradeBench: A Financial Reasoning Benchmark for LLMs

Score: 21.6 | Matched keywords: alignment, benchmark, large language models, llm, reasoning, retrieval-augmented

Detailed Summary (EN)

Problem definition

Core idea & method

Experimental setup & results

Limitations & risks

Read-like-fullpaper digest

This paper addresses Real-world financial analysis requires reasoning on two complementary information sources: company Figure 1: Performance comparison of proprietary LLMs on a trading signal-focused question. The core method is that combines expert seed questions, multi-model response generation, intra-model self-filtering, numerical auditing, and human–LLM judge alignment. Key empirical findings include Using a calibration-thenscaling pipeline, we combine 150 expert-authored seed questions (50 per category), each with golden key indicators, and scale them across firms and time periods to yield 1,400 total benchmark questions.

상세 요약 (KO)

문제 정의

핵심 아이디어/방법

실험 설정/결과

한계/리스크

전체 논문 읽은 느낌 요약

이 백서에서는 실제 재무 분석에 대해 두 가지 보완적인 정보 소스에 대한 추론이 필요하다는 점을 다룹니다. 회사 그림 1: 거래 신호 중심 질문에 대한 독점 LLM의 성능 비교. 핵심 방법은 전문가 시드 질문, 다중 모델 응답 생성, 모델 내 자체 필터링, 수치 감사 및 인간-LLM 심사위원 얼라인먼트을 결합하는 것입니다. 주요 실증적 결과는 다음과 같습니다. 교정-조정 파이프라인을 사용하여 전문가가 작성한 150개의 시드 질문(카테고리당 50개)을 각각 골든 핵심 지표와 결합하고 이를 회사 및 기간에 걸쳐 확장하여 총 1,400개의 벤치마크 질문을 생성했습니다.