Detailed Summary (EN)
Read-like-fullpaper digest
This paper tackles However, constructing these pipelines remains a highly manual, labor-intensive process requiring expertise across diverse data sources [2, 17], cloud warehouses like Snowflake [7], and transformation frameworks like dbt [8]. Modern organizations rely heavily on Extract-Load-Transform (ELT) pipelinesโworkflows that extract data from heterogeneous sources, This work is licensed under the Creative Commons BY-NC-ND 4.0 International License. Yet, the initial baseline results were stark: SWE-Agent with Claude Sonnet 3.5 [4] achieved only a 37% success rate on data extraction and loading and a mere 1% on data transformation.
The core proposal is Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleissโ ๐
= 0.85) to systematically audit benchmark quality. but upgrading only the underlying large language model reveals that the extraction and loading stage is largely solved, while transformation performance improves dramatically.
The empirical case is built around Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal. Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation. Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal. First, re-evaluating ELT-Bench with the same agent framework but upgrading only the underlying large language model reveals that the extraction and loading stage is largely solved, while transformation performance improves dramatically.
The central reported finding is Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation. Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal. First, re-evaluating ELT-Bench with the same agent framework but upgrading only the underlying large language model reveals that the extraction and loading stage is largely solved, while transformation performance improves dramatically. Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleissโ ๐
= 0.85) to systematically audit benchmark quality.
Overall, the paper is most convincing where its proposed method is directly supported by the reported comparisons, but the scope of the claim should still be read in light of the evaluation setup and stated limitations.
Final takeaway
- Main takeaway: Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation.
- Most important supporting result: Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal.
Problem definition
- However, constructing these pipelines remains a highly manual, labor-intensive process requiring expertise across diverse data sources [2, 17], cloud warehouses like Snowflake [7], and transformation frameworks like dbt [8].
- Modern organizations rely heavily on Extract-Load-Transform (ELT) pipelinesโworkflows that extract data from heterogeneous sources, This work is licensed under the Creative Commons BY-NC-ND 4.0 International License.
- Yet, the initial baseline results were stark: SWE-Agent with Claude Sonnet 3.5 [4] achieved only a 37% success rate on data extraction and loading and a mere 1% on data transformation.
- Motivated by recent discoveries of pervasive annotation errors in text-to-SQL benchmarks [9], we conduct a systematic data quality audit of ELT-Bench.
Core idea & method
- Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleissโ ๐
= 0.85) to systematically audit benchmark quality.
- but upgrading only the underlying large language model reveals that the extraction and loading stage is largely solved, while transformation performance improves dramatically.
Actual findings
- Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation.
- Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal.
How the conclusion was reached
- Step 1 โ Proposed approach: Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleissโ ๐
= 0.85) to systematically audit benchmark quality.
- Step 2 โ Evaluation setup or comparison basis: Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal.
- Step 3 โ Main reported evidence: Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation.
- Step 4 โ Additional supporting or qualifying result: Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal.
Experimental setup & results
- Our results demonstrate that both rapid model improvement and benchmark quality issues contributed to a substantial underestimation of agent capabilities in the original evaluation.
- Tasks are classified by error sourceโagent-attributable, benchmark-attributable, or mixedโand further stratified by mitigability, distinguishing errors addressable through evaluation refinements from those requiring ground truth column removal.
- First, re-evaluating ELT-Bench with the same agent framework but upgrading only the underlying large language model reveals that the extraction and loading stage is largely solved, while transformation performance improves dramatically.
- Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleissโ ๐
= 0.85) to systematically audit benchmark quality.
- More broadly, our findings echo recent observations of pervasive annotation errors in textto-SQL benchmarks, suggesting that benchmark quality issues are a systemic problem across data engineering evaluation.
- Based on these findings, we construct ELT-Bench-Verified, a revised benchmark with refined evaluation logic and substantial ground-truth revisioning.
Limitations & risks
์์ธ ์์ฝ (KO)
์ ์ฒด ๋
ผ๋ฌธ ์ฝ์ ๋๋ ์์ฝ
๊ทธ๋ฌ๋ ์ด๋ฌํ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ค์ํ ๋ฐ์ดํฐ ์์ค[2, 17], Snowflake[7]์ ๊ฐ์ ํด๋ผ์ฐ๋ ์จ์ดํ์ฐ์ค, dbt[8]์ ๊ฐ์ ๋ณํ ํ๋ ์์ํฌ์ ๋ํ ์ ๋ฌธ ์ง์์ด ํ์ํ ๋งค์ฐ ์๋์ ์ด๊ณ ๋
ธ๋ ์ง์ฝ์ ์ธ ํ๋ก์ธ์ค๋ก ๋จ์ ์์ต๋๋ค. ํ๋ ์กฐ์ง์ ์ด๊ธฐ์ข
์์ค์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ์ํฌํ๋ก์ธ ELT(์ถ์ถ-๋ก๋-๋ณํ) ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ์์กดํฉ๋๋ค. ์ด ์์
์ Creative Commons BY-NC-ND 4.0 ๊ตญ์ ๋ผ์ด์ ์ค์ ๋ฐ๋ผ ๋ผ์ด์ ์ค๊ฐ ๋ถ์ฌ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๊ธฐ ๊ธฐ์ค ๊ฒฐ๊ณผ๋ ๋๋ ทํ์ต๋๋ค. Claude Sonnet 3.5[4]๋ฅผ ์ฌ์ฉํ๋ SWE-Agent๋ ๋ฐ์ดํฐ ์ถ์ถ ๋ฐ ๋ก๋ฉ์์ 37%์ ์ฑ๊ณต๋ฅ ๊ณผ ๋ฐ์ดํฐ ๋ณํ์์ 1%์ ๋ถ๊ณผํ์ต๋๋ค. ํต์ฌ ์ ์์ ๋ ๋ฒ์งธ๋ก, ๋ฒค์น๋งํฌ ํ์ง์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ฌํ๊ธฐ ์ํด ํ์ฅ ๊ฐ๋ฅํ LLM ๊ธฐ๋ฐ ๊ทผ๋ณธ ์์ธ ๋ถ์๊ณผ ์๊ฒฉํ ์ธ๊ฐ ๊ฒ์ฆ(์ฃผ์์ ๊ฐ ํฉ์ Fleiss์ ๐
= 0.85)์ ๊ฒฐํฉํ๋ ๊ฐ์ฌ์-์์ ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํฉ๋๋ค. ๊ทธ๋ฌ๋ ๊ธฐ๋ณธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง ์
๊ทธ๋ ์ด๋ํ๋ฉด ์ถ์ถ ๋ฐ ๋ก๋ฉ ๋จ๊ณ๊ฐ ๋๋ถ๋ถ ํด๊ฒฐ๋๊ณ ๋ณํ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ๊ฒฝํ์ ์ฌ๋ก๋ ์์
์ ์ค๋ฅ ์์ค(์์ด์ ํธ ๊ธฐ์ธ, ๋ฒค์น๋งํฌ ๊ธฐ์ธ ๋๋ ํผํฉ)๋ณ๋ก ๋ถ๋ฅํ๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํํ์ฌ ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐํ ์ ์๋ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น ๋ฅธ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์์ด์ ํธ ๊ธฐ๋ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค. ์์
์ ์์ด์ ํธ์ ์ํ ์ค๋ฅ, ๋ฒค์น๋งํฌ์ ์ํ ์ค๋ฅ ๋๋ ํผํฉ ์ค๋ฅ ์์ค๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐ ๊ฐ๋ฅํ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค. ์ฒซ์งธ, ๋์ผํ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ELT-Bench๋ฅผ ์ฌํ๊ฐํ์ง๋ง ๊ธฐ๋ณธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง ์
๊ทธ๋ ์ด๋ํ๋ฉด ์ถ์ถ ๋ฐ ๋ก๋ฉ ๋จ๊ณ๊ฐ ๋๋ถ๋ถ ํด๊ฒฐ๋๊ณ ๋ณํ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ณด๊ณ ๋ ํต์ฌ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น ๋ฅธ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์์ด์ ํธ ๊ธฐ๋ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค. ์์
์ ์์ด์ ํธ์ ์ํ ์ค๋ฅ, ๋ฒค์น๋งํฌ์ ์ํ ์ค๋ฅ ๋๋ ํผํฉ ์ค๋ฅ ์์ค๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐ ๊ฐ๋ฅํ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค. ์ฒซ์งธ, ๋์ผํ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ELT-Bench๋ฅผ ์ฌํ๊ฐํ์ง๋ง ๊ธฐ๋ณธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง ์
๊ทธ๋ ์ด๋ํ๋ฉด ์ถ์ถ ๋ฐ ๋ก๋ฉ ๋จ๊ณ๊ฐ ๋๋ถ๋ถ ํด๊ฒฐ๋๊ณ ๋ณํ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋์งธ, ๋ฒค์น๋งํฌ ํ์ง์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ฌํ๊ธฐ ์ํด ํ์ฅ ๊ฐ๋ฅํ LLM ๊ธฐ๋ฐ ๊ทผ๋ณธ ์์ธ ๋ถ์๊ณผ ์๊ฒฉํ ์ธ๊ฐ ๊ฒ์ฆ(์ฃผ์์ ๊ฐ ํฉ์ Fleiss์ ๐
= 0.85)์ ๊ฒฐํฉํ๋ ๊ฐ์ฌ์-์์ ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํฉ๋๋ค. ์ ๋ฐ์ ์ผ๋ก, ์ด ๋
ผ๋ฌธ์ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ณด๊ณ ๋ ๋น๊ต์ ์ํด ์ง์ ์ ์ผ๋ก ๋ท๋ฐ์นจ๋๋ค๋ ์ ์์ ๊ฐ์ฅ ์ค๋๋ ฅ์ด ์์ง๋ง, ์ฒญ๊ตฌ ๋ฒ์๋ ํ๊ฐ ์ค์ ๋ฐ ๋ช
์๋ ์ ํ ์ฌํญ์ ๊ณ ๋ คํ์ฌ ์ฝ์ด์ผ ํฉ๋๋ค.
ํต์ฌ ๊ฒฐ๋ก
- ์ฃผ์ ์์ฌ์ : ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์ ์ํ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์๋ด์ฌ ๋ฅ๋ ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค.
- ๊ฐ์ฅ ์ค์ํ ์ง์ ๊ฒฐ๊ณผ: ์์
์ ์ค๋ฅ ์์ค(์์ด์ ํธ ๊ธฐ์ธ, ๋ฒค์น๋งํฌ ๊ธฐ์ธ ๋๋ ํผํฉ)๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐํ ์ ์๋ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค.
๋ฌธ์ ์ ์
- ๊ทธ๋ฌ๋ ์ด๋ฌํ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ์ฌ์ ํ โโ๋ค์ํ ๋ฐ์ดํฐ ์์ค[2, 17], Snowflake[7]์ ๊ฐ์ ํด๋ผ์ฐ๋ ์จ์ดํ์ฐ์ค, dbt[8]์ ๊ฐ์ ๋ณํ ํ๋ ์์ํฌ์ ๋ํ ์ ๋ฌธ ์ง์์ด ํ์ํ ๋งค์ฐ ์๋์ ์ด๊ณ ๋
ธ๋ ์ง์ฝ์ ์ธ ํ๋ก์ธ์ค์
๋๋ค.
- ํ๋ ์กฐ์ง์ ์ด๊ธฐ์ข
์์ค์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ์ํฌํ๋ก์ธ ELT(์ถ์ถ-๋ก๋-๋ณํ) ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ์์กดํฉ๋๋ค. ์ด ์์
์ Creative Commons BY-NC-ND 4.0 ๊ตญ์ ๋ผ์ด์ ์ค์ ๋ฐ๋ผ ๋ผ์ด์ ์ค๊ฐ ๋ถ์ฌ๋ฉ๋๋ค.
- ๊ทธ๋ฌ๋ ์ด๊ธฐ ๊ธฐ์ค ๊ฒฐ๊ณผ๋ ๋๋ ทํ์ต๋๋ค. Claude Sonnet 3.5[4]๋ฅผ ์ฌ์ฉํ๋ SWE-Agent๋ ๋ฐ์ดํฐ ์ถ์ถ ๋ฐ ๋ก๋ฉ์์ 37%์ ์ฑ๊ณต๋ฅ ๊ณผ ๋ฐ์ดํฐ ๋ณํ์์ 1%์ ๋ถ๊ณผํ์ต๋๋ค.
- ์ต๊ทผ text-to-SQL ๋ฒค์น๋งํฌ์์ ๋ง์ฐํ ์ฃผ์ ์ค๋ฅ๊ฐ ๋ฐ๊ฒฌ๋ ๊ฒ์ ๊ณ๊ธฐ๋ก ์ฐ๋ฆฌ๋ ELT-Bench์ ๋ํ ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ํ์ง ๊ฐ์ฌ๋ฅผ ์ค์ํฉ๋๋ค.
ํต์ฌ ์์ด๋์ด/๋ฐฉ๋ฒ
- ๋์งธ, ๋ฒค์น๋งํฌ ํ์ง์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ฌํ๊ธฐ ์ํด ํ์ฅ ๊ฐ๋ฅํ LLM ๊ธฐ๋ฐ ๊ทผ๋ณธ ์์ธ ๋ถ์๊ณผ ์๊ฒฉํ ์ธ๊ฐ ๊ฒ์ฆ(์ฃผ์์ ๊ฐ ํฉ์ Fleiss์ ๐
= 0.85)์ ๊ฒฐํฉํ๋ ๊ฐ์ฌ์-์์ ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํฉ๋๋ค.
- ๊ทธ๋ฌ๋ ๊ธฐ๋ณธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง ์
๊ทธ๋ ์ด๋ํ๋ฉด ์ถ์ถ ๋ฐ ๋ก๋ฉ ๋จ๊ณ๊ฐ ๋๋ถ๋ถ ํด๊ฒฐ๋๊ณ ๋ณํ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
์ค์ ๊ฒฐ๊ณผ
- ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น ๋ฅธ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์์ด์ ํธ ๊ธฐ๋ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค.
- ์์
์ ์์ด์ ํธ์ ์ํ ์ค๋ฅ, ๋ฒค์น๋งํฌ์ ์ํ ์ค๋ฅ ๋๋ ํผํฉ ์ค๋ฅ ์์ค๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐ ๊ฐ๋ฅํ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค.
๊ฒฐ๋ก ์ด ๋์จ ๊ณผ์
- 1๋จ๊ณ โ ์ ์๋ ์ ๊ทผ ๋ฐฉ์: ๋์งธ, ๋ฒค์น๋งํฌ ํ์ง์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ฌํ๊ธฐ ์ํด ํ์ฅ ๊ฐ๋ฅํ LLM ๊ธฐ๋ฐ ๊ทผ๋ณธ ์์ธ ๋ถ์๊ณผ ์๊ฒฉํ ์ธ๊ฐ ๊ฒ์ฆ(์ฃผ์์ ๊ฐ ํฉ์ Fleiss์ ๐
= 0.85)์ ๊ฒฐํฉํ๋ ๊ฐ์ฌ์-์์ ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํฉ๋๋ค.
- 2๋จ๊ณ โ ํ๊ฐ ์ค์ ๋๋ ๋น๊ต ๊ธฐ์ค: ์์
์ ์ค๋ฅ ์์ค(์์ด์ ํธ ๊ธฐ์ธ, ๋ฒค์น๋งํฌ ๊ธฐ์ธ ๋๋ ํผํฉ)๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐํ ์ ์๋ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค.
- 3๋จ๊ณ - ๋ณด๊ณ ๋ ์ฃผ์ ์ฆ๊ฑฐ: ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น ๋ฅธ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์๋ด์ฌ ๋ฅ๋ ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค.
- 4๋จ๊ณ โ ์ถ๊ฐ ์ง์ ๋๋ ์ ๊ฒฉ ๊ฒฐ๊ณผ: ์์
์ ์ค๋ฅ ์์ค(์์ด์ ํธ ๊ธฐ์ธ, ๋ฒค์น๋งํฌ ๊ธฐ์ธ ๋๋ ํผํฉ)๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐํ ์ ์๋ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค.
์คํ ์ค์ /๊ฒฐ๊ณผ
- ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น ๋ฅธ ๋ชจ๋ธ ๊ฐ์ ๊ณผ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ์๋ ํ๊ฐ์์ ์์ด์ ํธ ๊ธฐ๋ฅ์ ์๋นํ ๊ณผ์ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋๋ค.
- ์์
์ ์์ด์ ํธ์ ์ํ ์ค๋ฅ, ๋ฒค์น๋งํฌ์ ์ํ ์ค๋ฅ ๋๋ ํผํฉ ์ค๋ฅ ์์ค๋ณ๋ก ๋ถ๋ฅ๋๊ณ ์ํ ๊ฐ๋ฅ์ฑ์ ๋ฐ๋ผ ๊ณ์ธตํ๋์ด ํ๊ฐ ๊ฐ์ ์ ํตํด ํด๊ฒฐ ๊ฐ๋ฅํ ์ค๋ฅ์ ์ค์ ์ด ์ ๊ฑฐ๊ฐ ํ์ํ ์ค๋ฅ๋ฅผ ๊ตฌ๋ณํฉ๋๋ค.
- ์ฒซ์งธ, ๋์ผํ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ELT-Bench๋ฅผ ์ฌํ๊ฐํ์ง๋ง ๊ธฐ๋ณธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง ์
๊ทธ๋ ์ด๋ํ๋ฉด ์ถ์ถ ๋ฐ ๋ก๋ฉ ๋จ๊ณ๊ฐ ๋๋ถ๋ถ ํด๊ฒฐ๋๊ณ ๋ณํ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- ๋์งธ, ๋ฒค์น๋งํฌ ํ์ง์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ฌํ๊ธฐ ์ํด ํ์ฅ ๊ฐ๋ฅํ LLM ๊ธฐ๋ฐ ๊ทผ๋ณธ ์์ธ ๋ถ์๊ณผ ์๊ฒฉํ ์ธ๊ฐ ๊ฒ์ฆ(์ฃผ์์ ๊ฐ ํฉ์ Fleiss์ ๐
= 0.85)์ ๊ฒฐํฉํ๋ ๊ฐ์ฌ์-์์ ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํฉ๋๋ค.
- ๋ณด๋ค ๊ด๋ฒ์ํ๊ฒ, ์ฐ๋ฆฌ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ textto-SQL ๋ฒค์น๋งํฌ์์ ๋ง์ฐํ ์ฃผ์ ์ค๋ฅ์ ๋ํ ์ต๊ทผ ๊ด์ฐฐ์ ๋ฐ์ํ์ฌ ๋ฒค์น๋งํฌ ํ์ง ๋ฌธ์ ๊ฐ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ํ๊ฐ ์ ๋ฐ์ ๊ฑธ์ณ ์์คํ
์ ์ธ ๋ฌธ์ ์์ ์์ฌํฉ๋๋ค.
- ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ฐ๋ฆฌ๋ ์ธ๋ จ๋ ํ๊ฐ ๋
ผ๋ฆฌ์ ์ค์ง์ ์ธ ์ค์ธก ์์ ์ ํตํด ์์ ๋ ๋ฒค์น๋งํฌ์ธ ELT-Bench-Verified๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
ํ๊ณ/๋ฆฌ์คํฌ