Score: 21.6 | Matched keywords: agent, ai, benchmark, llm
They have no self-model, no mechanism for principled uncertainty calibration, and no defense against identity-targeted attacks beyond pattern-matched refusals. This vulnerability is not a training oversight but a structural consequence: current models are optimized for helpfulness rather than identity integrity.
This is primarily a method paper. We present a full autopsy of this failure, identifying five systematic failure modes of AI-assisted development for novel architectures. We present a full autopsy of this failure, identifying five systematic failure modes of AI-assisted development for novel architectures. We propose Eyla, an architecture designed to address this gap by integrating: 1.
Broken evaluation: eval_soul.py compares adjacent layers of the same model instead of comparing LoRA model vs.
Broken evaluation: eval_soul.py compares adjacent layers of the same model instead of comparing LoRA model vs., informal testing during development revealed that current models score poorly on Categories 3–4.
The paper’s conclusions should be interpreted within the scope of the reported evaluation and evidence. Broken evaluation: eval_soul.py compares adjacent layers of the same model instead of comparing LoRA model vs.
자체 모델도 없고, 원칙에 따른 불확실성 조정을 위한 메커니즘도 없으며, 패턴 일치 거부 이상의 신원 표적 공격에 대한 방어 기능도 없습니다. 이 취약점은 훈련 감독이 아니라 구조적 결과입니다. 현재 모델은 신원 무결성보다는 유용성에 최적화되어 있습니다. 이것은 주로 방법론 논문입니다. 우리는 새로운 아키텍처에 대한 AI 지원 개발의 5가지 체계적인 실패 모드를 식별하여 이 실패에 대한 완전한 부검을 제시합니다. 우리는 새로운 아키텍처에 대한 AI 지원 개발의 5가지 체계적인 실패 모드를 식별하여 이 실패에 대한 완전한 부검을 제시합니다. 우리는 다음을 통합하여 이러한 격차를 해결하기 위해 설계된 아키텍처인 Eyla를 제안합니다. 1. 깨진 평가: eval_soul.py는 LoRA 모델과 비교하는 대신 동일한 모델의 인접한 레이어를 비교합니다. 깨진 평가: eval_soul.py는 LoRA 모델과 비교하는 대신 동일한 모델의 인접한 레이어를 비교합니다. 개발 중 비공식 테스트에서는 현재 모델이 카테고리 3~4에서 낮은 점수를 받는 것으로 나타났습니다. 논문의 결론은 보고된 평가 및 증거의 범위 내에서 해석되어야 합니다. 손상된 평가: eval_soul.py는 LoRA 모델과 LoRA 모델을 비교하는 대신 동일한 모델의 인접한 레이어를 비교합니다.