Surface Evolver Bench: LLM에게 커스텀 데이터 형식으로 복잡한 물리 시뮬레이션을 작성하도록 요청하는 벤치마크
요약
Surface Evolver라는 물리 시뮬레이션 도구를 활용하여 LLM의 커스텀 데이터 형식 작성 능력을 평가하는 새로운 벤치마크를 소개합니다. 모델이 문서를 참조하고 시뮬레이션을 디버깅하는 에이전틱 루프 능력을 측정합니다.
핵심 포인트
- Surface Evolver를 이용한 복잡한 물리 시뮬레이션 작성 능력 평가
- 문서 참조, 사양 구현, 실행 및 디버깅을 포함하는 에이전틱 루프 검증
- GPT-5.5가 해당 작업에서 가장 뛰어난 성능을 보임
- GLM-5.2가 오픈 모델 중 가장 우수한 성능 기록
고체 제약 조건(주황색)에 의해 형성된 시뮬레이션된 액체(초록색)를 보여주는 렌더링된 표면 예시.
각 모델에 대한 전체 점수, 통과 횟수, 기록된 토큰/비용 총계.
저는 대학원 시절 수행했던 연구를 바탕으로 작은 커스텀 벤치마크를 작성했습니다. Surface Evolver는 액체 표면을 모델링하기 위해 1992년에 출시된(!) 도구입니다. 이는 칩 위의 솔더 증착(solder deposition) 연구, 액체 연료 탱크 모델링, 또는 랩온어칩(lab-on-a-chip) 네트워크 설계와 같은 작업에 유용합니다.
시뮬레이션을 설정하려면 정점(vertices), 에지(edges), 면(faces), 본체(bodies), 제약 조건(constraints), 에너지(energies), 그리고 경계 적분(boundary integrals)을 포함하는 커스텀 데이터 파일을 정의해야 합니다. 저는 고체 표면(주황색) 위의 액체 방울(초록색)에 대한 몇 가지 샘플(비태스크) 예시를 첨부했는데, 여기에는 능선(ridges)에 놓인 방울, 막대 사이를 가로지르는(bridging) 방울, 그리고 크로스 슬롯(cross-slot)에 있는 방울이 포함됩니다.
이는 문서를 참조하고, 사양(spec)을 구현하며, 시뮬레이션을 실행하고, 출력을 디버깅하는 등의 자연스러운 에이전틱 루프(agentic loop)가 존재하기 때문에 흥미로운 LLM 벤치마크가 될 것이라고 생각합니다.
전체 요약:
- gpt5.5가 이 작업에서 가장 뛰어나며, 현재까지 여러 태스크를 해결한 유일한 모델입니다.
- glm5.2가 가장 뛰어난 오픈 모델입니다.
링크: https://yhenon.github.io/surface-evolver-llm-eval/
[지난주에 몇 가지 문제를 발견하여 게시했다가 삭제한 후 다시 게시합니다]
submitted by /u/jordo45
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기