Surface Evolver Bench: LLM에게 커스텀 데이터 형식으로 복잡한 물리 시뮬레이션을 작성하도록 요청하는 벤치마크

고체 제약 조건(주황색)에 의해 형성된 시뮬레이션된 액체(초록색)를 보여주는 렌더링된 표면 예시.
각 모델에 대한 전체 점수, 통과 횟수, 기록된 토큰/비용 총계.

저는 대학원 시절 수행했던 연구를 바탕으로 작은 커스텀 벤치마크를 작성했습니다. Surface Evolver는 액체 표면을 모델링하기 위해 1992년에 출시된(!) 도구입니다. 이는 칩 위의 솔더 증착(solder deposition) 연구, 액체 연료 탱크 모델링, 또는 랩온어칩(lab-on-a-chip) 네트워크 설계와 같은 작업에 유용합니다.

시뮬레이션을 설정하려면 정점(vertices), 에지(edges), 면(faces), 본체(bodies), 제약 조건(constraints), 에너지(energies), 그리고 경계 적분(boundary integrals)을 포함하는 커스텀 데이터 파일을 정의해야 합니다. 저는 고체 표면(주황색) 위의 액체 방울(초록색)에 대한 몇 가지 샘플(비태스크) 예시를 첨부했는데, 여기에는 능선(ridges)에 놓인 방울, 막대 사이를 가로지르는(bridging) 방울, 그리고 크로스 슬롯(cross-slot)에 있는 방울이 포함됩니다.

이는 문서를 참조하고, 사양(spec)을 구현하며, 시뮬레이션을 실행하고, 출력을 디버깅하는 등의 자연스러운 에이전틱 루프(agentic loop)가 존재하기 때문에 흥미로운 LLM 벤치마크가 될 것이라고 생각합니다.

전체 요약:

gpt5.5가 이 작업에서 가장 뛰어나며, 현재까지 여러 태스크를 해결한 유일한 모델입니다.
glm5.2가 가장 뛰어난 오픈 모델입니다.

링크: https://yhenon.github.io/surface-evolver-llm-eval/
[지난주에 몇 가지 문제를 발견하여 게시했다가 삭제한 후 다시 게시합니다]
submitted by /u/jordo45
[link] [comments]

Insights

Surface Evolver Bench: LLM에게 커스텀 데이터 형식으로 복잡한 물리 시뮬레이션을 작성하도록 요청하는 벤치마크

요약

핵심 포인트

댓글

코딩 없이 AI로 Notion 워크스페이스를 자동화하는 방법

중국 AI 모델 활용하기: DeepSeek 및 그 너머를 위한 개발자 가이드

모든 개발자가 가져가야 할 10가지 Cursor 규칙 (.mdc)

세계 최고의 AI 모델들이 어떻게 복구되었는가

코딩 없이 AI로 Notion 워크스페이스를 자동화하는 방법

중국 AI 모델 활용하기: DeepSeek 및 그 너머를 위한 개발자 가이드

모든 개발자가 가져가야 할 10가지 Cursor 규칙 (.mdc)

세계 최고의 AI 모델들이 어떻게 복구되었는가