arXiv논문2026. 05. 26. 12:49

학습자 코퍼스(Learner Corpus)에 대한 지속적 사전 학습(Continued Pretraining)이 영어 숙달도 시험의 자동 에세이

요약

학습자 코퍼스(Learner Corpus)를 활용한 지속적 사전 학습(DAPT)이 자동 에세이 채점(AES) 성능에 미치는 영향을 연구했습니다. 연구 결과, 도메인 데이터와 평가 데이터 간의 숙달도 및 장르 일치 여부가 성능 개선의 핵심 요인임을 확인했습니다.

핵심 포인트

학습자 코퍼스 기반 DAPT가 AES 성능에 미치는 영향 분석
CEFR 수준에 맞춘 표적 DAPT가 전체 코퍼스 DAPT보다 안정적 개선
데이터셋 간 숙달도 및 장르 불일치가 성능에 변수로 작용
도메인 내 채점 성능은 향상되나 교차 데이터셋 전이 효과는 불분명

최근 자동 에세이 채점 (AES, Automated Essay Scoring) 연구들은 사전 학습된 트랜스포머 (Transformer) 모델을 점점 더 많이 사용하고 있지만, 이러한 모델들은 대개 일반 도메인의 영어로 사전 학습되어 제2언어 학습자의 글쓰기를 충분히 반영하지 못할 수 있습니다. 본 연구는 EFCAMDAT 학습자 코퍼스 (Learner Corpus)에 대한 도메인 적응형 지속적 사전 학습 (DAPT, Domain-Adaptive Continued Pretraining)이 영어 숙달도 시험을 위한 트랜스포머 기반 AES를 개선하는지 조사합니다. 우리는 세 가지 트랜스포머 인코더 (Transformer Encoders)에 DAPT를 적용하고, 도메인 내 채점 (In-domain scoring) 및 퓨샷 교차 데이터셋 전이 (Few-shot cross-dataset transfer) 모두에서 FCE와 IELTS를 대상으로 평가합니다. 전체 코퍼스 DAPT는 모델, 데이터셋 및 지표에 따라 엇갈린 결과를 나타냅니다. 추가 분석 결과, 이러한 혼재된 효과는 부분적으로 EFCAMDAT와 다운스트림 (Downstream) 데이터셋 간의 숙달도, 장르 및 의사소통 목적의 불일치로 설명될 수 있음을 시사합니다. 숙달도 기반의 절제 연구 (Ablation study)에 따르면, CEFR과 정렬된 서브셋 (Subsets)을 사용한 표적 DAPT가 전체 코퍼스 DAPT보다 다운스트림 채점 성능을 더 안정적으로 개선하며, 특히 B1--B2 데이터를 포함한 FCE에서 그러한 경향을 보였습니다. 그러나 이러한 이점이 교차 데이터셋 전이 성능을 일관되게 향상시키지는 않았습니다. 종합적으로, 본 연구 결과는 사전 학습 데이터가 다운스트림 평가 설정과 충분히 일치할 경우, 학습자 글쓰기 코퍼스에 대한 지속적 사전 학습이 영어 평가를 위한 도메인 내 AES에 도움이 될 수 있음을 시사합니다. 하지만 이것이 서로 다른 영어 숙달도 시험 데이터셋 간의 전이 가능성을 자동으로 개선하는 것은 아닙니다.

AI 자동 생성 콘텐츠

원문 바로가기

학습자 코퍼스(Learner Corpus)에 대한 지속적 사전 학습(Continued Pretraining)이 영어 숙달도 시험의 자동 에세이

요약

핵심 포인트

댓글