
연구에서의 AI 활용 트렌드 탐색
요약
일본 문부과학성의 SPReAD-1000 프로그램을 통해 채택된 연구 과제들을 자연어 처리(NLP)로 분석하여 학술 분야의 AI 활용 트렌드를 탐색합니다. 분석 결과, 생명과학 및 임상과학 분야에서 AI 활용이 가장 활발하며, 생성형 AI와 데이터 기반 구축 중심의 연구가 주를 이루고 있습니다.
핵심 포인트
- SPReAD-1000 채택 과제 분석을 통한 학술 AI 트렌드 파악
- 임상과학 및 생명과학 분야가 전체의 약 36%로 가장 높은 비중 차지
- 생성 AI, AI-driven, AI-ready 등 AI 활용 방식의 구체적 양상 확인
- 의료, 단백질, 로봇 등 다양한 도메인에서의 AI 적용 사례 도출
- 단순 해석을 넘어 데이터 구축 및 예측 모델 개발 중심의 연구 경향
최근 AI의 성능이 급격히 진화하면서, 이미 AI는 현대 사회에 없어서는 안 될 필수적인 존재가 되었다. 기업이나 대학의 연구 분야에서도 AI가 담당하는 역할이 앞으로 더욱 확대될 것임은 자명하다. 여기서 흥미로운 점은, 현재 연구 분야에서 AI의 활용이 어느 정도 확산되어 있는가? 어떤 분야와 목적의 연구에서 AI가 사용되고 있는가? 어떻게 AI가 사용되고 있는가? 하는 점들일 것이다. 이러한 질문들은 AI 활용의 미래를 예측하는 힌트가 될 수 있다.
올해, 학술 분야로의 AI 활용 진흥을 촉진하기 위해 문부과학성에 의해 SPReAD-1000이라는 프로그램이 운영되고 있다. 이는 AI를 활용하는 문과·이과를 불문한 모든 연구에 대해 폭넓게 연구 예산을 지원하는 과학연구 혁신 프로그램이다. 최근 제1회 공모의 채택 과제가 공개되었으므로, 이 채택 과제를 추출하여 자연어 처리 (Natural Language Processing)를 수행함으로써 현재 연구 분야에서의 AI 활용 트렌드를 탐색해 보고자 한다.
제1회 공모에 대해서는 모든 채택 과제의 연구 과제명이 공개되어 있다. 이 채택 과제의 연구 과제명을 Python을 통해 추출하고, 자연어 라이브러리인 nlplot을 사용하여 분석 및 시각화한다. 이 Python 프로그램은 ChatGPT가 작성하도록 한다.
먼저, 아래에 채택 과제의 연구 영역별 채택 건수를 나타낸다. 채택 건수는 전체 456건이며, 문과·이과를 불문하고 폭넓은 연구 영역에서 AI 활용이 이루어지고 있다. 영역별로 채택 수가 많은 연구 영역은 생명과학·약학, 임상과학 분야이며, 이 두 분야를 합치면 전체의 약 36%에 달한다. AI의 활용은 모든 학술 분야에서 진행되고 있으며, 특히 의료 및 생명 관련 과학 분야에서의 활용이 활발하게 이루어지고 있음을 알 수 있다.
| No. | 연구 영역 | 채택 건수 |
|---|---|---|
| 1 | 임상과학 | 70 |
| ... | ||
| 이하, 채택된 모든 연구 과제명의 자연어 처리 결과이다. |
・유니그램 (Unigram)
이하에 각 단어의 출현 횟수를 많은 순서대로 나타낸다.
・바이그램 (Bigram)
이하에 연속된 2개 단어의 출현 횟수를 많은 순서대로 나타낸다.
유니그램을 통해 알 수 있는 점은, 우선 "AI"를 활용한 연구가 많다는 것, 그리고 그 이용 방법으로는 "지원", "생성", "예측", "설계", "탐색" 등이 많으며, 그 대상은 "세포", "분자", "물리" 등이 있다는 점 등이다.
또한 바이그램을 통해 AI를 사용한 어구로서 자주 쓰이는 것은 "생성 AI (Generative AI)", "AI 구동 (AI-driven)", "AI 지원", "AI 활용" 등이 있다. "AI ready"는 AI로 즉시 활용할 수 있는 상태를 의미하며, 데이터셋이나 환경 구축이 진행되고 있음을 엿볼 수 있다.
워드클라우드 (Word Cloud)를 보면 조금 더 세부적인 대상을 볼 수 있다. N-gram에 나타나지 않은 키워드로 "단백질", "인간", "질환", "바이러스", "환자", "임상", "인지", "진단" 등의 의료 관련 용어가 자주 사용되고 있다. 또한 "로봇"이라는 단어가 나타나는 것은 최근의 피지컬 AI (Physical AI) 활용이 연구 분야에서도 이루어지고 있음을 시사한다. 또한 "사회", "교육", "교사", "대화" 등의 사회과학 분야 용어도 나타나고 있다는 점은 주목할 만하다.
공기 네트워크 (Co-occurrence Network) 분석 결과, "AI", "모델", "데이터", "구축", "기반", "해석", "예측" 등의 단어가 중심에 위치했다. 이는 AI를 단순한 보조적 해석 수단으로 사용하는 것에 그치지 않고, 데이터 기반 구축, 예측 모델 개발, 해석 워크플로우 정비, 자동화 시스템 창출을 지향하는 과제가 많음을 시사한다.
또한 주변에는 "환자", "질환", "이미지", "세포", "분자", "단백질", "재료", "로봇", "LLM", "멀티모달 (Multimodal)" 등의 단어가 분포하고 있어, 임상과학, 생명과학, 재료·화학, 실험 자동화, 생성 AI 응용 등 폭넓은 과학 분야에서 AI 활용이 진행되고 있음을 알 수 있다.
특히 "예측", "탐색", "설계", "평가", "검증"과 같은 단어가 중심어와 연결되어 있는 것으로 보아, 채택 과제에서는 AI의 이용 목적이 명확하며, 단순한 AI 적용이 아니라 과학적 발견이나 연구 프로세스의 변혁으로 이어지는 과제 설정이 많다고 생각된다.
이번 분석 결과, 연구에서의 AI 활용은 모든 분야에서 진행되고 있으며, 특히 의료 및 생명 연구 분야에서 AI 활용이 진행되고 있는 경향이 나타났다. AI 활용의 진전은 데이터셋이나 환경 구축 등의 도입에 관한 연구도 있으나, 오히려 이미 AI에 의한 지원, 생성, 예측 등의 실용 단계에 들어서 있음을 알 수 있다. 현재의 트렌드가 진전된 후에는 순수 수학이나 경제학 등 더욱 복잡한 시스템에 사용될 것으로 상상한다.
마지막으로, ChatGPT로 작성한 해석 프로그램(analysis program)을 보여준다.
소스 코드 전문은 이쪽에서 확인 가능
# -*- coding: utf-8 -*-
"""
SPReAD 채택 과제 목록 PDF의 1~42페이지에서 연구 과제명을 추출하고,
...
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기