
OpenClaw와 AWS로 정보 수집 bot을 만드는 방법과 그 리스크
요약
OpenClaw와 AWS Amazon Bedrock을 활용하여 학회 정보를 자동으로 수집하고 Teams에 게시하는 AI 에이전트 구축 사례를 소개합니다. Chromium을 추가하여 JavaScript 기반 사이트 크롤링 성능을 높이고, 보안을 위해 SSM Parameter Store와 컨테이너화를 적용한 아키텍처를 다룹니다.
핵심 포인트
- OpenClaw와 Amazon Bedrock을 결합한 자동 정보 수집 에이전트 구현
- Chromium 헤드리스 브라우저를 추가하여 JS 기반 웹사이트 크롤링 문제 해결
- SSM Parameter Store 및 컨테이너화를 통한 API 키 유출 방지 보안 전략
- CCF Deadlines 등 외부 데이터 소스를 활용한 학회 정보 자동화
안녕하세요, 株式会社エクサウィザーズ(ExaWizards Inc.)의 WAND 팀에서 인턴을 하고 있는 무라이(Murai)입니다.
WAND 팀에서는 클라우드 인프라와 AI 에이전트(AI Agent)에 대한 기술 검증 및 개발을 진행하고 있습니다. 이번에는 그 일환으로, OpenClaw와 Amazon Bedrock 등을 사용하여 관련 분야 학회의 개최 정보를 Teams에 자동으로 게시해 주는 에이전트를 만들었습니다. 기술적인 이야기와 더불어, 만드는 과정에서 알게 된 OpenClaw의 리스크에 대해서도 다룹니다.
배경
WAND 팀은 활동의 일환으로 각종 테크 이벤트나 학회에 스폰서 및 발표자로 참여하여 정보 공유와 아웃리치(Outreach)를 수행하고 있습니다. 최근 사례로는 언어처리학회 (NLP) 스폰서 참여, IBIS 2025 청강 참여, ICCV 2025 워크숍 개최 등의 리포트를 공개하고 있습니다.
이러한 이벤트의 정보 수집 및 선정은 수동으로 진행해 왔으나, 아웃리치의 폭을 더욱 넓히기 위해 각 사이트를 크롤링하여 이벤트 정보를 망라적으로 선택하는 에이전트가 있다면 편리하겠다는 생각에 이번 bot을 제작하게 되었습니다.
AWS와 OpenClaw
이번에는 AWS의 기능을 사용하여 구현을 진행합니다. AWS에는 언어 모델의 추론 API인 Amazon Bedrock과 AI 에이전트 개발 플랫폼인 Amazon Bedrock AgentCore가 준비되어 있습니다. AWS에서 공식적으로 OpenClaw를 배포하기 위한 샘플 코드 (GitHub)(AWS 유저 블로그)를 제공하고 있으므로, 이를 바탕으로 구현을 진행합니다.
구성과 실험
아키텍처 도는 다음과 같습니다. VPC 상에 EC2 인스턴스를 기동하여 OpenClaw를 상주 시킵니다. OpenClaw는 Egress (외향 통신)를 통해 각종 웹사이트의 정보를 취득하고, 요약본을 Power Automate의 Webhook을 사용하여 Teams에 게시합니다. 각종 인증 정보 (Teams API의 토큰이 포함된 URL 등)는 소스 코드로부터의 유출을 방지하기 위해 SSM Parameter Store에 저장합니다. 또한, 에이전트가 평문으로 키(Key)를 볼 수 있으면 유출 리스크가 있으므로, API 호출은 Tools로 분리하고 컨테이너화(Containerization)를 통해 에이전트가 키에 접근할 수 없도록 합니다.

AWS Sample에서의 변경점으로는, OpenClaw를 기동하는 EC2에 헤드리스 브라우저 (Chromium)를 추가했습니다. OpenClaw에도 Web Fetch 기능이 있지만, 이는 HTML 취득만 수행하므로 사이트가 JavaScript 기반인 경우에는 제대로 취득할 수 없습니다. Chromium에는 JavaScript 렌더러가 탑재되어 있으므로, 이를 사용함으로써 다양한 사이트의 정보를 취득할 수 있습니다.
또한, 에이전트에게 어려울 법한 태스크나 절차가 정해져 있는 태스크에 대해서는 각종 Skills를 설정해 두었습니다.
정보원 선정
이번에 학회 정보 취득에 대해서는 CCF Deadlines를 주로 사용했습니다. 이는 컴퓨터 사이언스 분야의 국제 회의(학회) 투고 마감일 (Deadline)을 자동 추적 및 관리하기 위한 오픈 소스 프로젝트로, 중국 컴퓨터 학회 (CCF: China Computer Federation)가 정한 학회 중요도 랭킹 (A, B, C 랭크)을 기반으로 전 세계 주요 학회의 스케줄이 정리되어 있습니다. 웹사이트나 GitHub 리포지토리에서 정보를 취득할 수 있으며, CLI도 준비되어 있습니다. 그 외에는 AI Deadlines도 사용했습니다.
여기서 에이전트에게 맡겨서 학회를 고르게 하면, 대부분의 경우 ICLR, NeurIPS, ICML과 같은 톱 컨퍼런스 (Top Conference)가 검색됩니다. 이것들은 에이전트를 사용할 필요도 없이 잘 알려져 있고, 스폰서 비용도 고액인 경우가 많아 그리 유용하지 않습니다. 반면, 인지도가 너무 낮은 학회도 바람직하지 않습니다. 그래서 CORE 랭킹 (CORE Ranking)을 참조하여 랭크가 A, B, C인 것을 주로 선택하도록 합니다. A* 랭크 (Top Tier)와 표기가 없는 것은 제외합니다. 따라서 에이전트의 동작은 CCF Deadlines 확인 → CORE 랭킹 확인 → Web Fetch나 Chromium으로 학회 HP 취득 → 상세 내용을 확인하고 프롬프트로 주어진 각 조건 (마감일, 개최지, 분야 등)과 일치하면 리포트에 추가하는 방식이 됩니다.
Teams 연동
출력처에는 Power Automate를 사용하여 Teams에 게시를 수행합니다. 다음과 같은 JSON을 준비합니다.
이 JSON의 형식이 OpenClaw에서 전송되는 것과 동일하도록 설정합니다.
{
"date":"",
"message":""
...
Power Automate (https://make.powerautomate.com/) 화면에서 "새 흐름", "인스턴트 클라우드 흐름"을 선택하고, 트리거로 "HTTP 요청이 수신된 경우"를 선택합니다.

다음으로, 노드의 "샘플 페이로드에서 스키마 생성"을 열고, 나타난 창에 위의 JSON을 붙여넣으면 "요청 본문의 JSON 스키마"에 다음과 같이 표시됩니다. 이 칸에 직접 JSON을 붙여넣지 않도록 주의하십시오.

그 후에 "채널 또는 팀에 메시지 게시" 노드를 추가하고, 슬래시 명령어 이후의 message를 추가합니다. 저장하면 URL이 표시되므로, 나머지는 에이전트에게 결과물을 해당 URL로 POST 하도록 지시합니다.
출력 문서
실제로 구동해 보니 다음과 같은 문서가 출력되었습니다.
테이블 (개요)
| 명칭(약칭) | 개최지 | 개최 기간 | 분야 | CORE | 링크 |
|---|---|---|---|---|---|
| ECML PKDD 2026 | 나폴리, 이탈리아 | 2026/09/07–11 | ML / Data Mining | A | 공식 |
| ... |
각 엔트리 상세
ECML PKDD 2026 — CORE A
-
개최: 2026년 9월 7–11일, 나폴리, 이탈리아
-
분야: Machine Learning / Knowledge Discovery / Data Mining
-
채택률: ~25% (2024년도 실적, 공식 발표치)
-
Key dates:
-
Paper submission deadline: 2026/04/xx (passed — 심사 사이클 종료)
-
Acceptance notification: —
-
Camera-ready: —
-
Early-bird registration: —
-
스폰서십:
-
— (공식 스폰서 페이지
/sponsoring이 404; 상세 내용은 공식 측에 직접 문의 권장) - 연락처: ecmlpkdd.org/2026/ 를 통해 조직위원회로 문의 -
— (공식 스폰서 페이지
-
출처: 공식 / web_search로 일정 확인
CIKM 2026 — CORE A
-
개최: 2026년 11월 7–11일, 로마, 이탈리아
-
분야: Information Retrieval / Knowledge Management / NLP / AI
-
채택률: ~22% (과거 실적 기반, 공식 미발표)
-
Key dates:
-
Full Research Papers Abstract deadline: 2026/05/16 (passed)
-
Full Research Papers Submission deadline: 2026/05/23 (passed)
-
Short/Resource/Demo Papers deadline: 2026/06/06 (future)
-
PhD Symposium / Industry Day deadline: 2026/06/22
-
Acceptance Notification: 2026/08/07
-
Camera-ready: 2026/08/20
-
Early-bird registration opening: TBA
-
Tutorial / Workshop Proposals: 2026/06/22
-
스폰서십:
-
— (Become a Sponsor 페이지 존재: cikm2026.diag.uniroma1.it/become-a-sponsor/ — 티어 및 금액은 TBA)
-
연락처: become-a-sponsor 를 통해 문의
-
출처: 공식 / 중요 일정
OpenClaw로 정보 수집을 할 때의 리스크
이번 검증을 진행하면서 알게 된 점으로서, OpenClaw를 사용하여 특히 아웃바운드 통신 (Outbound Communication)을 제한하지 않고 정보를 수집하는 데에는 역시 일정 수준의 리스크가 존재합니다. 예를 들어, 악의적인 사이트에 의해 프롬프트 인젝션 (Prompt Injection)이 수행되어 비밀키 등을 특정 HTTP 서버로 POST 해버리는 상황을 가정할 수 있습니다. 이를 방지하기 위해서는 컨테이너화 (Containerization)를 통해 모델이 비밀키에 접근할 수 없도록 분리하는 설계를 하거나, 아웃바운드 통신을 제어하는 등의 고안이 필요합니다.
한편, 조금 더 파악하기 어려운 리스크로는 자동 크롤링 (Auto Crawling)을 금지하고 있는 사이트로부터의 법무 리스크를 들 수 있습니다. 사이트에 따라 유료 API를 제공하는 대신, 크롤러에 의한 크롤링 등을 약관으로 금지하고 있는 경우가 있습니다. 통신 대상을 지정하지 않고 에이전트 (Agent)에게 맡겨 정보를 수집하게 할 경우, 이러한 사이트로부터도 정보를 취득할 가능성이 있습니다.
예를 들어, connpass에서는 유료 상용 API를 제공하는 대신, 그 외의 방법으로 접속하는 것을 금지하고 있습니다. connpass의 이용약관 (https://connpass.com/term/)에는 다음과 같이 규정되어 있습니다.
제7조 【금지사항】
-
이용자는 당 사이트를 이용함에 있어, 아래에 해당하는 행위 또는 그럴 우려가 있는 행위를 해서는 안 됩니다.
(중략) -
당사로부터 제공되는 API 이외의 방법 (자동화된 방법인지 여부를 불문합니다)에 의해, 당 사이트에 크롤링 (Crawling), 스크레이핑 (Scraping) 또는 기타 접속을 수행하거나 수행하려고 시도하는 행위
유료 API를 우회하는 자동화를 에이전트가 수행해 버릴 경우, 이와 같이 큰 리스크를 질 수 있습니다. 또한, 유료 API 등을 제공하지 않더라도 많은 사이트는 크롤러에 의한 자동 접속이나 대량 다운로드를 금지하고 있습니다. OpenClaw 에이전트에 의한 접속이 이에 해당할지 여부는 상황에 따라 다르지만, 그럼에도 법무 리스크가 있는 것은 확실합니다. OpenClaw를 그러한 사이트의 정보 수집 목적으로 사용하는 것이 위험한 것은 물론이고, 잠재적으로는 OpenClaw를 접속 제한 없이 운용하는 것만으로도 해당 사이트의 약관을 위반할 리스크가 있다고 할 수 있습니다.
이번 검증에서는 처음에는 탐색 범위를 더욱 넓혀서 각종 AWS 이벤트나 LT 모임 등 커뮤니티에 의한 이벤트 정보도 취득할 예정이었습니다. 하지만 예를 들어, AWS 웹사이트 약관 (https://aws.amazon.com/jp/terms/)에는 명확하게 다음과 같은 문구가 있습니다.
AWS는 AWS 사이트에 접속하여 이를 개인적으로 사용하는 것은 가능하지만, AWS의 명시적인 서면 동의가 있는 경우를 제외하고는 해당 사이트 또는 그 일부를 다운로드(페이지 캐시 제외)하거나 변경할 수 없는 제한적 라이선스를 고객에게 부여합니다. 본 라이선스에는 AWS 사이트 또는 그 콘텐츠의 재판매 또는 상업적 이용, AWS 사이트 또는 그 콘텐츠의 파생적 사용, 다른 사용자의 계정 정보 다운로드 또는 복사,
데이터 마이닝 (Data Mining), 로봇 또는 유사한 데이터 수집 및 추출 도구의 사용은 포함되지 않습니다. (강조 인용)
따라서 AWS 사이트에서 자동으로 각종 이벤트 정보를 취득하는 것은 기술적으로는 가능하지만, 해서는 안 된다는 판단에 이르렀습니다.
robots.txt
또한, 확인해야 할 사항으로 각 사이트의 robots.txt가 있습니다.
이는 각 사이트의 관리자가 다양한 크롤러에 대해 어느 부분까지 접속 가능한지를 지정하기 위한 문서입니다. 예를 들어 다음과 같이 지정합니다.
User-agent: *
Disallow: /admin
User-agent: Googlebot
...
robots.txt는 엄격한 강제력이 있는 것은 아니며, 이용약관이 있는 사이트는 약관이 우선됩니다. 다만, 해당 사이트가 웹 크롤러 (Web Crawler)를 수용하고 있는지에 대한 지표로 삼을 수는 있습니다. 예를 들어, 모든 에이전트의 접속을 금지하는 (Disallow: /) robots.txt가 있는 경우에는 에이전트가 해당 사이트에 접속하는 것을 피해야 할 것입니다.
요약
본 기사에서는 OpenClaw + Amazon Bedrock을 사용하여 학회 정보를 자동 수집하고 Teams에 게시하는 bot의 구축 방법을 소개했습니다. 포인트를 정리하면 다음과 같습니다.
- 구성: EC2 상의 OpenClaw에 Chromium을 추가하여 JS (JavaScript) 기반 사이트에도 대응.
- 정보원 활용의 묘미: CCF Deadlines와 CORE 랭킹을 조합하여, 탑 티어(Top-tier)도 마이너도 아닌 "적절한" 학회를 선정.
- Teams 연동: Power Automate의 HTTP 트리거를 사용하여 에이전트의 출력을 채널에 그대로 게시.
- 리스크: 프롬프트 인젝션 (Prompt Injection)으로 인한 정보 유출 리스크와 더불어, 자동 크롤링을 금지하는 사이트에 대한 법적 리스크가 존재한다. Egress 제어 및 접속 대상의 화이트리스트화가 중요하다.
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기