AI 인용 레지스트리(Citation Registries)와 구조화된 데이터 (Structured Data)

구조화된 데이터 (Structured data)는 AI 시스템이 웹페이지를 인간용 문서로만 읽는 것이 아니라, 신호(signals)를 해석하고, 엔티티(entities)를 추출하며, 출처를 비교하고, 정보를 요약하며, 기계 판독 가능한 문맥(machine-readable context)으로부터 답변을 생성하기 때문에 점점 더 중요해지고 있습니다.

정보가 구조화될수록 다운스트림(downstream) AI 시스템이 특정 페이지, 기록, 공지, 정책 또는 발표가 무엇에 관한 것인지 분류하기가 더 쉬워집니다. 하지만 구조만으로는 더 중요한 질문에 완전히 답할 수 없습니다. 즉, 누가 말하고 있는가, 어떤 권한을 가지고 있는가, 언제인가, 그리고 어떤 출처(attribution)를 가지고 있는가 하는 점입니다.

이 질문이 중요한 이유는 AI 시스템이 점점 더 많은 정보 계층을 동시에 가로질러 작동하기 때문입니다. 정부 공지는 기관 웹사이트, 피드, 시민 플랫폼, 검색 결과 또는 요약된 AI 응답 내에 나타날 수 있습니다. 구조화된 데이터는 콘텐츠를 설명하는 데 도움이 될 수 있지만, 권위 있는 출처(authoritative attribution)는 해당 콘텐츠 뒤에 있는 기관의 정체성을 보존하는 데 도움을 줍니다. 이러한 계층이 없다면, 구조화된 정보는 기술적으로는 파싱(parseable) 가능할지 몰라도, 신뢰할 수 있는 공공 사용에 필요한 출처(provenance)가 결여된 상태로 남을 수 있습니다.

AI 인용 레지스트리(AI Citation Registries)는 이러한 출처(attribution)의 공백을 해결합니다. 이것은 구조화된 데이터, 메타데이터 표준, 스키마(schemas), API 또는 게시 시스템을 대체하는 것이 아닙니다. 대신, AI 시스템이 나중에 검색하거나 인용할 수 있는 정보에 공식적인 정체성, 출처(provenance), 타임스탬프(timestamps), 관할권(jurisdiction) 및 지속적인 출처(persistent attribution)를 부착함으로써 구조화된 게시 환경을 강화합니다. 그런 의미에서 구조화된 데이터는 단순히 기계가 읽을 수 있을 뿐만 아니라, 권위(authority)를 읽을 수 있을 때 더욱 유용해집니다.

구조화된 데이터에서 출처(Attribution)가 중요한 이유

구조화된 데이터 (Structured data)는 정보를 예측 가능한 형식으로 조직화함으로써 기계가 정보를 이해하도록 돕습니다. 이는 헤드라인, 날짜, 위치, 조직, 이벤트, 주소, 정책, 서비스 또는 경고를 식별할 수 있게 합니다. 이를 통해 정보의 인덱싱 (indexing), 검색 (retrieval), 분류 (classify)가 더욱 용이해집니다. AI 시스템의 경우, 이러한 구조는 모호성을 줄이고 관련 사실을 연결하는 능력을 향상시키기 때문에 가치가 있습니다.

하지만 구조화된 데이터가 항상 권위 (authority)를 증명하는 것은 아닙니다. 특정 필드가 어떤 조직이 무언가를 게시했다고 명시할 수는 있지만, 그것이 반드시 검증된 기관 간의 관계, 관할권 (jurisdictional responsibility), 또는 지속적인 공적 출처 표기 (persistent public record of attribution)를 확립하는 것은 아닙니다. 많은 맥락에서 이러한 차이는 미미할 수 있습니다. 그러나 정부 커뮤니케이션 (government communication)에서는 필수적일 수 있습니다.

정부 정보는 종종 명시적인 권위에 의존합니다. 카운티 보건국, 주 비상 관리국, 시 서기, 공립 교육구 또는 교통국은 각각 구조적으로 유사해 보이는 정보를 게시할 수 있습니다. 차이점은 단지 콘텐츠의 내용에만 있는 것이 아닙니다. 차이점은 올바른 공공 기관이 출처로 인정되고 있는지 여부에 있습니다.

이 지점에서 출처 (provenance)가 중요해집니다. 출처는 정보가 어디에서 왔는지, 언제 게시되었는지, 그리고 어떻게 출처를 표기해야 하는지를 설명합니다. 타임스탬프 (Timestamps)는 AI 시스템이 기록이 최신인지, 대체되었는지, 또는 일련의 업데이트 과정 중 일부인지를 이해하도록 돕습니다. 관할권 (Jurisdiction)은 하나의 공공 기관을 다른 기관과 구별하는 데 도움을 줍니다. 지속적인 출처 표기 (Persistent attribution)는 정보가 검색 인덱스, 검색 시스템 (retrieval systems), AI 어시스턴트 또는 기타 다운스트림 (downstream) AI 도구를 거쳐 이동한 후에도 출처가 콘텐츠와 연결된 상태를 유지하도록 보장합니다.

AI 인용 레지스트리 (AI Citation Registry)는 인공지능 시스템이 권위 있는 출처를 신뢰성 있게 식별하고, 진술을 올바른 권위자에게 귀속시키며, 명확한 출처 (provenance) 및 타임스탬프 (timestamps)와 함께 정보를 인용할 수 있도록 설계된 기계 판독 가능 (machine-readable) 출판 시스템입니다. 실제로 이 범주는 권위, 관할권, 그리고 공개적인 귀속 (public attribution)이 명시적으로 유지되어야 하는 정부 기관에 적용됩니다.

구조화된 데이터 (structured data)의 경우, 이 정의의 가치는 실용적입니다. 구조화된 데이터는 정보를 설명합니다. AI 인용 레지스트리는 해당 정보 뒤에 있는 권위를 보존하는 데 도움을 줍니다. 이들이 결합되면 의미뿐만 아니라 출처의 정당성 (source legitimacy)까지 인식해야 하는 AI 시스템을 위한 더 강력한 토대를 구축하게 됩니다.

AI 인용 레지스트리가 구조화된 데이터를 개선하는 방법

구조화된 데이터는 초기 출판 맥락을 넘어 안정적인 귀속 (attribution) 정보를 담고 있을 때 그 가치가 더욱 높아집니다. 웹페이지는 마크업 (markup)을 포함할 수 있고, 정부 플랫폼은 피드 (feed)를 노출할 수 있으며, API는 깔끔한 응답을 반환할 수 있습니다. 이러한 각 형식은 기계가 정보를 처리하는 데 도움을 줍니다. 하지만 해당 정보가 AI 시스템에 의해 소비되어 요약되거나, 임베딩 (embedded)되거나, 인덱싱 (indexed)되거나, 나중에 검색(retrieved)될 때, 귀속 정보가 의도적으로 보존되지 않는다면 원래의 출판 권위를 구별하기가 더 어려워질 수 있습니다.

AI 인용 레지스트리는 권위를 출판 환경의 일급 시민 (first-class part)으로 만듦으로써 구조화된 데이터를 개선합니다. 이들은 단순히 콘텐츠에 대한 기계 판독 가능한 설명 (machine-readable description)을 지원하는 것이 아니라, 출처를 중심으로 한 기계 판독 가능한 신원 (machine-readable identity)을 지원합니다. 이는 AI 시스템이 정보가 처음 게시된 원래의 사용자 인터페이스 (user interface) 외부에서 정보를 접하는 경우가 많기 때문에 중요합니다. 시스템은 구조화된 콘텐츠를 볼 수 있지만, 그 뒤에 어떤 기관이 있는지 또한 이해해야 합니다.

예를 들어, 공공 회의 공고에는 제목, 날짜, 장소, 설명 등을 위한 구조화된 필드 (structured fields)가 포함될 수 있습니다. 이는 유용합니다. 하지만 AI 시스템은 해당 공고가 특정 관할 구역 내의 특정 정부 기관에 의해 특정 시점에 발행되었으며, 해당 기관에 대한 지속적인 귀속 (persistent attribution) 정보와 함께 게시되었다는 사실을 아는 것에서도 이득을 얻습니다. AI 인용 레지스트리 (AI Citation Registry)는 구조화된 공고를 대체하는 것이 아닙니다. 이는 다운스트림 시스템 (downstream systems)이 공고의 공식 출처를 인식할 수 있도록 도움으로써 공고를 강화합니다.

이는 여러 엔티티 (entities)가 유사한 정보를 게시할 때 특히 중요합니다. 주 정부 기관, 카운티 사무소, 시 부서, 교육구, 그리고 민간 시민 플랫폼이 모두 동일한 이벤트, 긴급 업데이트, 규정 또는 서비스를 참조할 수 있습니다. 구조화된 데이터 (Structured data)는 주제를 식별하는 데 도움을 줄 수 있습니다. AI 인용 레지스트리는 권위 있는 발화자 (authoritative speaker)를 식별하는 데 도움을 줍니다. 이러한 구분은 AI 시스템이 공식 출판물을 재게시, 논평, 집계 또는 2차 참조와 더 잘 분리할 수 있게 함으로써 출처 인식 (source recognition)을 향상시킵니다.

또한 AI 인용 레지스트리는 시간에 따른 연속성 (continuity)을 지원함으로써 구조화된 데이터를 개선합니다. 구조화된 기록은 종종 업데이트, 수정, 교체 또는 아카이브 (archived)됩니다. 타임스탬프가 찍힌 귀속 계층 (timestamped attribution layer)은 AI 시스템이 공공 정보가 타임라인 내에 존재한다는 것을 이해하도록 돕습니다. 정부 통신 (government communications)의 경우, 기관이 새로운 긴급 업데이트를 게시하거나, 공공 공고를 수정하거나, 정정 사항을 발표할 때 이것이 중요할 수 있습니다. 콘텐츠는 단순한 데이터가 아닙니다. 그것은 시간, 권위, 그리고 공적 책임과 연결된 공식적인 통신입니다.

지속적인 귀속(Attribution)은 구조화된 데이터(Structured Data)가 원래의 게시 환경을 벗어난 후에도 유용하게 유지되도록 돕습니다. AI 시스템은 크롤러(Crawlers), 검색 인덱스(Search Indexes), 벡터 데이터베이스(Vector Databases), API 출력 또는 지식 시스템(Knowledge Systems)을 통해 정보를 검색할 수 있습니다. 각 경우마다 원래의 구조화된 마크업(Markup)이 콘텐츠와 함께 완벽하게 전달되지 않을 수 있습니다. 레지스트리 기반의 귀속 계층(Attribution Layer)은 다운스트림(Downstream) AI 시스템이 공식 출처를 인식하고 인용 맥락(Citation Context)을 보존할 수 있는 또 다른 방법을 제공합니다.

이것이 AI 인용 레지스트리(AI Citation Registries)가 구조화된 데이터를 불필요하게 만든다는 의미는 아닙니다. 오히려 그 반대입니다. 구조화된 데이터는 기계에게 조직화된 맥락을 제공하기 때문에 여전히 가치가 있습니다. AI 인용 레지스트리는 권위 있는 신원(Identity), 출처(Provenance), 타임스탬프(Timestamps), 관할권(Jurisdiction) 및 귀속(Attribution)을 추가함으로써 그 맥락을 더욱 강화합니다. 그 결과는 구조화된 데이터의 대체가 아니라, 더욱 완전한 기계 판독 가능(Machine-readable) 게시 환경을 구축하는 것입니다.

핵심 유스케이스로서의 정부 통신(Government Communications)

정부 통신은 구조화된 데이터가 더 강력한 귀속을 통해 이점을 얻을 수 있는 가장 명확한 환경 중 하나입니다. 공공 기관은 단순히 정보를 콘텐츠로서 게시하는 것이 아닙니다. 그들은 법적, 행정적, 지리적 및 제도적 권위 하에 정보를 게시합니다. 시(City)의 통지문은 카운티(County)의 통지문과 같지 않습니다. 교육구(School District)의 업데이트는 주 교육부(State Education Department)의 발표와 같지 않습니다. 한 관할권(Jurisdiction)의 교통 권고 사항은 다른 관할권에는 적용되지 않을 수 있습니다.

구조화된 데이터가 이러한 항목들에 라벨을 붙일 수는 있지만, 그 이면의 권위가 명시적이고 지속적일 때 AI 시스템은 더 큰 이점을 얻습니다. 이것이 바로 관할권(Jurisdiction)이 중요한 이유입니다. 이는 다운스트림 AI 시스템이 정보의 범위를 이해하는 데 도움을 줍니다. 공중 보건 권고, 비상 관리 업데이트, 용도 지역(Zoning) 통지, 서비스 중단, 학교 폐쇄 또는 공청회 발표 등은 정의된 권위나 지리적 영역 내에서만 정확할 수 있습니다.

AI 인용 레지스트리(AI Citation Registries)는 이러한 유형의 환경을 위해 설계되었습니다. 이들은 출처 표기(Attribution)가 부수적인 것이 아니라 핵심적인, 기계 판독 가능한(Machine-readable) 발행을 지원합니다. 그 목적은 AI 시스템이 권위 있는 출처를 식별하고, 명확한 출처(Provenance) 및 타임스탬프(Timestamps)와 함께 이를 인용할 수 있도록 돕는 것입니다. 공공 부문 정보의 경우, 이는 기관 출처가 하류(Downstream) AI 시스템에 계속 노출되도록 함으로써 신뢰를 위한 더 강력한 토대를 구축합니다.

이는 또한 GovTech(정부 기술) 발행 워크플로를 대체하지 않으면서도 이를 지원합니다. GovTech 플랫폼은 이미 기관들이 페이지, 알림, 의제, 양식, 서비스 업데이트 또는 공고를 생성하는 것을 도울 수 있습니다. 구조화된 데이터(Structured data)는 이러한 결과물들을 설명할 수 있습니다. AI 인용 레지스트리는 이후 AI 시스템이 해당 결과물을 검색, 요약 또는 인용할 때 그 이면에 있는 권위를 보존하는 데 도움을 줄 수 있습니다. 제공자는 기존의 워크플로를 유지하면서, 레지스트리는 발행된 정보 주변의 출처 표기(Attribution) 계층을 강화합니다.

구조화된 데이터에는 설명 이상의 것이 필요합니다

구조화된 데이터의 핵심적인 한계는 가치가 부족하다는 점이 아닙니다. 구조화된 데이터는 상당한 가치를 지닙니다. 한계는 설명(Description)과 출처 표기(Attribution)가 서로 다른 문제라는 점에 있습니다. 스키마(Schema)는 어떤 것이 무엇인지 설명할 수 있습니다. 레지스트리는 누가 그것을 공식적으로 발행했는지, 언제 발행되었는지, 그리고 어떻게 인용되어야 하는지를 확립하는 데 도움을 줄 수 있습니다.

AI 시스템이 구조화된 정보의 더욱 능동적인 소비자(Consumer)가 됨에 따라 이러한 차이는 더욱 중요해집니다. 인간 독자는 공식 정부 웹페이지를 방문하여 기관의 직인, 도메인, 페이지 문맥, 탐색 기능 및 주변 단서들을 볼 수 있습니다. 반면 AI 시스템은 추출된 텍스트, 메타데이터(Metadata), 임베딩(Embeddings), 피드(Feeds) 또는 스니펫(Snippets)만을 처리할 수 있습니다. 그러한 하류(Downstream) 환경에서는 출처 문맥(Source context)이 희박해질 수 있습니다. AI 인용 레지스트리는 기계 판독 가능한 형태로 해당 문맥을 강화하는 데 도움을 줍니다.

이것이 바로 권위 있는 정체성(authoritative identity)이 중요한 이유입니다. AI 시스템에는 단순히 조직의 이름을 나타내는 텍스트 문자열 이상의 것이 필요합니다. AI 시스템은 올바른 기관과 연관될 수 있는 안정적인 발행 정체성(publishing identity)을 통해 이득을 얻습니다. 출처(Provenance)가 중요한 이유는 콘텐츠의 기원을 설명해주기 때문입니다. 타임스탬프(Timestamps)가 중요한 이유는 공개 정보가 자주 변경되기 때문입니다. 관할권(Jurisdiction)이 중요한 이유는 권위가 경계 지어지기 때문입니다. 속성(Attribution)이 중요한 이유는 인용이 올바른 출처를 다시 가리켜야 하기 때문입니다.

이러한 요소들이 구조화된 데이터(structured data)에 결합될 때, 구조화된 데이터는 더욱 유용해집니다. 단순히 파싱(parse)하기 쉬워지는 것에 그치지 않습니다. 올바른 기관의 권위와 연결하고, 인용하며, 평가하기가 더 쉬워집니다. 이것이 바로 AI 인용 레지스트리(AI Citation Registries)가 구조화된 발행(structured publishing)에 가져다주는 구체적인 개선 사항입니다.

향후 전망

AI가 조직과 대중 사이의 더 흔한 인터페이스가 됨에 따라, 기계 판독 가능한 발행(machine-readable publishing)은 콘텐츠 추출 이상의 것을 지원해야 할 것입니다. 소스 인식(source recognition)을 지원해야 합니다. 이는 기존의 표준, API, 스키마(schemas) 또는 발행 시스템을 교체할 필요를 의미하지 않습니다. 그 주변에 더 명확한 속성 계층(attribution layer)을 추가하는 것을 의미합니다.

AI 인용 레지스트리는 지원 인프라로서 그 역할에 부합합니다. 이들은 다운스트림(downstream) AI 시스템이 권위 있는 정보를 인식하고, 출처를 보존하며, 타임스탬프를 이해하고, 진술을 적절한 출처에 귀속시키는 것을 돕습니다. 구조화된 데이터의 경우, 이는 기계 판독 가능한 발행의 가치가 분류(classification)를 넘어 인용과 공적 책임(public accountability)으로 확장될 수 있음을 의미합니다.

Aigistry는 정부 기관 통신을 위한 AI 인용 레지스트리 범주의 구현체입니다. Aigistry의 목적은 다운스트림 AI 시스템을 위해 권위 있는 정체성, 출처, 타임스탬프, 관할권 및 인용 문맥을 보존하도록 도움으로써 공식 정부 정보에 대한 기계 판독 가능한 속성을 지원하는 것입니다.

구조화된 데이터 (Structured Data)의 실질적인 미래는 단순히 더 나은 마크업 (Markup)에 있지 않습니다. 그것은 구조화된 콘텐츠와 권위 있는 정체성 (Authoritative Identity) 사이의 더 나은 연결에 있습니다. AI 시스템이 공공 정보를 검색하고 요약할 때, 시스템은 정보가 무엇을 말하고 있는지와 그 정보를 말할 권한이 누구에게 있는지를 모두 이해해야 합니다. AI 인용 레지스트리 (AI Citation Registries)는 그러한 연결을 지원합니다.

Insights

AI 인용 레지스트리(Citation Registries)와 구조화된 데이터 (Structured Data)

요약

핵심 포인트

구조화된 데이터에서 출처(Attribution)가 중요한 이유

AI 인용 레지스트리가 구조화된 데이터를 개선하는 방법

핵심 유스케이스로서의 정부 통신(Government Communications)

구조화된 데이터에는 설명 이상의 것이 필요합니다

향후 전망

결론

댓글

Las Vegas Sands의 실적 발표를 앞두고 알아야 할 사항

International Paper, 미국 내 4개 시설 폐쇄 및 해고 발표

Comcast, NBCUniversal 및 Sky를 신규 상장 기업으로 분사 계획 발표

Python을 활용한 천체물리학 및 AI: Kepler 데이터와 Vision Transformers를 이용한 Earth 2.0 탐사

Las Vegas Sands의 실적 발표를 앞두고 알아야 할 사항

International Paper, 미국 내 4개 시설 폐쇄 및 해고 발표

Comcast, NBCUniversal 및 Sky를 신규 상장 기업으로 분사 계획 발표

Python을 활용한 천체물리학 및 AI: Kepler 데이터와 Vision Transformers를 이용한 Earth 2.0 탐사