본문 바로가기
아빠방/Article

국가지식정보 메타데이터 관리 및 활용 체계 고도화 방안 연구

by 탱탱이아빠 2025. 4. 21.

서론

 

국가지식정보는 국가기관 및 공공기관이 생산·보유·관리하고 있는 과학기술, 교육학술, 문화예술, 사회경제, 행정 등에 관한 정보 중 지식의 활용 및 교육을 목적으로 국가적 이용가치가 있는 디지털화된 정보로서, 현대 지식기반 사회의 핵심 자산이다. 이러한 국가지식정보를 효과적으로 관리하고 활용하기 위해서는 메타데이터(metadata)의 체계적인 관리가 필수적이다. 메타데이터란 데이터에 대한 데이터, 즉 정보 자원의 속성과 특성을 기술하는 구조화된 데이터로, 국가지식정보의 검색, 접근, 활용을 위한 기반이 된다. 본 연구는 국가지식정보법에 따라 국가지식정보 연계 및 활용 촉진을 위해 국가지식정보 메타데이터 관리 및 활용 체계의 고도화 방안과 정책적 지원방안을 도출하여 메타데이터 품질제고를 위한 제도적 기반을 마련하고, 이를 토대로 양질의 인공지능 학습용 데이터 생산을 확대하는 것을 목적으로 한다. 특히 국정과제 11(모든 데이터가 연결되는 세계 최고의 디지털 플랫폼 정부 구현)의 일환으로, 국가적 활용·보존가치가 높고, 신뢰가능한 국가지식정보의 체계적 관리·활용을 위한 제도 개선방안 마련이 필요하다.

 

현재 과학기술정보통신부는 국가지식정보 통합플랫폼인 '디지털 집현전'20241월부터 대국민 서비스로 개시하여 101개 기관, 123개 사이트의 약 2.5억 건의 국가지식정보 메타데이터를 수집·연계하고 있다. 이는 국민 누구나 자신이 원하는 국가지식정보를 쉽고 편리하게 접근하고 자유롭게 활용할 수 있도록 하는 '디지털 집현전 프로젝트'의 일환으로, 다양한 국가기관이 보유하고 있는 지식정보의 활용을 촉진하는 법적 기반을 마련하였다는 점에서 큰 의미가 있다.

 

하지만 현재 메타데이터 관리에 있어 여러 가지 문제점이 존재한다. 기관별로 메타데이터 형식이 다르고 별도로 구축하여 검색 효율성 저하 및 예산 중복 문제가 발생하고 있으며, 연구데이터의 이해도가 분야별·부문별로 상이하여 국가 차원에서 보편적으로 합의 가능한 연구데이터의 생산·관리·활용 기준이 마련·정착되지 않고 있다. 또한 국가 차원의 연구데이터 구축·연계·활용 전략이 충분히 구체화되지 못하여 사업실행단계에서 공백이 존재한다.

 

이러한 문제점을 해결하기 위해서는 국가지식정보 메타데이터의 체계적인 관리와 활용 방안이 필요하다. 메타데이터는 데이터가 무엇이고, 무엇을 나타내는지, 어떻게 사용해야 하는지 등을 설명하는 라벨과 같은 역할을 하며, 효과적인 메타데이터 관리를 통해 데이터의 의미 부여, 개선된 데이터 거버넌스, 향상된 데이터 통합, 데이터 검색 및 검색 용이성, 데이터 분석 및 의사 결정 지원 등의 이점을 얻을 수 있다.

 

특히 공신력 있는 국가지식정보 메타데이터는 초거대 AI의 한국어 학습데이터로 활용될 뿐 아니라, 할루시네이션 보정 등 인공지능 신뢰성 확보에 도움이 되어 활용 가치가 더욱 커질 전망이다. 202411월 말 기준 누적 15건의 국가지식정보 메타데이터 활용이 이루어졌으며, 민간기업에서는 자사 인공지능 모형 학습이나 서비스 개발에 활용하는 사례도 있었다.

 

본 연구는 이러한 배경에서 국가지식정보 메타데이터의 현황을 분석하고, 효율적인 관리 및 활용 체계를 구축하기 위한 방안을 모색하고자 한다. 구체적으로는 국내외 메타데이터 관리 및 활용 사례를 조사·분석하고, 국가지식정보 메타데이터의 가치 산정, 활용 방안, 표준화 수준을 진단한다. 이를 바탕으로 메타데이터 생애주기별 관리 기준을 마련하고, 공통 메타데이터 관리 모델 및 프로토콜을 개발하며, 단계적 실행계획을 수립한다. 또한 국가지식정보 활용 촉진을 위한 정책적 지원방안을 도출하기 위해 공공, 민간 부문별 정책 참여 유도 방안과 법률, 제도적 개선사항을 제시한다.

 

현재 인공지능 기술의 급속한 발전과 함께 양질의 데이터에 대한 중요성이 점점 더 강조되고 있다. 특히 국가적 차원에서 생산·관리되는 신뢰할 수 있는 지식정보는 초거대 AI 모델의 학습 데이터로서 높은 가치를 지니며, 인공지능의 할루시네이션 문제를 해결하는 데 중요한 역할을 할 수 있다. 본 연구는 국가지식정보법에 근거하여 국가지식정보 메타데이터의 체계적 관리와 활용 촉진을 위한 고도화 방안을 제시함으로써, 국가지식정보를 인공지능 학습용 데이터로 효과적으로 활용할 수 있는 정책적 기반을 마련하고자 한다.

 

국가지식정보 메타데이터 현황분석 및 시사점 도출

 

1) 국가지식정보의 개념 및 현황

 

국가지식정보는 국가지식정보 연계 및 활용 촉진에 관한 법률에 따라 국가기관, 지자체 등이 생산·보유·관리하고 있는 지식정보 중 국가적 이용 가치가 있는 지식정보를 의미한다. 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 이러한 국가지식정보의 효율적 활용을 위해 분산되어 있는 메타데이터를 연계하여 국가지식정보를 한 곳에서 검색·활용할 수 있는 온라인 통합플랫폼인 '디지털집현전'을 구축하고 있다. 이 플랫폼은 2024년 정식 서비스를 개시할 예정이며, 2023년까지 80여개 기관, 100개 사이트로 연계 확대를 목표로 하고 있다. 현재 디지털집현전은 101개 기관, 123개 사이트의 약 2.5억 건의 국가지식정보 메타데이터를 수집·연계하고 있으며, 월평균 14,329건의 방문과 10,526건의 검색량을 기록하고 있다.

 

공신력 있는 국가지식정보 메타데이터는 초거대 AI의 한국어 학습데이터로서 중요한 역할을 하며, 특히 인공지능의 할루시네이션(인공지능이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 현상) 보정 등 인공지능 신뢰성 확보에 도움이 된다. 따라서 이러한 메타데이터의 효율적 관리와 활용은 국가 인공지능 산업 발전의 중요한 기반이 될 수 있다.

 

국가지식정보는 지정 기준에 따라 활용가치와 보존가치로 구분되며, 정보형태에 따라 디지털과 비디지털로 분류된다. 활용가치는 지식정보 생산보유관리에 공공 예산이 투입되어 지식정보의 공공 활용성이 높은 정보를 의미하며, 보존가치는 국가적으로 관리보존할 필요성이 있는 지식정보를 의미한다. 정보형태에서 디지털은 전자적 방식으로 표현되어 정보통신망을 통해 송수신이 가능한 형태를 의미하고, 비디지털은 디지털 이외의 모든 형태를 포함한다.

 

국가지식정보 통합플랫폼인 디지털집현전은 분야별로 과학, 기술, 인문, 사회, 교육, 의료, 문화 등 7개의 대분류와 76개의 중분류로 구성되어 있으며, 유형별로는 논문, 보고서, 특허, 멀티미디어, 도서, 신문·잡지, 법령, 용어, 인물 등 11개로 분류된다. 이러한 분류체계는 '과학기술표준분류', '학술연구분야분류', '한국학과분류', '한국십진분류법', '듀이십진분류법' 등 국내 유관 분류체계 기준을 종합적으로 분석·참고하여 설계되었다.

 

2) 메타데이터의 정의 및 중요성

 

국가지식정보 메타데이터 관리에 있어 전자기록물의 메타데이터 요소에 관한 연구에서도 볼 수 있듯이, 메타데이터는 기록물에 대한 신속한 접근을 제공하고, 기록물과 행위자, 처리과정 등을 연결하며, 기록물의 생산 맥락 정보를 제공하는 중요한 역할을 한다. ISO 23081-1의 메타데이터요소는 기록물에 대한 메타데이터(생산 날짜와 시간, 생산 및 연관된 사람들에 대한 확인기술 작업, 구조, 형태)와 기록물의 접근성을 지원하는 메타데이터(기록물의 집합, 위치 정보, 관계, 주제 분류, 제목, 기술 키워드, 초록 및 요약, 업무기능분류, 기록물 분류, 기록물 색인)로 구분된다. 이러한 국제 표준과의 정합성을 고려한 국가지식정보 메타데이터 관리 체계 구축이 필요하다.

 

3) 국내 메타데이터 관리 및 활용 사례 조사·분석

 

part 1. 관리 규정과 통합 방안

 

우리나라는 오랫동안 정부 부처, 공공기관, 도서관, 아카이브 등에서 각자 다양한 형식으로 지식정보를 관리해왔으나, 기관별로 메타데이터 형식과 기준이 상이하여 분산 관리되는 한계가 있었다. 2000년대 중반부터 지식정보자원의 디지털화 사업이 활발해지면서, 이들 자원의 효율적 검색·체계적 관리·상호운용성 보장을 위한 메타데이터 표준화 필요성이 크게 대두되었다. 이에 2005년 행정안전부 주관으로 각 기관 메타데이터 요소를 분석·통합한 표준 메타데이터(KIX: Knowledge and Information resource eXchange)를 개발하고 메타데이터 레지스트리 및 OAI 연계 모델을 연구하는 등 초기 표준화 노력이 추진되었다. 그러나 당시에는 권고 수준에 그쳐 기관별 메타데이터 구조의 편차가 지속되었고, 메타데이터 품질 역시 일부 필드의 미기재, 불일치 등 완성도 문제가 산재해 있었다. 국가지식정보법 제정(2021)과 함께 범정부 차원의 메타데이터 통합 관리가 본격화되면서 이러한 상황에 전환점이 마련되었다. 동 법률은 국가지식정보의 지정·연계·활용을 법제화하여 기관들이 표준화된 메타데이터 제공에 협력하도록 근거를 마련했고, 국가지식정보위원회 및 관계기관 협의를 통해 우수 지식정보를 지속 발굴·지정하고 있다. 앞서 언급한 통합플랫폼 디지털집현전은 현재 국내 최대 규모의 메타데이터 허브로 기능하며, 각 기관들이 보유한 메타데이터를 오픈 APIOAI-PMH 등의 방식으로 수집하여 공통 형식으로 변환·연계하고 있다. 예를 들어 과학기술분야는 KISTIScienceON, 대학연구는 KERISSRISS, 문화분야는 문화포털, 교육분야는 EBS 등에서 메타데이터를 수집하여 통합하고 있으며, AI를 활용한 자동분류를 거쳐 일관된 분류체계 하에 재조직되고 있다. 1은 국가지식정보 메타데이터 통합 현황을 요약한 것이다.

 

Part 2 : 개별 관리 현황

 

국내 메타데이터 관리 현황은 주로 공공 부문을 중심으로 발전해왔으며, 다양한 기관에서 각자의 목적과 필요에 맞게 메타데이터 체계를 구축하고 있다. 한국과학기술정보연구원(KISTI)'국가 연구데이터플랫폼'을 구축하여 연구데이터의 메타데이터를 관리하고 있다. 이 플랫폼의 메타데이터 표준 스키마는 범용적 연구데이터 기술을 위해 수집된 국내 표준 메타데이터인 TTA 표준을 중심으로 국내외 연계 대상기관의 메타데이터 스키마, OpenAIRE의 메타데이터 스키마 등을 비교 분석하여 설계되었다. TTA 표준은 한국정보통신기술협회에서 정의한 정보통신단체표준으로, 메타데이터 프로젝트그룹(PG606)에 제안되고, 소프트웨어/콘텐츠 기술위원회(TC6)에서 심의를 통과하여 20173월에 승인되었다. 이는 연구과제 수행 도중 생산된 연구데이터를 메타데이터 기반으로 효과적으로 관리, 공유 및 재활용함으로써 연구자와 기관의 자산인 데이터를 보존하고 데이터의 재활용을 통해 연구의 생산성을 높이는 것을 목표로 한다.

 

국가지식정보 통합플랫폼인 '디지털 집현전'101개 기관, 123개 사이트의 약 2.5억 건의 국가지식정보 메타데이터를 수집·연계하고 있으며, 이를 통해 국민들이 일반공공행정, 사회문제, 인공지능·컴퓨팅 등 다양한 분야의 정보를 검색할 수 있도록 하고 있다. 과학기술정보통신부는 국가지식정보의 유용성을 강화하기 위해 국가지식정보의 메타데이터 관리 가이드라인을 마련하고 중장기적으로는 필수 메타데이터의 국가 표준화도 추진할 계획이다.

 

한국정보문화진흥원(KADO)은 국가지식포털을 통해 1300여개 하부 기관 및 민간 기업으로부터 제공받은 국가 지식 검색 서비스를 실시하고 있다. 그러나 메타데이터 형식이 다르고 기관별로 메타데이터를 별도로 구축하고 있어 검색 효율성 저하 및 예산 중복 문제를 초래하고 있다. 이에 KADO는 국가 지식에 대한 메타데이터 통합 레지스트리를 구축하고 각 기관별로 메타데이터를 등록받아 관리할 계획을 세운 바 있다. 메타데이터 레지스트리가 구축되면 각 분야별 메타데이터 현황 및 표준 구조 등을 공개함으로써 기관들이 언제든 이용할 수 있도록 하고, 현재 특화된 메타데이터를 수집, 관리하는데 드는 비용을 50% 가량 줄임으로써 예산 절감 효과도 기대할 수 있다.

 

한국지능정보사회진흥원(NIA)202310월 국가지식정보 민간 활용 활성화를 위한 '메타데이터 개방 설명회 및 간담회'를 개최하여 국가지식정보 메타데이터 개방 절차와 활용 방안을 소개하고, AI 기업 등 수요기업의 애로사항 청취와 협력 방안을 모색하는 등의 활동을 진행하고 있으며, 인공지능 학습에 활용할 데이터 및 빅데이터의 구축과 제공, 안전한 데이터 활용을 지원하기 위한 데이터 인프라와 전문기술을 지원하고 있다. NIA는 지능정보화기본법 및 데이터 산업법에 따른 국가 데이터 정책을 지원하며 지능정보화기본법에 따른 '데이터 통합지원센터' 기능을 수행하고 있다. 또한 2017년부터 600종 이상의 학습용 데이터를 AI-Hub를 통해 개방하고 있으며, 2024년부터는 초거대AI 및 생성형AI 구축에 필요한 대규모 언어데이터를 구축하고 있다.

 

과학기술정보통신부는 202312월 제3회 국가지식정보위원회를 개최하고 '1차 국가지식정보 연계 및 활용 촉진 기본계획', '2차 국가지식정보 지정', '국가지식정보 통합플랫폼 구축 현황 및 운영 계획' 3개 안건을 심의·의결했다. 국가지식정보 기본계획은 '디지털 심화 시대, 새로운 가치를 창출하는 지식정보 선순환 생태계'를 비전으로 양질의 국가지식정보 생산 및 전면 개방 모든 국민의 보편적 지식활동 지원 민간 주도의 산업 활성화 촉진 등 3대 중점전략을 마련했다.

 

이러한 계획에 따라 과기정통부는 법령 개정을 통해 국가지식정보를 원칙적으로 전면 개방하도록 하고, 디지털 변환이 필요한 아날로그 지식정보의 디지털 전환을 지원하며, 체계적인 지식정보 관리를 위해 국가지식정보 분류체계와 필수 메타데이터의 국가 표준화를 추진하고 있다. 또한 구글·네이버 등 민간 검색엔진에서 국가지식정보를 쉽게 찾을 수 있도록 통합플랫폼에 검색엔진최적화를 적용하고, 다양한 포털을 통해 국가지식정보 콘텐츠를 제공하는 등 민간 분야와의 연계·협력을 추진하고 있다.

 

4) 해외 메타데이터 관리 및 활용 사례 조사·분석

 

해외의 경우 메타데이터 관리 및 활용에 있어 더 선진적인 체계를 갖추고 있다. 대표적으로 프랑스 국립방송아카이브 이나(INA)AI로 추출된 미디어 분석 데이터를 일반 대중이 접근할 수 있도록 하는 프로젝트를 2023년부터 추진하고 있다. 지금까지 이나의 자료를 이용하기 위해서는 법적 기탁 제한으로 인해 인증된 연구자들만 국립도서관 열람실 등에서 제한적으로 접근할 수 있었으나, 본 프로젝트를 통해 카탈로그 등 콘텐츠 관리 담당자들이 메타데이터의 수집 및 큐레이션을 관리하여 처음으로 콘텐츠 검색이 가능해졌다. 메타데이터는 다양한 AI 기술을 통해 생성된 데이터와 통합되어 데이터베이스에 추가되며, 이를 통해 의무제출제도에 의해 수집된 텔레비전 및 라디오 국가기록물에 대한 대중의 접근 기회를 확대할 수 있게 되었다.

또한, 벨기에 플랑드르 공공영상아카이브 미무(Meemoo)"공유된 인공지능(Shared AI)" 프로젝트를 통해 메타데이터 관리를 혁신하고 있다.

 

국가 메타데이터 관리 체계 및 특성 표준화 수준 활용사례
미국 Data.gov를 통해 연방기관 데이터세트 메타데이터를 통합 제공 (Project Open Data 스키마 적용 DCAT-US 기반). 과학정보는 Science.gov에서 13개 기관 연구성과 메타데이터 통합 검색 제공. ★★★☆ (연방 차원 공통 스키마 준수 의무화) 연방 데이터 카탈로그 구축, 민간 활용 (: 기상·인구 데이터 앱 개발)
영국 data.gov.uk 오픈데이터 포털 운영 표준 DCAT 메타데이터 적용 및 품질 모니터링. 국가 아카이브 등에서 정부 출판물 메타데이터 관리 (UK Gov Metadata Standard). ★★★☆ (중앙 지침 및 EU DCAT-AP 준수) 데이터셋 재활용 사례 다수 (교통정보 앱 등), 정부 기록 공개
일본 과학기술정보 AGRIKnowledge, CiNii 등 분야별 학술 메타데이터 통합 서비스. 국립국회도서관(NDL)에서 각 기관 출판물 메타데이터 통합 검색 (NDL Search). ★★☆☆ (분야별 상이, Dublin Core 기반 통합 시도) 연구논문·박사논문 검색, 민간 연구서비스 활용
EU 유럽연합 오픈데이터 포털(data.europa.eu)로 회원국 데이터 카탈로그 메타데이터 수집 DCAT-AP표준 프로파일 사용으로 상호운용성 확보. Europeana 등을 통해 유럽 디지털 유산(문화자원) 메타데이터 통합. ★★★★ (EU 공통표준 DCAT-AP EDM 등 체계적 적용) EU 데이터세트 공동활용 (: 범유럽 교통정보), 문화콘텐츠 공동검색

. 주요국의 공공 지식정보 메타데이터 관리 사례 비교

 

위 비교에서 알 수 있듯, 국가 차원의 메타데이터 표준화는 글로벌 추세이며 특히 DCAT(Data Catalog Vocabulary)더블린 코어(Dublin Core)”와 같은 국제 표준을 활용한 공통 메타데이터 프로파일 적용이 보편화되고 있다. 미국과 영국의 경우 국가 오픈데이터 포털에서 모든 기관이 공통 메타데이터 스키마를 준수하도록 정책화하여, 데이터 간 연계성과 검색 용이성을 높이고 있다. EU 역시 회원국별 분산된 데이터 카탈로그를 DCAT-AP 표준으로 묶어 메타데이터 브로커(중계) 역할을 수행함으로써 국경 간 데이터 활용을 증진하였다. 이러한 표준화 노력의 결과로, 데이터 포털의 메타데이터 품질 지표(완전성, 최신성 등) 또한 꾸준히 향상되고 있으며, 유럽 오픈데이터 성숙도 평가에서도 메타데이터 품질 관리 체계가 주요 지표로 자리잡고 있다. 한편 일본의 경우 우리와 유사하게 기관별 분산이 비교적 큰 편이나, 학술정보나 문화자원 분야별로 메타데이터 공유 플랫폼을 운영하여 부분적인 통합을 이루고 있다. 이들 국가는 공통적으로 메타데이터를 공개 API로 제공하고 민간이 이를 재사용하여 새로운 서비스 (, 웹서비스 등)를 개발하도록 장려하고 있다는 점에서 시사점을 준다.

 

5) 국가지식정보 메타데이터 현황 분석

 

국내외 관리 사례 비교 (KISTI 연구데이터 플랫폼 성과분석(2024), 과학기술분야 정부출연연구기관 연구데이터 관리 방안 연구)

국가 관리 모델 표준화 수준(2024) 민간 활용률
한국 분산관리형 TTA 3.2(5점 만점) 18%
EU 통합관리형 DCAT-AP 4.1 67%
미국 하이브리드형 Schema.org 4.5 82%

 

국내 메타데이터 품질 저하 요인 분석 결과, 42%가 분류체계 불일치, 33%가 필수 항목 누락, 25%가 갱신 주기 미준수로 나타남(출처 5). 특히 인공지능 학습에 필요한 시맨틱 태그 부재가 주요 문제점으로 도출되었다.

 

6) 시사점

 

국내외 메타데이터 관리 및 활용 사례를 종합적으로 분석한 결과, 국가지식정보 메타데이터의 체계적 관리와 활용이 중요한 정책적 과제로 인식되고 있음을 알 수 있다. 특히 AI 학습용 데이터로서의 국가지식정보 메타데이터의 활용 가능성과 중요성이 강조되고 있음을 알 수 있으며, 다음과 같은 시사점을 도출할 수 있다.

 

첫째, 메타데이터의 표준화 및 통합 관리가 중요하다. 기관별로 다른 메타데이터 형식과 분류체계는 검색 효율성을 저하시키고 예산 중복을 초래하므로, 국가 차원의 메타데이터 표준화 및 통합 관리 체계 구축이 필요하다.

 

둘째, 메타데이터의 품질 관리가 중요하다. 양질의 메타데이터는 검색 정확도를 높이고 활용성을 증대시키므로, 메타데이터 품질 관리를 위한 가이드라인 및 표준화가 필요하다.

 

셋째, 인공지능 기술을 활용한 메타데이터 관리 및 생성이 증가하고 있다. AI 기술을 활용하여 메타데이터를 자동으로 생성하고 관리하는 방식이 확산되고 있으므로, 이에 대한 적극적인 도입 및 활용 방안 모색이 필요하다.

 

넷째, 메타데이터의 개방 및 공유가 중요하다. 메타데이터를 개방하고 공유함으로써 다양한 분야에서의 활용을 촉진하고, 특히 인공지능 학습용 데이터로서의 가치를 높일 수 있다.

 

 

국가지식정보 메타데이터 가치, 활용 방안, 표준화 수준

 

1) 국가지식정보 메타데이터의 가치

 

메타데이터의 가치는 단순한 보조정보 차원을 넘어, 데이터 활용 극대화의 열쇠로 평가된다. 높은 품질의 메타데이터는 해당 데이터/정보자원의 **발견 가능성(discoverability)**을 높이고, 맥락과 신뢰성을 부여하여 **재사용(reuse)**을 촉진한다. 예를 들어 데이터에 적절한 키워드, 주제분야, 저자 정보 등이 부여되어 있으면 연구자나 국민들이 그 정보를 찾아 활용할 가능성이 크게 증가하며, 이는 데이터 기반 의사결정이나 신규 서비스 창출로 이어진다. 반대로 부실한 메타데이터는 필요한 정보가 사장되거나 잘못 이해되는 원인이 되어 활용 저해를 초래한다. 이에 따라 국제적으로 메타데이터의 품질을 정량·정성 평가하는 연구가 축적되고 있다. 일반적으로 메타데이터 품질 평가는 완전성(completeness), 정확성(accuracy), 일관성(consistency), 최신성(timeliness), 준거성(conformity) 등의 지표를 사용하며, 각 지표에서 일정 수준 이상을 충족해야 활용적합한(high-quality) 메타데이터로 간주된다. 이러한 기준으로 볼 때, 우리나라 국가지식정보 메타데이터는 양적 규모에서는 세계 선도 수준이지만, 질적 수준에서는 향후 개선 여지가 있다. 초기 통합 단계인 현재, 일부 필드 누락이나 철자/형식 불일치 등 오류 사례가 확인되고 있으며, 기관마다 메타데이터 작성의 정밀도 편차도 존재한다. 다만 국가지식정보 통합사업을 계기로 기관 간 메타데이터 표준 준수율이 높아지고 있고, 데이터 품질점검 체계가 가동되면서 점차 개선 추이를 보이고 있다. 향후 2~3년 내 메타데이터 품질 진단을 정례화하여, 각 기관별 메타데이터 완비율(필수요소 기입률), 오류 수정건수, 업데이트 주기 등을 계량지표로 관리하면 표준화 수준을 한층 높일 수 있을 것으로 보인다.

 

국가지식정보 메타데이터의 다양한 측면에서의 가치는 아래와 같다.

 

첫째, 정보 접근성 및 검색 효율성 측면에서 메타데이터는 국가지식정보에 대한 접근성을 높이고 검색 효율성을 향상시킨다. 국가지식정보 통합플랫폼인 '디지털 집현전'을 통해 국민들은 다양한 분야의 국가지식정보를 쉽게 검색하고 활용할 수 있게 되었으며, 이는 메타데이터의 체계적인 관리와 연계가 있었기에 가능했다.

 

둘째, 데이터 통합 및 상호운용성 측면에서 메타데이터는 다양한 기관과 시스템 간의, 또는 다양한 분야의 데이터 간 상호운용성을 촉진한다. 서로 다른 시스템과 포맷에서 생성된 데이터들이 메타데이터를 통해 통합되고 연계됨으로써, 보다 포괄적이고 유용한 정보 제공이 가능해진다.

 

셋째, 인공지능 학습 및 신뢰성 측면에서 공신력 있는 국가지식정보 메타데이터는 초거대 AI의 한국어 학습데이터로 활용될 뿐 아니라, 할루시네이션 보정 등 인공지능 신뢰성 확보에 도움이 된다. 202411월 말 기준 누적 15건의 국가지식정보 메타데이터 활용이 이루어졌으며, 민간기업에서는 자사 인공지능 모형 학습이나 서비스 개발에 활용하는 사례도 있었다.

 

넷째, 데이터 품질 및 거버넌스 측면에서 메타데이터는 데이터의 출처, 생성 시기, 품질 등에 대한 정보를 제공함으로써 데이터 품질 관리와 거버넌스를 지원한다. 포괄적인 메타데이터 문서를 제공함으로써 조직은 명확한 데이터 거버넌스 정책을 수립하고 데이터 품질, 보안 및 규정 요구 사항 준수를 보장할 수 있다.

 

2) 활용방안

 

초거대 AI 학습 데이터로 활용

공신력 있는 국가지식정보 메타데이터는 초거대 AI의 한국어 학습데이터로 활용될 수 있으며, 특히 할루시네이션 보정 등 인공지능 신뢰성 확보에 도움이 된다. 과학기술정보통신부는 인공지능 보편화 시대를 맞이해 디지털집현전의 국가지식정보 메타데이터를 학습한 거대언어모델을 구축해 자연어 기반 대화형 검색 서비스를 2025년에 제공할 계획이다.

 

통합 검색 및 정보 접근성 향상

국가지식정보 통합플랫폼인 '디지털 집현전'을 통해 국민들은 다양한 분야의 국가지식정보를 한 곳에서 검색하고 활용할 수 있게 되었다. 또한 구글·네이버 등 민간 검색엔진에서 국가지식정보를 쉽게 찾을 수 있도록 통합플랫폼에 검색엔진최적화를 적용하고, 다양한 포털을 통해 국가지식정보 콘텐츠를 제공하는 등 민간 분야와도 연계·협력해 나갈 예정이다.

 

개인 맞춤형 서비스 제공

AI 기반의 사용자 분석을 통해 맞춤형 지식정보 추천서비스를 고도화하고, 청소년, 대학생, 직장인, 고령층 등 이용자 맞춤형 서비스와 자료를 기획할 계획이다. 넷째, 새로운 지식서비스 산업 창출이다. 국가지식정보의 공유·확산을 통해 새로운 지식서비스 산업이 창출될 것으로 기대된다. 민간이 보유한 우수한 지식정보의 연계와 더불어 민간 보유 기술력 결합으로 지식정보의 부가가치를 창출할 계획이다.

 

그러나 국가지식정보 메타데이터의 표준화 수준은 아직 미흡한 상태이다. 현재 국내에 산재한 공공기관이나 민간기업의 메타데이터 형식은 물론 분류체계 등도 다 제각각이어서 가치있는 지식정보로서 100% 활용 못하는 실정이다. 연구데이터에 대한 이해도가 분야별·부문별로 상이하여 국가 차원에서 보편적으로 합의 가능한 연구데이터의 생산·관리·활용 기준이 마련·정착되지 않고 있다. 이에 과학기술정보통신부는 국가지식정보의 유용성을 강화하기 위해 국가지식정보의 메타데이터 관리 가이드라인을 마련하고 중장기적으로는 필수 메타데이터의 국가 표준화도 추진할 계획이다. 또한 체계적인 지식정보 관리를 위해 국가지식정보 분류체계와 필수 메타데이터의 국가 표준화를 추진할 예정이다.

 

현재 국내 메타데이터 표준 중 연구데이터 분야에서는 TTA 표준이 대표적이다. TTA 표준은 한국정보통신기술협회에서 정의한 정보통신단체표준으로, 연구과제 수행 도중 생산된 연구데이터를 메타데이터 기반으로 효과적으로 관리, 공유 및 재활용함으로써 연구자와 기관의 자산인 데이터를 보존하고 데이터의 재활용을 통해 연구의 생산성을 높이는 것을 목표로 한다. 또한 국가연구데이터플랫폼에서는 연구 과제를 수행하며 생산되는 연구데이터들을 효율적으로 관리, 공유 및 활용할 수 있도록 표준 메타데이터의 데이터 모델을 제시하고 있다. 이 모델에서는 연구데이터 관리와 리포지터리 관리를 위해 필수적으로 기술되어야 할 메타데이터 요소를 컬렉션 메타데이터, 데이터셋 메타데이터, 파일 메타데이터, 리포지터리 메타데이터로 나누어 정의하고 있다.

 

이러한 현황을 종합적으로 분석한 결과, 국가지식정보 메타데이터의 표준화 수준을 높이기 위해서는 다음과 같은 개선이 필요하다.

 

첫째, 국가 차원의 메타데이터 표준 개발 및 적용이 필요하다. 현재 분야별, 기관별로 상이한 메타데이터 형식과 체계를 통합하고 표준화하기 위한 국가 차원의 노력이 필요하다.

 

둘째, 메타데이터 관리 가이드라인 및 품질 관리 체계 구축이 필요하다. 메타데이터의 품질을 높이기 위한 가이드라인과 품질 관리 체계를 구축하여 일관성 있고 정확한 메타데이터 생성 및 관리가 이루어져야 한다.

 

셋째, 메타데이터 자동 생성 및 관리 기술 개발이 필요하다. 인공지능 등 첨단 기술을 활용하여 메타데이터를 자동으로 생성하고 관리할 수 있는 기술 개발이 필요하다.

 

넷째, 메타데이터 거버넌스 체계 구축이 필요하다. 메타데이터의 생애주기 전반에 걸친 관리와 거버넌스 체계를 구축하여 체계적이고 효율적인 메타데이터 관리가 이루어져야 한다.

 

현재 국가지식정보 메타데이터 관리 및 활용을 저해하는 문제점

 

메타데이터 품질 문제: 기관마다 상이한 메타데이터 관리 체계로 인해 통합 플랫폼에서의 메타데이터 품질이 균일하지 않음

메타데이터 표준화 미흡: 국가지식정보 메타데이터의 표준화가 미흡하여 효율적인 검색과 활용에 제약이 있음

원문 접근성 제약: 메타데이터는 제공되지만 원문에 대한 접근이 제한되는 경우가 많아 활용 가치가 제한됨

메타데이터 갱신 체계 미흡: 최신 정보로의 메타데이터 갱신 체계가 미흡하여 정보의 최신성 확보에 어려움이 있음

민간 활용을 위한 지원 체계 부족: 민간에서 메타데이터를 활용하기 위한 구체적인 지원 체계가 부족함

 

국가지식정보 메타데이터 현황분석을 통한 시사점

 

메타데이터 표준화 필요성: 국가지식정보 메타데이터의 일관성 있는 관리와 활용을 위해 메타데이터 표준화가 필요함

생애주기별 관리 체계 구축: 메타데이터의 생성부터 폐기까지 전 생애주기에 걸친 체계적인 관리 체계 구축이 필요함

-관 협력 강화: 국가지식정보 메타데이터의 활용성 제고를 위해 민간 부문과의 협력 강화가 중요함

AI 학습용 데이터로서의 활용성 강화: 초거대 AI 시대에 대응하여 국가지식정보 메타데이터의 AI 학습용 데이터로서의 활용성 강화 방안 모색이 필요함

국제 표준과의 정합성 확보: 국제 표준과의 정합성을 고려한 메타데이터 관리 체계 구축이 필요함

이러한 시사점을 바탕으로 국가지식정보 메타데이터 관리체계 고도화 방안과 활용 촉진을 위한 정책적 지원방안을 도출할 필요가 있다.

 

 

국가지식정보 메타데이터 관리체계 고도화 방안 수립

 

1) 메타데이터 생애주기별 관리 기준 마련

 

국가지식정보 메타데이터의 효율적 관리를 위해서는 생애주기별 관리 기준을 마련하는 것이 중요하다. 메타데이터의 생애주기는 크게 생성, 수집, 연계, 활용, 갱신, 폐기 단계로 구분할 수 있으며, 각 단계별로 다음과 같은 관리 기준이 필요하다:

 

생성 단계: 메타데이터 작성 및 품질확보

메타데이터 생성 단계는 지식정보를 생산하는 기관이나 담당자가 해당 자원의 메타데이터를 처음 작성하는 과정이다. 이 단계에서의 최우선 과제는 표준화된 형식에 따라 필수 요소를 빠짐없이 기입하고, 내용의 정확성과 일관성을 확보하는 것이다. 구체적인 기준 수립 방안은 다음과 같다.

 

- 공통 메타데이터 항목 정의 및 적용: 국가지식정보 대상 자원의 유형별로 반드시 포함해야 할 메타데이터 항목(: 제목, 책임저자/기관, 발행연도, 초록, 키워드, 분류, 식별자 등)을 국가 표준으로 정의하고, 모든 기관이 신규 지식정보 생성 시 이 표준항목을 작성하도록 의무화한다. 예컨대 보고서나 논문 형태 자원은 Dublin Core 기반의 15개 핵심 요소를 포함하고, 동영상이나 이미지의 경우 추가적으로 형식/길이 등의 속성을 포함하는 식이다. 이 표준 리스트는 국가지식정보위원회 산하 전문가 그룹을 통해 주기적으로 검토·갱신하여 최신 요구사항을 반영한다.

 

- 메타데이터 작성 지침서 및 교육: 각 기관별로 메타데이터 작성 담당자가 참고할 수 있는 상세 지침을 배포한다. 지침에는 각 필드의 기술 방법(: 날짜 형식 통일, 이름 표기 규칙, 초록 작성 요령 등)과 품질 체크리스트가 포함되어야 한다. 또한 정기적으로 담당자 대상 교육이나 워크숍을 개최하여 표준의 중요성을 인식시키고 우수 사례를 공유한다.

 

- 식별체계 및 연계정보 부여: 생성 단계에서부터 자원에 "고유식별자(: DOI, ISBN, URI )"를 할당하고, 관련된 다른 자원과의 관계(메타데이터 내 참조 링크 등)를 명시하도록 한다. 예를 들어 학술보고서라면 연구과제번호, 원문 URL 등을 함께 기입하여 이후 연계 단계에서 다양한 접근 경로를 제공할 수 있게 한다. 또한 저자식별자(ORCID ) 활용을 권장하여 인명 정보의 정확성과 연결성을 높인다.

 

- 품질 검수 프로세스: 메타데이터 입력 직후 자체 검수를 거치도록 절차화한다. 예컨대 기관 내 품질담당자가 신규 메타데이터의 필수 필드 누락 여부, 오탈자 여부 등을 검토·승인해야 다음 단계로 넘어가도록 시스템화한다. 자동화 도구를 통해 문법 오류나 형식 불일치를 점검하는 것도 효과적이다.

 

생성 단계의 이러한 관리 기준을 통해 처음부터 올바른 메타데이터가 생성되도록 하면 이후 단계에서의 추가 보정 작업을 최소화하고, 전반적인 품질 수준을 높일 수 있다.

 

수집 단계: 메타데이터 취합 및 통합 관리

메타데이터 수집 단계는 각 기관에서 생산한 메타데이터를 중앙 통합시스템(디지털집현전 등)으로 모으는 과정이다. 이 단계에서는 이기종 시스템 간 연계와 통합 저장소 관리가 핵심 이슈이다. 다음과 같은 기준을 수립한다.

 

- 수집 프로토콜 및 주기 설정: 기관들의 여건에 맞춰 적절한 연계 방식을 채택한다. 지원 가능한 경우에는 OAI-PMH나 기관별 Open API를 통해 "정기 수집(: 매일/매주)"하고, 그렇지 않으면 Agent 설치나 웹크롤링 등 대안을 활용한다. 수집 주기는 정보 갱신 빈도에 따라 다르게 적용하되, 최소 분기별 1회 이상은 모든 연결 기관의 메타데이터를 동기화한다. 또한 신규 국가지식정보로 지정된 자원이 있을 경우 즉시 수집을 트리거하여 신속히 반영하도록 한다.

 

- 통합 메타데이터 저장소(MDR) 운영: 중앙에 메타데이터 메모리 데이터베이스 또는 "레지스트리(Metadata Registry)"를 구축하여, 수집된 모든 메타데이터를 일관된 구조로 저장·관리한다. 이때 각 메타데이터 항목의 출처 기관, 갱신 일자 등의 이력을 함께 기록하여 추후 변경 관리에 대비한다. 메타데이터 레지스트리는 ISO/IEC 11179 표준에 부합하도록 설계하여 메타데이터 요소의 정의와 사용현황을 메타데이터로서 관리하도록 한다.

매핑 및 정규화(Normalization): 수집된 메타데이터가 기관마다 스키마나 값 표기가 다를 수 있으므로, 이를 표준 메타데이터 스키마로 자동 매핑·변환하는 과정을 수행한다. 예를 들어 한글/영문 필드명이 섞여 있다면 표준 필드명으로 변경하고, 날짜 표기 (“YYYY-MM-DD” )나 주제분류 체계도 통일한다. 이 때 완벽히 일치하지 않는 값은 사전 정의된 룰에 따라 변환하거나, 애매할 경우 수작업 보정을 대기열에 올려 처리한다.

중복 및 충돌 해소: 수집된 메타데이터 중 "중복 항목(동일 자원의 중복 기록)"이 발견될 경우 식별자나 제목 등을 기준으로 병합하거나 대표본을 선정한다. 또한 서로 다른 기관에서 동일 자원에 대해 메타데이터를 제출했을 때 발생하는 "충돌(: 제목 표기가 다름)"은 신뢰도 규칙(국가기관 > 지자체 > 기타 순위 등)에 따라 하나로 통일하되, 이력은 남겨 추후 검증할 수 있도록 한다.

 

- 품질 모니터링 및 피드백: 통합 저장소에 집적된 메타데이터를 대상으로 품질 대시보드를 운영하여 오류나 불일치 사례를 모니터링한다. 예컨대 필수값 누락률, 메타데이터 항목 간 모순 여부 등을 자동으로 점검하고, 문제가 발견되면 해당 제공 기관에 통보하여 수정하도록 한다. 이를 위해 기관별 피드백 채널을 마련하고 협력 체계를 구축한다. 이 단계에서의 지속적 품질관리로 생성 단계에서 놓쳤던 부분도 보완할 수 있다.

 

요약하면, 수집 단계에서는 안정적인 메타데이터 흡수와 중앙 관리에 초점을 맞추며, 가능한 한 자동화된 도구와 표준 절차를 통해 통합DB의 일관성을 유지하는 것이 중요하다.

 

연계 단계: 메타데이터 연계·표준화 및 융합 활용

메타데이터 연계 단계는 수집된 메타데이터를 서로 연결짓고, 다른 데이터자원이나 시스템과 연합하여 더 큰 가치의 정보를 만들어내는 과정이다. 이는 단순한 수집을 넘어 지식그래프를 형성하고, 상호운용성을 확보하는 심화 단계라 할 수 있다. 이 단계의 관리 기준은 다음과 같다.

 

- 공통 분류체계 및 어휘 적용: 서로 다른 출처의 메타데이터를 연계하려면 범용적인 "분류체계(taxonomy)""통제 어휘(controlled vocabulary)"의 도입이 필요하다. 국가지식정보 전체를 아우르는 주제 분류표(과학, 기술, 인문, 사회, 교육, 문화 등 대분류 및 중분류)를 설계하여 모든 자원에 해당 분류 값을 부여하거나 매핑한다. 또한 인물, 지명, 기관명 등은 공식 목록이나 시소러스를 참조하여 표준화된 명칭으로 통일한다. 이를 통해 유사 주제나 동일 인물에 대한 자원들을 서로 묶어줄 수 있다.

 

- 시멘틱 웹/지식그래프 기술 활용: 메타데이터 연계를 극대화하기 위해 RDF(Resource Description Framework) 기반으로 데이터를 표현하고, 링크드 데이터(Linked Data) 기법을 활용한다. 예를 들어 각 자원을 URI로 식별하고 <자원A> <관계> <자원B>의 삼중형(triple)으로 연결 정보를 표현함으로써, 모든 자원 간 관계망(knowledge graph)을 형성한다. 이렇게 구축된 그래프는 SPARQL 쿼리를 통해 복합 검색이나 추론 서비스를 제공하는 데 활용할 수 있다. 해외의 Europeana, 데이터허브 등이 이러한 시멘틱 기술을 통해 다차원적인 정보 연계를 구현한 바 있다.

 

- 외부 데이터와의 연계: 국가지식정보 메타데이터와 국내외 다른 데이터셋(: 공공데이터 포털의 데이터, 위키데이터, 국제 DOI 시스템 등)을 연계하여 활용 가치를 높인다. 예를 들어 연구보고서 메타데이터에 해당 연구의 데이터셋 DOI나 관련 논문의 DOI를 연결하거나, 인물정보를 위키데이터의 해당 인물 항목과 연결하면 부가정보를 자동 취득할 수 있다. 이러한 크로스 링크는 최대한 자동으로 생성하되, 정확도를 높이기 위해 초기에는 중요 연계만 선별적으로 실시하고 점진적으로 확대한다.

 

- API 및 서비스 표준화: 연계된 메타데이터를 개방하고 공유하기 위한 서비스 API 규격을 표준화한다. 개발자나 외부 시스템이 국가지식정보 메타데이터에 접근하여 검색·질의할 수 있도록 RESTful APIOAI-PMH, SPARQL 엔드포인트 등을 제공하고, 이에 대한 기술 규격을 공개한다. 이때 응답 형식은 JSON-LD, XML 등 표준 포맷을 지원하여 범용성을 높인다. 또한 민간에서 메타데이터를 재활용할 때 라이선스 문제가 없도록 메타데이터 자체에는 CC0와 같은 공개 라이선스를 적용하거나 법령으로 비저작물로 명시하여 자유 이용을 허용한다.

 

- 메타데이터 갱신 및 동기화: 연계 후에도 원천 데이터의 변경(수정·삭제 등)이 발생하면 메타데이터를 신속히 갱신하여 정합성 유지가 중요하다. 이를 위해 각 기관과 연계 정보동기화 프로토콜을 설정하여 변경 발생 시 통보를 받거나 주기적 검증을 통해 삭제된 자원에 대한 메타데이터를 비활성화하는 등 동기화 관리 절차를 운용한다. OECD 국가들의 오픈데이터 관리에서도 데이터셋 갱신 시 이전 버전을 일정 기간 유지하며 변경내역을 메타데이터에 기록하는 등 엄격한 버전 관리를 하고 있는데, 우리도 이와 유사하게 메타데이터 수준에서 변화 이력을 관리해야 한다.

 

연계 단계의 체계적 관리로, 단순한 메타데이터 모음이 풍부한 지식망으로 거듭날 수 있다. 이는 궁극적으로 사용자가 단편 정보가 아니라 맥락과 연결이 살아있는 지식을 얻도록 해주며, AI 등 기계가 데이터를 이해하고 활용하는 데에도 큰 도움이 된다.

 

활용 단계: 메타데이터 개방 및 서비스 활용 촉진

메타데이터 활용 단계는 최종적으로 통합·연계된 메타데이터를 일반 국민, 연구자, 기업, AI 시스템 등이 자유롭게 활용하여 가치 창출을 이루는 단계이다. 이 단계에서는 접근성과 유용성을 높이는 관리 방안이 중점이 된다.

 

- 대국민 검색·조회 서비스 강화: 현재 운영 중인 디지털집현전과 같은 통합검색 포털을 지속 개선하여 사용자들이 편리하게 국가지식정보를 찾고 활용하도록 한다. UI/UX를 개선하고, 개인화 추천 기능을 고도화하며, 검색 결과에 원문 링크나 인용정보 등을 풍부하게 제공한다. 또한 모바일 앱, 음성검색, 챗봇 등의 다양한 인터페이스를 지원하여 접근성을 높인다. 정보취약계층을 위해 수어 서비스나 낭독 서비스도 확대 적용하여 디지털 격차 해소에 기여한다.

 

- AI 활용 지원 및 데이터세트 제공: 국가지식정보 메타데이터를 활용한 AI 학습데이터 세트를 구축하여 공개한다. 예를 들어 방대한 보고서/논문 초록 메타데이터를 모아 텍스트 분석용 말뭉치로 제공하거나, 분류체계가 부여된 메타데이터를 활용해 자동분류 모델 학습데이터로 제공할 수 있다. 실제로 NIA2023년 메타데이터 개방을 통해 생성형 AI의 학습 및 평가용 데이터세트를 공개하였는데, 이처럼 필요한 분야별로 가공된 데이터셋을 추가로 만들어나간다. 또한 메타데이터를 활용한 지식그래프 API 등을 제공하여 AI가 질의응답이나 추론에 활용할 수 있도록 지원한다.

- 민간 재이용 촉진 및 협업: 민간 기업이나 기관이 국가지식정보 메타데이터를 활용해 새로운 서비스를 개발하도록 오픈이노베이션 전략을 전개한다. 예를 들어 해커톤이나 공모전을 개최하여 메타데이터 활용 아이디어를 모집하고, 우수 서비스에 대해 포상이나 창업 연계를 지원한다. 또한 메타데이터를 활용하는 민간 개발자 커뮤니티를 형성하여 기술 지원, Q&A, 활용 사례 공유를 장려한다. 필요 시 API 사용량이 많은 기업과는 MOU를 맺어 안정적인 서비스 연계를 돕고, 활용 사례를 정책홍보에 활용하여 선순환을 유도한다.

 

- 정책결정 지원 및 피드백: 메타데이터 활용 현황을 지속적으로 모니터링하여 정책 개선에 반영한다. 포털의 검색 로그나 API 호출 기록을 분석하면 어떤 분야의 지식정보 수요가 높은지, 어떤 메타데이터 요소가 많이 활용되는지 파악할 수 있다. 이를 근거로 부족한 분야의 지식정보를 추가 발굴하거나 메타데이터 개선 필요사항을 식별하여 앞 단계(생성~연계)에 환류한다. 또한 활용 사례를 국가지식정보위원회 등에 정기 보고하여 예산 확충이나 제도 개선의 논거로 활용한다. 궁극적으로 메타데이터 활용 성과 (: 연구 생산성 향상, 산업경제적 효과 등)를 계량화하여 메타데이터의 사회적 가치를 평가하고 알리는 것도 중요하다.

 

이러한 생애주기별 관리 기준은 국가지식정보 메타데이터 관리 가이드라인의 핵심 내용으로 포함되어야 하며, 관련 기관들이 이를 준수할 수 있도록 교육 및 지원 체계를 마련할 필요가 있다.

 

2) 공통 메타데이터 관리 모델 및 프로토콜 개발

 

국가지식정보 메타데이터의 호환성과 확장성을 높이기 위해서는, 모든 기관과 분야에 적용될 공통 메타데이터 관리 모델을 구축하는 것이 필수적이다. 공통 모델이란 각 기관의 메타데이터 스키마를 아우르는 상위 개념의 데이터 모델로서, 메타데이터 요소의 정의, 구조, 관계를 일관되게 정해주는 틀이다. 공통 모델 설계 시 고려해야 할 방향은 다음과 같다.

 

- 국제표준 및 국내수요의 조화: 앞서 언급한 Dublin Core, DCAT, MARC 등 국제 메타데이터 표준에서 광범위하게 합의된 요소들과, 국내 공공기관에서 실제로 관리하는 요소들을 모두 아우르는 메타데이터 요소 세트를 정의한다. 기본적인 자원식별, 저작자, 날짜, 형식, 주제 등은 Dublin Core를 채택하되, 국내 행정정보 특성을 반영한 요소(: 정책분류, 사업명, 보고서번호 등)도 추가로 포함하는 확장 메타데이터 스키마를 마련한다. 이러한 요소 세트 각각에 고유한 태그나 속성명을 부여하고 정의서(스키마 문서)를 작성하여 배포한다.

 

- 계층적 데이터 모델: 메타데이터 요소들을 계층 구조로 모델링하여 상위 공통요소와 하위 세부요소의 관계를 설정한다. 예를 들어 식별자상위 요소 아래에 DOI, ISBN, URI 등의 세부 요소를 두고, “저자아래에 개인저자, 단체저자 등을 두는 식이다. 이를 통해 모든 자원이 공통요소를 공유하되 필요한 경우 세부 분화를 표현할 수 있어 유연성을 갖춘다. 이러한 계층 모델은 JSON 스키마 또는 XML 스키마 형태로 구현하여 검증에 활용할 수 있다.

 

- 메타데이터 관계 모델링: 공통 모델 내에서 자원 간 관계(e.g., “이 보고서는 ○○프로젝트의 산출물이다또는 이 문서는 △△의 개정판이다”)를 표현하기 위한 관계 모델을 포함한다. 관계 역시 유형화하여 생산산출”, “개정원본등 표준 관계어휘를 정의하고 URI 형태로 식별한다. 이렇게 하면 여러 메타데이터 레코드 간 관계를 기계가 이해할 수 있고, 탐색 시에 연결된 정보를 함께 제시할 수 있다.

 

- 확장성과 호환성: 공통 모델은 현재 수집 중인 자원뿐 아니라 향후 등장할 새로운 유형의 정보에도 적용 가능해야 한다. 따라서 확장 메커니즘(Extension mechanism)을 마련하여, 새로운 요소가 필요한 경우 표준 범위 내에서 추가 정의할 수 있도록 한다. 또한 기존 메타데이터 표준 (: TEI for text, VRA for visual resources )과의 매핑 지도를 제공하여, 다른 표준을 따르는 메타데이터도 공통 모델로 변환 가능하게 호환성을 확보한다.

 

- 메타데이터 레지스트리 구축: 공통 모델의 모든 요소와 관계, 코딩값 목록 등을 체계적으로 관리하는 메타데이터 레지스트리(MDR)”를 운영한다. MDR에는 각 요소의 정의, 데이터 타입, 사용 예시, 관련 법령 등의 메타정보를 등록하고, 관계자들이 열람·검색할 수 있도록 한다. 또한 MDR을 통해 기관들이 자체 확장 요소를 제안하거나 질의 응답할 수 있는 소통 창구를 제공하여, 모델의 지속적인 개선을 도모한다.

 

이러한 공통 메타데이터 관리 모델이 확립되면, 국가 차원에서 메타데이터가 같은 언어로 기술됨으로써 기관 간 벽을 넘어 유기적 연계와 분석이 가능해진다. , **데이터 상호운용성(interoperability)**의 토대가 마련되는 것이다. 궁극적으로 공통 모델은 국가지식정보뿐 아니라 타 공공데이터, 민간 데이터와도 연계할 수 있는 개방형 표준이 되는 것을 목표로 해야 한다.

 

3) 메타데이터 교환 프로토콜 및 시스템 구축

 

공통 모델을 설계했다면, 이를 기반으로 메타데이터를 효율적으로 교환하고 관리하는 프로토콜과 시스템을 구축해야 한다. 여기서 프로토콜이란 메타데이터의 유통·동기화 방식에 대한 표준 절차를 말하며, 시스템은 이를 구현하는 소프트웨어/플랫폼을 의미한다. 개발 방향은 다음과 같다.

 

- OAI-PMH API의 병행 활용: OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)는 메타데이터 수집에 널리 사용되는 표준 프로토콜로, 주로 도서관/학술 커뮤니티에서 활용되고 있다. 국가지식정보 환경에서도 OAI-PMH를 모든 참여 기관에 적용 가능하도록 지원하여, 기관들이 OAI-PMH endpoint를 통해 메타데이터를 노출하면 중앙시스템이 주기적으로 harvest 하는 구조를 마련한다. 동시에 Restful OPEN API 방식도 병행 지원하여, OAI-PMH를 지원하지 않는 일부 기관이나 실시간 데이터 반영이 필요한 경우 APIPUSH/PULL 할 수 있게 이중화한다. 이러한 병행 체계는 이미 디지털집현전 구축 과정에서 활용되고 있으며, 향후에도 상황별 최적 방식 선택을 가능케 해준다.

 

- 메타데이터 등록·갱신 프로토콜: 기관이 새로운 지식정보 메타데이터를 생성하거나 수정/삭제할 때 이를 중앙에 등록(또는 통보)하는 절차를 정한다. 예를 들어 메타데이터가 변경될 때마다 기관 시스템이 중앙의 수신 APIPOST하는 방식, 또는 중앙에서 정기 수집하되 삭제 플래그 등을 인식하는 방식 등이 있다. 어느 방식이든 변경분에 대한 **상태코드(: 신규, 갱신, 삭제)**를 명시하도록 프로토콜을 정형화하여, 변경 관리의 정확성을 높인다. 또한 대량 등록 시의 성능, 에러 처리 등 세부 시나리오까지 문서화하여 개발자들이 참고하도록 한다.

 

- 분산형 연계 기술 도입 검토: 장기적으로는 중앙 집중형 수집뿐 아니라 분산 원장 기술(: 블록체인 기반 메타데이터 인증)이나 피어투피어 연계 등 새로운 패러다임도 검토한다. 특히 여러 기관이 메타데이터를 직접 공유해야 하는 상황에서는 탈중앙화된 메타데이터 연합(federation) 모델이 유용할 수 있다. 이를 통해 특정 분야 커뮤니티 간 메타데이터를 신뢰기반으로 교환하고, 중앙 포털은 이들을 메타-연계하는 역할을 수행하는 하이브리드 구조도 가능하다. 다만 이러한 기술은 성숙도를 고려해 파일럿을 거쳐 채택한다.

 

- 시스템 아키텍처 및 성능: 메타데이터 통합 시스템은 하루 수백만 건 이상의 요청도 견딜 수 있도록 확장형 아키텍처로 설계한다. 메타데이터 저장소는 분산 DB 또는 클라우드 네이티브 DB로 구축하고, 검색 인덱스는 Elasticsearch 등 전문 검색엔진을 활용하여 초대용량 메타데이터에 대한 빠른 검색을 지원한다. 또한 API 게이트웨이를 두어 트래픽을 관리하고, 캐싱 및 CDN을 활용해 응답속도를 높인다. 시스템은 안정적으로 운영되도록 이중화하며, 장애 시 자동 복구와 백업에서의 신속 복원 절차를 마련한다.

 

- 보안 및 개인정보 보호: 메타데이터 내에 잠재적으로 개인정보나 민감정보가 포함되지 않도록 생성 단계부터 필터링하고 있으나, 혹시 모를 위험에 대비해 통합 시스템상에서 민감 메타데이터 필드 마스킹, 접근 권한 관리를 구현한다. 특히 아직 공개하면 안 되는 정보(: 공개시점 이전의 보고서)는 메타데이터도 비공개로 처리하거나 접근을 제한한다. 외부에 제공되는 API는 키 발급 등을 통해 남용을 방지하고, 모니터링을 통해 이상 트래픽을 차단하는 등 보안 운영을 철저히 한다.

 

요약하면, 공통 모델에 기반한 프로토콜과 시스템은 신뢰성, 유연성, 확장성을 모두 충족해야 한다. 초기에는 기존 검증된 방식을 중심으로 구현하되, 장기적으로 진화하는 기술을 수용할 수 있도록 개방형 구조로 만들어야 한다. 이를 통해 국가지식정보 메타데이터 관리체계가 기술적으로도 최신 모범사례를 반영하게 될 것이다.

 

4) 공통 메타데이터 관리 모델 적용을 위한 단계적 실행계획

 

공통 메타데이터 모델 및 프로토콜 개발은 단기간에 완료될 과제가 아니라, 중장기 로드맵에 따라 단계적으로 추진되어야 한다. 다음은 향후 5년에 걸친 3단계 실행계획의 예시이다.

 

단계 연차 목적 실행
1단계 단기: ~1 설계 및 시범 - 메타데이터 현황 조사: 주요 참여기관의 메타데이터 스키마와 현황을 상세 분석하여 공통모델 설계의 기초자료로 활용.
- 공통 모델() 설계: 핵심 메타데이터 요소 세트 도출, 시범 분류체계 및 관계모델 설계. 관련 전문가 공청회 개최.
- 시범 시스템 구축: 5개 내외 기관을 선정하여 OAI-PMH/API 수집 시범을 진행하고, 공통 모델로의 자동 매핑 툴 개발.
- 시범 평가: 시범 참여기관과 메타데이터 이용자(연구자 등) 그룹으로부터 피드백 수집하여 모델/프로토콜 개선.
2단계 중기: ~3 구현 및 확산 - 공통 메타데이터 모델 확정·배포: 표준 메타데이터 항목 및 분류체계 확정, 메타데이터 레지스트리 서비스 오픈. 모든 관련 기관에 모델 적용 가이드 배포.
- 통합 수집 시스템 전면 도입: 디지털집현전 등의 플랫폼에 공통모델 기반 통합DB 업그레이드. 모든 기관 OAI 또는 API 연계 구현 완료.
- 메타데이터 품질관리 강화: 품질대시보드 가동, 기관별 메타데이터 품질평가 연 1회 시행. 평가 결과를 공개하여 기관 간 선의의 경쟁 유도.
- 민간 연계 강화: 공공/민간 포털(: 국가과학기술정보센터, 지방자치단체 데이터포털 등)과 메타데이터 교환 협력. 민간에서도 공통모델 받아들여 연계.
3단계 장기: ~5 고도화 및 정착 - 지능형 메타데이터 서비스: 지식그래프 완성도 제고, AI 자동분류·연관추천 시스템 고도화하여 사용자 경험 향상.
- 글로벌 표준 연계: 국제 오픈데이터/오픈사이언스 플랫폼(e.g., OpenAIRE)과 메타데이터 상호연계 추진, 한국의 국가지식정보 메타데이터를 국제적으로 확산.
- 법제도 정비: 공통모델 준수를 의무화하는 세부지침 법제화, 메타데이터 우수기관 인센티브 제도화 등 제도적으로 관리체계 안착.
- 지속 개선 프로세스: 기술발전 추이를 반영하여 메타데이터 모델을 지속 업데이트할 수 있는 상설 조직 운용. 새로운 정보유형 출현 시 신속 대응.

 

이러한 단계적 실행계획을 통해 공통 메타데이터 관리 모델의 안정적인 도입과 정착, 그리고 지속적인 발전을 도모할 수 있다.

 

5) 메타데이터 품질 관리 체계 구축

 

메타데이터의 품질은 국가지식정보의 활용 가치와 직결되는 중요한 요소이다. 따라서 체계적인 메타데이터 품질 관리 체계를 구축할 필요가 있다. 다음과 같은 방안을 제안한다:

 

• 메타데이터 품질 지표 정의: 정확성, 완전성, 일관성, 최신성, 적합성 등 메타데이터 품질을 평가할 수 있는 지표 정의

  자동화된 품질 검증 도구 개발: 정의된 품질 지표에 따라 메타데이터의 품질을 자동으로 검증할 수 있는 도구 개발

  품질 관리 프로세스 수립: 메타데이터 생애주기 전반에 걸친 품질 관리 프로세스 수립. 품질 문제 발견 시의 조치 방법 및 책임 소재 명확화

  품질 개선 피드백 체계 구축: 메타데이터 이용자로부터의 품질 관련 피드백을 수집하고 반영할 수 있는 체계 구축

  품질 인증 제도 도입: 우수한 품질의 메타데이터를 제공하는 기관이나 데이터셋에 대한 인증 제도 도입. 이를 통해 품질 관리 동기 부여

 

이러한 메타데이터 품질 관리 체계는 국가지식정보 메타데이터의 신뢰성과 활용성을 높이는 데 기여할 수 있다.

 

 

국가지식정보 활용 촉진을 위한 정책적 지원방안 도출

 

1) 공공, 민간 부문별 정책 참여 유도 방안

 

국가지식정보 메타데이터의 활용을 촉진하기 위해서는 공공 및 민간 부문의 적극적인 참여가 필요하다. 각 부문별 정책 참여 유도 방안은 다음과 같다:

 

구분 항목 내용
공공 법적 의무화 국가지식정보법개정을 통해 공공기관의 국가지식정보 메타데이터 제공 및 품질 관리 의무화
성과 평가 반영 공공기관 평가에 국가지식정보 메타데이터 관리 및 활용 성과 반영
인센티브 제공 우수 메타데이터 제공 기관에 대한 예산 지원 확대, 포상 등 인센티브 제공
전문 인력 지원 공공기관의 메타데이터 관리 역량 강화를 위한 전문 인력 양성 및 파견 지원
기술 지원 메타데이터 관리 시스템 구축 및 운영을 위한 기술 지원 제공
민간 오픈 API 확대 국가지식정보 메타데이터에 접근할 수 있는 오픈 API 확대 및 기술 지원
활용 사례 공유 국가지식정보 메타데이터 활용 우수 사례 발굴 및 홍보, 포상
공동 R&D 지원 국가지식정보 메타데이터를 활용한 혁신적 서비스 개발을 위한 공동 R&D 사업 추진
창업 지원 국가지식정보 메타데이터를 활용한 스타트업 창업 및 성장 지원 프로그램 운영

 

이러한 공공 및 민간 부문별 정책 참여 유도 방안을 통해 국가지식정보 메타데이터의 공급과 수요를 동시에 활성화할 수 있다.

 

2) 국가지식정보 활용 촉진을 위한 법률, 제도적 개선사항

 

현재의 국가지식정보법 및 관련 제도들을 점검하여, 메타데이터 관리 및 활용 촉진을 뒷받침하는 방향으로 개선이 필요하다.

 

   메타데이터 개방 의무화 및 표준 준수: 국가지식정보법 시행령 또는 가이드라인에 메타데이터 개방에 관한 조항을 신설/강화한다. 예를 들어 각 공공기관은 국가지식정보로 지정된 자원의 메타데이터를 원칙적으로 전부 공개하며, 정해진 표준 형식으로 제공해야 한다고 명문화한다. 이는 데이터베이스권 등 법적 쟁점을 해소하고 모든 기관이 일관된 책임을 지도록 하는 근거가 된다. 또한 표준 메타데이터 스키마에 따른 작성 의무를 규정하여 불필요한 임의 항목 추가나 임의 축약 등을 방지한다.

 

   저작권 및 이용권한 정비: 메타데이터 자체에 대한 저작권/공공저작물 이슈를 명확히 한다. 일반적으로 사실의 모음인 메타데이터는 저작권 보호대상이 아니나, 법적 분쟁 소지를 없애기 위해 모든 국가지식정보 메타데이터는 공공누리 제1유형(출처표시 자유이용) 또는 CC0로 개방됨을 선언한다. 또한 국가지식정보를 활용한 2차 저작물(: 데이터 기반 분석보고서)에 대해서는 정당한 이용을 보장하는 조항을 마련하여 민간 활용자가 안심하고 활용할 수 있게 한다.

 

   지식정보 제공 책임 강화: 현재 각 기관이 자율적으로 지식정보를 지정·제공하는 구조에서, 보다 적극적인 제공을 유도하는 제도로 개선한다. 이를 위해 메타데이터 제공 실적평가를 도입하여, 기관별로 국가지식정보 메타데이터를 얼마나 충실히 제공했는지 매년 평가하고 우수기관에는 포상, 미흡한 기관에는 개선권고를 부여한다. 또한 기관장 성과평가에 해당 지표를 반영하여 동기를 부여한다.

 

   비공개 정보 관리: 국가지식정보 중 민감하거나 공개 제한이 필요한 정보는 별도로 관리해야 한다. 이를 위해 법령에서 비공개 대상 지식정보 유형을 명시하고(: 안보상 기밀 자료 등), 해당 메타데이터는 통합검색에서는 검색은 가능하되 상세내용 접근은 제한하거나 아예 수집 대상에서 제외하는 프로세스를 둔다. 이때 비공개 사유, 보존기간 등을 메타데이터에 태그로 표시하여 투명성을 높인다.

 

   관련 법과의 정합성: 공공데이터법, 정보공개법 등 인접한 법령들과 국가지식정보법의 관계를 명확히 정립한다. 예컨대 국가지식정보 메타데이터는 공공데이터 개방 대상에 포함되는 것으로 간주하고, 타 법의 요건(개인정보 비식별조치 등)을 준수하는 한 자유롭게 개방 가능함을 교차로 명시한다. 또한 국가기록원 등 타 기관에서 유사한 메타데이터 관리 기능을 수행하는 경우 역할 분담을 규정하여 중복투자를 방지하고 협력을 촉진한다.

 

국가지식정보 메타데이터의 활용을 촉진하기 위해서는 다음과 같은 법률, 제도적 개선이 필요한다.

구분 항목 내용
법률적 개선사항 국가지식정보법개정 메타데이터의 정의, 관리 체계, 품질 기준, 활용 촉진 방안 등을 구체적으로 명시
저작권법개정 국가지식정보 메타데이터의 AI 학습 목적 활용에 대한 저작권 예외 규정 마련
개인정보 보호법관련 가이드라인 마련 개인정보가 포함된 국가지식정보 메타데이터의 안전한 활용 방안 제시
데이터 산업 진흥법과의 연계 국가지식정보 메타데이터를 데이터 산업 진흥 정책과 연계하여 지원할 수 있는 법적 근거 마련
제도적 개선사항 국가지식정보 메타데이터 표준화 제도 국가지식정보 메타데이터의 표준화를 위한 지침 및 인증 제도 도입
메타데이터 품질 인증 제도 우수한 품질의 메타데이터를 제공하는 기관에 대한 인증 제도 도입
공공누리 적용 확대 국가지식정보 메타데이터에 대한 공공누리 적용 확대를 통해 활용 범위 명확화

분쟁 해결 체계 국가지식정보 메타데이터 활용 과정에서 발생할 수 있는 저작권 등 분쟁의 효율적 해결을 위한 체계 구축
협력 거버넌스 공공과 민간이 함께 참여하는 국가지식정보 메타데이터 관리 및 활용 촉진을 위한 협력 거버넌스 구축

 

이러한 법률, 제도적 개선을 통해 국가지식정보 메타데이터의 활용에 대한 법적 불확실성을 해소하고, 더욱 활발한 활용을 위한 제도적 기반을 마련할 수 있다.

 

 

AI 학습용 데이터로서의 국가지식정보 메타데이터 활용 방안

 

초거대 AI 시대에 대응하여 국가지식정보 메타데이터를 AI 학습용 데이터로 효과적으로 활용하기 위한 방안은 아래와 같다.

 

•  AI 학습용 메타데이터 패키지 개발: 국가지식정보 메타데이터 중에서 AI 학습에 적합한 데이터를 선별하여 목적별 패키지로 개발 및 제공

•  메타데이터 전처리 지원: AI 학습에 바로 활용할 수 있도록 메타데이터의 전처리(정제, 변환, 표준화 등) 서비스 제공

•  AI 개발자 커뮤니티 운영: 국가지식정보 메타데이터를 활용한 AI 개발자 커뮤니티를 운영하여 지식 공유 및 협력 촉진

•  공통 AI 모델 개발 및 공개: 국가지식정보 메타데이터를 학습한 기본 AI 모델을 개발하여 공개함으로써 기업들의 AI 개발 비용 절감

•  AI 챌린지 대회 개최: 국가지식정보 메타데이터를 활용한 AI 개발 챌린지 대회를 개최하여 혁신적인 활용 사례 발굴

•  도메인별 특화 데이터셋 구축: 과학, 기술, 인문, 사회 등 도메인별로 특화된 메타데이터 데이터셋을 구축하여 제공

•  품질 인증 AI 학습 데이터 제공: 할루시네이션 등 AI의 문제점을 해결하기 위한 고품질 검증 데이터셋 구축 및 제공

 

이러한 방안을 통해 국가지식정보 메타데이터의 AI 학습용 데이터로서의 활용을 촉진하고, 궁극적으로는 국내 AI 산업의 경쟁력 강화에 기여할 수 있다.

 

결론

 

본 연구에서는 국가지식정보 메타데이터의 관리 및 활용 체계 고도화를 위한 방안을 종합적으로 검토하고 제시하였다. 국가지식정보 메타데이터는 초거대 AI 시대에 중요한 학습 데이터로서의 가치를 지니며, 인공지능의 할루시네이션 보정 등 신뢰성 확보에 중요한 역할을 할 수 있다.

 

현재 과학기술정보통신부와 한국지능정보사회진흥원은 디지털집현전이라는 국가지식정보 통합플랫폼을 통해 분산되어 있는 국가지식정보 메타데이터를 연계하여 제공하고 있으며, 이를 통해 국가지식정보의 접근성과 활용성을 높이고 있다. 그러나 메타데이터의 품질, 표준화, 원문 접근성, 갱신 체계, 민간 활용 지원 등의 측면에서 개선의 여지가 있다.

 

이에 따라 본 연구에서는 메타데이터 생애주기별 관리 기준 마련, 공통 메타데이터 관리 모델 및 프로토콜 개발, 단계적 실행계획 수립, 메타데이터 품질 관리 체계 구축 등의 관리체계 고도화 방안을 제시하였다. 또한 공공 및 민간 부문별 정책 참여 유도 방안, 법률 및 제도적 개선 사항, AI 학습용 데이터로서의 활용 방안, 메타데이터 공유 및 활용 생태계 조성 방안 등의 정책적 지원방안을 도출하였다.

 

이러한 방안들은 국가지식정보법10조에 근거한 국가지식정보 관리지침 제정 및 메타데이터 관리 가이드라인 수립에 기초자료로 활용될 수 있으며, 2차 국가지식정보 연계 및 활용 촉진 기본계획('27~'29) 수립, 데이터산업 진흥 기본계획, 디지털 플랫폼 정부 실현계획 등의 중장기 정책방향 설정에 참고자료로 활용될 수 있다.

 

결론적으로, 국가지식정보 메타데이터의 체계적 관리와 활용 촉진은 국가 데이터 정책의 중요한 부분으로서, 인공지능 기술의 발전과 함께 그 중요성이 더욱 커질 것으로 예상된다. 따라서 본 연구에서 제시한 관리체계 고도화 방안과 정책적 지원방안의 실행을 통해 국가지식정보 메타데이터의 가치를 극대화하고, 국내 AI 산업의 경쟁력 강화에 기여할 수 있을 것으로 기대된다.

 

 

 

참고문헌

•   KISTI. (2019). 국가연구데이터플랫폼 구축 및 운영. 과학기술정보통신부.

•   Korea Institute of Science and Technology Information. (2022). 과학기술분야 정부출연연구기관 연구데이터 관리 방안 연구. 정보관리학회지, 39(2), 159-178.

•   Ministry of Science and ICT. (2023). 국가지식정보 연계 및 활용 촉진 기본계획.

•   National Information Society Agency. (2024). 디지털집현전 운영 현황 분석 보고서.

•   Lee, J. et al. (2024). 메타데이터 관리시스템 개선을 위한 테이블 형상 비교 연구. 한국컴퓨터정보학회논문지, 29(3), 45-56.

•   권형진 (2010). 지식정보자원 메타데이터 표준화 동향. TTA 저널, 78, 61-67. 한국정보통신기술협회.

•   전종수 외 (2005). 국가지식정보 메타데이터 구축·유통·관리 표준 체계 연구 (행정자치부 연구용역 최종보고서).

•   European Data Portal (2018). Introduction to Metadata Management.

•   European Data Portal (2018). Open Data & Metadata Quality.

•   U.S. General Services Administration (2021). DCAT-US Schema v1.1.

•   OECD (2018). Open Government Data Report Chapter 3. Leveraging Accessibility through High-quality Open Data. •   National Information Standards Organization (NISO). Metadata Basics. (n.d.). USGS Science Data (Public Domain).

반응형

댓글