본문 바로가기
아빠방/Article

연구 데이터

by 탱탱이아빠 2022. 3. 28.

 

연구데이터 정의

 

ㅇ 연구데이터 정의는 국가별로 약간은 상이하나, 기본적으로 연구자가 연구개발사업의 과정이나 결과로서 생산 또는 수집되는 데이터를 의미함

- 최근, 우리나라는 국가연구개발사업의 관리 등에 관한 규정에 연구데이터에 대한 정의를 법제화하고, 국가연구개발사업의 연구 성과물로서 관리와 활용을 위한 최소한의 근거를 제시함

 
 
국가 정의
OECD 과학 연구의 주요 출처로 사용되는 사실적 기록(수치, 문자, 이미지, 음성 등)으로 정의되며, 연구결과를 검증하는 데 필요한 데이터
영국 연구과정의 전 주기에서 발생하는 데이터이며, 연구자가 수집할 정보와 수집 방법, 정보 처리, 분석 계획 등을 포함
미국 연구데이터 관리에 관한 지침서를 통해 데이터 관리차원에서 연구의 전 주기에서 생성되는 데이터
호주 사실, 관찰, 이미지, 컴퓨터 프로그램 결과, 기록, 경험의 형태에서 생성되는 데이터
한국 연구개발과제 수행 과정에서 실시하는 각종 실험, 관찰, 조사 및 분석 등을 통하여 산출된 사실 자료로서 연구결과의 검증에 필수적인 데이터
 

연구데이터 형태 및 유형

ㅇ 연구데이터의 형태는 텍스트, 숫자, 이미지, 동영상 등 다양함

ㅇ 연구데이터의 종류와 유형도 매우 다양하며 생산되는 방식에 따라 다양한 종류의 데이터가 생산되고 있음

연구데이터 유형 설명
실험 데이터 실험장비에서 생산되는 데이터
) 가속기, 화학/바이오 실험데이터
관측 데이터 관측장비를 통해 생산되는 데이터
) 망원경, 전자현미경, 인공위성 등
시뮬레이션 데이터 모델링을 통해 생산되는 데이터
) 기후모델링, 경제전망 모델링
파생 데이터 원천 데이터로부터 재생산된 데이터
) 텍스트마이닝, 3D 모델링
참조 데이터 평가를 거쳐 신뢰성이 공인된 데이터
) 플라즈마 물성표준, MRI영상 참조 표준데이터
조사 데이터 설문조사 등을 통해 생산된 데이터
) 시장조사, 예측조사
 

연구데이터 공유의 확산

ㅇ 오픈 사이언스와 오픈 데이터라는 새로운 패러다임 속에서 데이터 공유와 출판 역시 디지털화되고 다양한 형태로 이루어지고 있음

- 21세기의 과학적 연구는 점점 데이터 집약적이고 협업적으로 바뀌어 가고 있으며(Tenopir , 2011) 이러한 흐름 속에서 새롭게 등장한 개념인 오픈 사이언스는 디지털 기술을 통해 연구의 전 과정을 연구 커뮤니티 내외의 모든 관련된 사람들에게 공개하려는 일련의 활동으로 정의됨(OECD, 2016; 신은정, 정원교, 2016)

- 오픈 사이언스의 영역은 오픈액세스, 오픈 데이터, 오픈 재생산가능 연구, 오픈 사이언스 평가, 오픈 사이언스 정책 그리고 오픈 사이언스 도구 등 크게 여섯 가지로 구분됨(Pontika , 2015)

- 그 중에서도 오픈 데이터는 연구부산물로 여겨지던 데이터의 가치를 인정하고 공개하는 개념으로 데이터의 재이용을 통해 학문 발전을 촉진할 수 있다는 점이 강조됨

ㅇ 연구 데이터의 공개를 유도하기 위해서는 데이터 공유의 필요성을 강조하는 것으로는 한계가 있고, 데이터도 학술지처럼 출판을 통해 인용도 되고 색인 DB에 등재도 될 수 있도록 할 필요성이 제기됨(Costello 2009; Smith 2009; 정영임 2017)

 

데이터 출판 정의

ㅇ 데이터 공유 방법의 한 종류라고 할 수 있는, 데이터 출판이란 재이용과 분석을 위하여 웹을 통해 검색가능하고 고유하며 영구적인 방법으로 연구데이터, 관련 메타데이터, 관련 문서 그리고 소프트웨어 코드까지(원데이터를 가공하고 조작한 경우에는) 공개하는 것을 의미함

ㅇ 데이터 출판은 전용 리포지터리 및 데이터 학술지를 통해 이루어짐

- 리포지터리 및 데이터 학술지는 제3자나 최종사용자에 의한 향후 이용을 위해 출판의 모든 중요한 측면에서, 출판된 연구 객체를 장기간에 걸쳐 문서화, 큐레이션, 아카이빙하고 상호운용성, 인용, 품질, 검색가능성을 보장함

- 데이터 출판의 궁극적인 목적은 데이터 재생산과 재이용에 있음

 

 

데이터 출판의 구성요소

ㅇ 데이터 출판을 이루는 구성 요소에는 필수적인 구성 요소와 추가적인 구성 요소들이 있음

(필수 구성요소) 영구적인 ID를 부여하여 데이터에 영구적인 접근을 가능하게 하는 것이 데이터 출판의 필수 요소임

- 영구적인 ID를 부여하기 위해서 데이터를 보관할 리포지터리를 선택하고 데이터의 메타데이터를 기술(description)하게 됨

- 다음으로 큐레이션 단계를 거쳐 데이터는 배포 및 발견 가능한 상태가 됨(Austin et al., 2017)

- 큐레이션(curation)이란, 데이터 인용이 적절한 형식을 따르고 있는지 그리고 원고 내의 데이터세트 기술(description)이 데이터 리포지터리 기록과 일치하는지를 확인하는 것임

(추가 구성요소) 맥락(context), 품질(quality), 접근가능성/가시성(accessibility /visibility)이 추가적인 구성 요소임

- 맥락은 데이터 논문 혹은 기존 논문과의 연결 등을 통해 데이터에 맥락을 부여하는 것을 의미함. 데이터와 관련 메타데이터는 양방향으로 연결되어야 하며 메타데이터는 데이터의 올바른 이용 및 해석에 필수적임

- 다음으로 품질은 품질 보증(quality assurance)과 품질 관리(quality control)로 구성됨. 편집 프로세스, 전문가의 큐레이션 그리고 동료심사를 통해 품질을 보장하고 궁극적으로 데이터 재이용과 연구의 재현 가능성을 보장함

- 접근가능성 및 가시성은 색인 서비스, 연구 정보 서비스(: 임상연구정보서비스(CRIS)), 계량적 분석 제공 웹사이트, 데이터 출판 워크플로우(workflow)와의 연결을 제공하는 서비스를 의미함(Austin et al., 2017)

데이터 출판의 주요 구성요소 (이승은, 2020)

데이터 출판 워크플로우

ㅇ 데이터 논문은 데이터 학술지에, 데이터셋은 데이터 리포지터리에 제출하는 두 종류의 워크플로우로 이루어짐

- 데이터 리포지터리에 제출한 데이터셋은 리포지터리에 이관되어 코드, 메타데이터 등의 심사를 거쳐 보관된 뒤 출판 및 서비스를 통해 최종 이용자 및 웹사이트에 게시됨

- 학술지에 제출한 데이터 논문은 동료심사를 거쳐 품질 보장 및 관리 후 출판 및 서비스를 통해 최종 이용자 및 웹사이트에 게시됨

 

데이터 출판 워크플로우 (이승은, 2020)

 

 

 

 

반응형

'아빠방 > Article' 카테고리의 다른 글

주요 데이터센터 정리  (0) 2022.12.08
투고심사 (Peer Review)  (0) 2022.03.28
기계학습 기반 이미지 처리 유형  (0) 2022.02.28
블록체인  (0) 2022.02.15
빅데이터  (0) 2022.02.09

댓글