도서자료 요약 소개
기본탭
데이터셋명 | 도서자료 요약 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 바이브컴퍼니 | 데이터 관련 문의처 | 담당자명 | 전영민(딥네츄럴) |
가공기관 | 딥네츄럴, 이르테크 | 전화번호 | 02-6952-0588 | |
검수기관 | 딥네츄럴, 경북대학교 산학협력단, 연세대학교 산학협력단 | 이메일 | youngmin@deepnatural.ai | |
구축 데이터량 | 20만 | 구축년도 | 2020년 | |
버전 | 1.0 | 최종수정일자 | 2021.06.18 | |
소개 | 도서를 기반으로 한 원문의 핵심 내용, 의미 전달을 적절히 포함하는 요약문을 자동으로 생성하는 AI기술 개발을 위한 도서 요약 텍스트 데이터 | |||
주요 키워드 | 자연어 처리, 한국어 도서자료, 원문, 요약문, 생성 요약, 정보 추출 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2021.06.18 | 데이터 최초 개방 |
구축 목적
- 다양한 주제의 한국어 도서 원문으로부터 생성요약문을 도출해낼 수 있도록 인공지능을 훈련하기 위한 데이터셋
활용 분야
- 사회과학, 기술과학, 철학, 법학 등 핵심내용을 신속하고 정확하게 파악할 수 있는 AI 요약기술 개발
주요 키워드
- 문서요약, 도서요약, 생성요약, 한국형 문서요약 데이터셋
소개
- 다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 기존 영문 문서요약 데이터셋과는 다른 원문 데이터의 다양성을 추구하며, 요약문 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보

대표도면
필요성
- 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 뉴스 기사의 제목 혹은 첫 문장을 전체 기사의 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중
- 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포
- 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음
- 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
- 데이터 구성
- 어노테이션 포맷
No | 속성명 | 영문명 | 길이 | 타입 | 필수여부 | 설명 |
---|---|---|---|---|---|---|
1 | 원문ID | passage_id | 100 | String | Required | 원문에 부여되는 고유번호 '문서ID_분리순서' 포맷 |
2 | 메타데이터 | metadata | - | Object | Required | 서지 정보에서 추출한 메타데이터 |
2-1 | 문서ID | doc_id | 100 | String | Required | |
2-2 | 문서유형 | doc_type | 100 | String | Required | '도서' 및 '논문'으로 문서유형 구분 |
2-3 | 문서명 | doc_name | 100 | String | Required | |
2-4 | 발행자 | author | 100 | String | Optional | |
2-5 | 발행처 | publisher | 100 | String | Optional | |
2-6 | 발행연도 | published_year | 4 | String | Optional | |
2-7 | 주제분류 | kdc_label | 100 | String | Required | 해당 원문의 KDC 분류명 |
2-8 | 분류기호 | kdc_code | 3 | String | Optional | 해당 원문의 KDC 분류코드 |
3 | 챕터 | chapter | 100 | String | Optional | 해당 원문이 소속된 챕터명 |
4 | 원문 | passage | 1000 | String | Required | 구축 대상 원문 문단 |
5 | 요약문 | summary | 300 | String | Required | 원문 문단에 대한 생성요약 |
데이터셋 구축 담당자
수행기관(주관) : 바이브컴퍼니
책임자명 | 전화번호 | 대표이메일 |
---|---|---|
이기황 | 02-565-0531 | leekh@vaiv.kr |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
딥네츄럴 | · 데이터 정제 · 생성 요약문 작성(크라우드소싱 활용) · 온라인 작업 도구 제공 |
이르테크 | · 생성 요약문 작성(크라우드소싱 활용) · 결과물 검수 및 검증 |
포티투마루 | · AI 요약모델 및 활용 서비스 개발 | 경북대학교 산학협력단 |
· 품질검수 품질평가 서비스 |
연세대학교 산학협력단 |
· 품질검수 품질평가 서비스 |