한국어 대화 요약 소개
기본탭
데이터셋명 | 한국어 대화 요약 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 바이브컴퍼니 | 데이터 관련 문의처 | 담당자명 | 김수경(바이브컴퍼니) |
가공기관 | 바이브컴퍼니 | 전화번호 | 02-565-0531 | |
검수기관 | 바이브컴퍼니 | 이메일 | ckaskan@vaiv.kr | |
구축 데이터량 | 35만건 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2022.01.05 | |
소개 | 일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터 | |||
주요 키워드 | 한국어 대화 요약, 자연어처리, 원문, 요약문, 구어 속성, 문장 성분 생략, 축약적 표현, 대화 속성, 대화 유형, 대화 내용 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.12 | 데이터 품질 보완 | |
1.1 | 2021.10.12 | 데이터 품질 보완 | |
1.0 | 2021.06.29 | 데이터 최초 개방 |
구축 목적
- 뉴스, 기사 등의 문어체에 비해 생략이나 변형이 많고, 대화의 문맥을 고려해야 하는 특수성이 있는 대화 요약 기술 개발을 위한 한국어 학습 데이터 구축
활용 분야
- 대화 및 토론의 주제 분류 파악, 상담 내역 파악, 챗봇, 메신저 어플 등 대화의 핵심 내용을 신속하고 정확하게 파악해야 하는 분야
주요 키워드
- 대화요약, 생성요약, 한국어, 요약기술, 학습데이터
소개
- 대화 참여자와 제공자 모두로부터 개인정보처리 및 저작권 이용 허락 계약을 체결하여 수집한 다양한 주제의 한국어 대화 원문 데이터에 대하여 개인정보 비식별화 및 정제 작업을 거쳐, 대화 주제 분류와 생성 요약문 어노테이션 후 AI 모델링을 통해 데이터의 유효성을 검증한 한국어 대화 데이터셋 구축
구축 내용 및 제공 데이터량
- 한국어 대화 원문 35만건
- 한 문장으로 요약된 생성 요약문 35만건
- 개인정보 비식별화
- 메타정보(화자정보, 대화 유형, 대화 주제) 부착
데이터셋 | 내용 | 형식 | 규모 |
---|---|---|---|
한국어 대화 요약 데이터 | · 메타정보(화자정보, 대화 유형, 대화 주제) · 대화 요약문 |
JSON | 350,000건 |
대표도면
필요성
- 코비드-19 상황이 장기화되면서 1990년대 후반 이후 미국을 중심으로 시작된 ‘디지털 경제’로의 전환이 가속화됨
- 디지털 경제의 핵심 요소 가운데 하나는 ‘비대면 경제’이므로 비대면 의사소통의 수요가 폭발적으로 증가하고 있음
- 효율적인 비대면 의사소통과 엄청난 속도와 규모로 축적되기 시작한 대화 데이터의 활용성을 높이기 위해서는 대화 요약 기술의 도입이 요구됨
- 대화 요약 기술을 아직 초기 단계에 머물러 있으나 딥러닝 기술의 발달과 대규모 대화 요약 데이터의 구축으로 비약적 발전이 가능할 것으로 기대됨
데이터 구조
- 데이터 구성
데이터 구성 Key Description Type Child type header 대화 메타 데이터 JsonObject JsonObject { dialogueInfo 대화 정보 JsonObject JsonObject { dialogueID 대화 ID String numberOfParticipants 대화 참여자 수 Integer numberOfUtterances 발화 수 Integer numberOfTurns 말차례 수 Integer type 대화 유형 String topic 대화 주제 String } participantsInfo 대화 참여자 정보 Array JsonObject [ participantID 대화 참여자 ID String gender 대화 참여자 성별 String age 대화 참여자 연령대 String residentialProvince 대화 참여자 거주지역 String ] } body 대화 데이터 본문 JsonObject Array, String { dialogue 대화 본문 데이터 Array String [ utteranceID 발화 ID String turnID 말차례 ID String participantID 대화 참여자 ID String date 발화 날짜 String time 발화 시간 String utterance 발화 String ] summary 요약문 String } - 어노테이션 포맷
어노테이션 포맷 No 항목 길이 타입 필수여부 한글명 영문명 1 대화 메타 데이터 header JsonObject Y 1-1 대화 정보 dialogueInfo JsonObject Y { 1-1-1 대화 ID dialogueID String Y 1-1-2 대화 참여자 수 numberOfParticipants Integer Y 1-1-3 발화 수 numberOfUtterances Integer Y 1-1-4 말차례 수 numberOfTurns Integer Y 1-1-5 대화 유형 type String Y 1-1-6 대화 주제 topic String Y } 1-2 대화 참여자 정보 participantsInfo Array Y [ { 1-2-1 대화 참여자 ID participantID String Y 1-2-2 대화 참여자 성별 gender Integer Y 1-2-3 대화 참여자 연령대 age Integer Y 1-2-4 대화 참여자 거주지역 residentialProvince Integer Y } ] 2 대화 데이터 본문 body JsonObject Y 2-1 대화 본문 데이터 dialogue Array Y [ { 2-1-1 발화 ID utteranceID String Y 2-1-2 말차례 ID turnID String Y 2-1-3 대화 참여자 ID participantID String Y 2-1-4 발화 날짜 date String Y 2-1-5 발화 시간 time String Y 2-1-6 발화 utterance String Y } ] 2-2 요약문 summary String Y
데이터셋 구축 담당자
수행기관(주관) : 바이브컴퍼니
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
이기황 | 02-565-0531 | leekh@vaiv.kr | · 원문데이터 확보 및 제공 · 데이터구축 총괄 |