감성 대화 말뭉치 소개
기본탭
데이터셋명 | 감성 대화 말뭉치 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 미디어젠 | 데이터 관련 문의처 | 담당자명 | 송민규(미디어젠) |
가공기관 | 미디어젠 | 전화번호 | 02-6429-7104 | |
검수기관 | 미디어젠 | 이메일 | minks@mediazen.co.kr | |
구축 데이터량 | 15,700문장 (음성), 27만문장 (코퍼스) | 구축년도 | 2020년 | |
버전 | 1.0 | 최종수정일자 | 2021.06.18 | |
소개 | 크라우드 소싱 수행으로 일반인 1,500명을 대상으로 하여 음성 15,700문장 및 코퍼스 27만 문장 구축 및 세대별 감성 대화 텍스트 구축을 통해 감성 대화 엔진을 개발하여 세대별 감성 대화 서비스 제공 | |||
주요 키워드 | 코퍼스(Corpus), 감성대화(Emotional dialogue), 감성 챗봇(Emotional chatbot), 우울증 예방(Preventing Depression) | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 업데이트 중 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2021.06.18 | 데이터 최초 개방 |
구축목적
- 감정 인식을 위한 데이터는 크롤링이 불가능하기 때문에 직접 제작해야 하는 희소성 있는 데이터임. 60가지의 세부 감정에 대한 자연어 처리 말뭉치를 확보함으로써 다양한 AI 산업에 활용이 가능함
활용분야
- 인공지능 학습용 감성대화 코퍼스 데이터 구축을 통해 감성대화 엔진을 개발, 감성 챗봇 또는 음성비서 서비스 출시
- 청소년, 청장년층, 노년층 등 세대별 감성대화 코퍼스를 분리 구축, 감성대화 서비스에서도 세대별로 특화된 대화 서비스를 제공
소개
- 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반한 감성 텍스트 언어 수집
- 크라우드 소싱 수행으로 일반인 1,500명 대상으로한, 음성 15,700 문장 및 코퍼스 27만 문장 구축
구축 내용 및 제공 데이터량
- 음성 약 15,700 문장
- 코퍼스 27만 문장
구분 | 내용 |
---|---|
데이터 구축 범위 | 감성 텍스트 언어 수집 -우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반 수집 |
데이터구축 규모 | 음성 약 15,700 발화, 코퍼스 27만 문장 수집/태깅 - 일반인 1,500명 대상의 인터뷰 및 크라우드 소싱 수행 - 우울증 환자 대상 WOZ 대화 수집 |
데이터구축 일정 | 총 5개월 소요 예정 - 데이터 설계 및 인프라 구축 1개월, 데이터 수집/태깅 3개월, 데이터 품질 검수 1개월 |
대표도면
- 코퍼스 데이터 수집 방법
- 데이터 수집 방법
코퍼스 데이터 수집 방법 표 항목 내용 데이터
수집
방법Quality methods · 질적 방법은 관찰, 인터뷰, 사례 연구, 서면 문서 분석 등의 절차가 포함되고 일반적으로 이벤트와 프로세스에 대한 흐름도 및 서술 설명을 생성 Qunantity methods · 양적 방법은 검사와 평가 척도 및 생리학적 측정에 의존하고 수치 결과를 산출 질문법 · 표본의 모든 개인에 대해 동일한 질문을 하는 방법 인터뷰 · 면접원의 구두 질문과 연구 참가자의 구두 응답으로 구성 설문 조사 · 표본에서 의도한 모집단에게 결과를 일반화하기 위해 질문, 인터뷰를 사용하여 샘플의 참가자 특성, 경험 및 의견에 대한 데이터 수
- Qualitative (데이터 수집 품질 구분)
데이터 수집 품질 구분 표 방법 내용 Observation · 연구원은 주제를 연구하여 사람들이 자신이 하는 말을 하는지 여부를 이해하고 주제에 대한 암묵적 지식에 접근할 수 있도록 하기 위해 충분히 가까이 접근 Interview · 질문을 하거나 듣고 답변을 개인이나 그룹으로 구조화, 반 구조화 또는 비정형 형식으로 심층적인 방식으로 듣고 녹음하는 작업이 포함 Focus 그룹 토론 · 모두가 대화의 기회를 가지고 의견의 다양성을 제공할 수 있을 정도로 충분히 작은 그룹과 집중적이고 상호작용하는 세션 다른 방법들 · 신속한 평가 절차, 무료 목록, 말뚝 정력, 순위, 생활사 등
필요성
- 한국인 정신건강을 위한 감성대화 서비스 필요
- 한국인은 정신건강 문제를 많이 안고 있으나, 전문가와 상담하는 건수는 매우 10명 중 1명도 되지 않음. 음성비서를 활용한 감성대화 서비스가 필요
- 이에 따라 세대별로 감성대화 텍스트를 구축하여 딥러닝을 통해 감성대화 엔진을 개발 세대별 서비스를 제공함. 궁극적으로 한국인의 우울감을 낮추고, 자살률을 떨어뜨리는 데 기여할 것임
- 세대별 감성대화 서비스를 통해, 우울증 예방과 자살 방지, 심리적 안정과 행복 증진이 목적 - 노년층 감성대화 서비스 가능성 높음
- 실제로 노년층이 감성대화를 사용하는 비중이 높음
- AI 기반의 우울증 및 노인 돌봄 서비스가 지속적으로 나오고 있음
데이터 구조
- 데이터 정제
- 코퍼스 규칙
- 코퍼스 데이터
- 자의 페르소나 및 감정 상태에 따른 상황 제시
- 사용자 발화 코퍼스에 대한 시스템 응답 코퍼스 대응 수집
- 대화형 구어체 코퍼스 수집 및 정제
데이터셋 구축 담당자
수행기관(주관) : 미디어젠
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
송민규 | 02-6429-7104 | minks@mediazen.co.kr | · 프로젝트 총괄 관리 · 데이터 품질 관리 |