감정 음성합성 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일
필요성
- 스마트폰/로봇 등을 기반으로 한 대화형 비서 서비스, 안내 서비스 등 음성 합성에 대한 필요성은 시간이 지날수록 높아지고 있음
- 사람과 비슷한 음성을 내기 위해서는 상황과 대화 흐름에 따라, 해당 감정에 알맞는 음성을 합성하는 기술이 필요하나, 동일 인물에 대한 다감정 음성 데이터셋은 공개된 바가 없음
구축 내용
- 30대 여성 성우 1인, 7가지 감정에 대해서 각각 3,000개 발화에 대한 음성 녹음을 수행하였음. 총 21,000개 음성 파일 구축
데이터 구조
- raw 폴더 아래에 acriil_(감정)_(문장번호).raw 파일 존재
- 해당 파일은 16bit, mono, 16KHz, PCM format의 음성 파일임
- txt 폴더 아래에 acriil_(감정)_(문장번호).txt 파일이 해당 pcm 파일의 텍스트
- 실제 발화 내용(발음)에 따라 텍스트가 수정되었으므로 txt 파일은 감정에 따라 상이할 수 있음