기본탭
구축 목적
- 음성합성을 통한 오디오북 제작
활용 분야
- 음성합성(text-to-speech; TTS), 오디오북 제작.
주요 키워드
- 음성합성, 오디오북
소개
- 소설, 동화, 자기계발, 뉴스, 어학 장르에 어울리는 음성을 합성하기 위해 활용.
구축 내용 및 제공 데이터량
- 총 58,559개의 wav 음성 파일 (44.1kHz, mono).
- 총 72시간 40분 44초의 음성 길이.
- 음성 파일당 평균 길이: 4.13초.
- 오 화자수: 13명. 남성 7명, 여성 6명. 한국어화자 11명, 영어 화자 남녀 각각 1명.
- 음성 데이터 녹음시 각 장르에 맞는 내레이션 기법 및 정확한 감정선이 표현될 수 있도록 오디오 연출.
- 오디오 클립 작업시 각종 노이즈(Lip noise외) 제거, 앞뒤 공백 0.5초, 페이드 인/아웃 처리.
- 자세한 정보는 아래 표로 첨부.
필요성
- 여러 장르에 어울리는 음성을 합성하기 위해 활용.
- 오디오북은 저작권 문제 때문에 공개된 데이터가 드묾.
- 음성합성을 목적으로 음성을 합성했기 때문에 음성합성에 적당한 음성길이로 녹음이 되어 음성합성을 위해 음성 파일을 자르는 수고를 덜 수 있어 경제적임.
데이터 구조
- stat 폴더: 전체 데이터셋에 대한 통계 자료가 있음
- wav 폴더: 음성 파일이 있음. 안에 각 장르 서적과 화자에 따라 폴더가 있음. 각 폴더 안에 서적에 따른 대사 번호로 음성 파일이 명명되어있음.
- script.xlsx: 각 장르 서적의 대사가 대사 번호와 함께 저장되어 있음.
데이터셋 구축 담당자
[주관기관 : 한국과학기술원 (KAIST 인공지능연구소)]
- 책임자명 : 이수영
- 대표 이메일 : sy-lee@kaist.ac.kr
- 실무자 : 조성재
- 실무자 이메일 : sungjae.cho.1118@gmail.com
- 담당업무: 음성합성 목적으로 오디오북 데이터셋 구축
[위탁기관 : ㈜레인보우보이스]
- 담당업무: 음성녹음 및 연구 목적 서적 저작권 확보
논문 인용 정보
- 한국어로 “카이스트 오디오북 데이터셋”으로 명시. 영어로는 “KAIST Audio Book Dataset”라고 명시.
화자에 따른 통계
화자 | 파일 수 | 음성 시간 통계 | ||||
---|---|---|---|---|---|---|
합 | 평균(초) | 중간값(초) | 최대값(초) | 최소값(초) | ||
남1 | 8,104 | 7h 7m 30s | 3.17 | 3 | 13.27 | 0.41 |
남2 | 11,154 | 12h 36m 49s | 4.07 | 3.62 | 12.7 | 0.93 |
남3 | 1,500 | 3h 12m 24s | 7.7 | 7.54 | 14.42 | 3.05 |
남4 | 1,766 | 3h 11m 39s | 6.51 | 6.22 | 13.94 | 3.11 |
남5 | 2,200 | 3h 12m 10s | 5.24 | 5.03 | 14.16 | 2.45 |
남6 | 1,880 | 3h 14m 56s | 6.22 | 5.97 | 13.59 | 2.71 |
남7(영어) | 3,104 | 3h 53m 36s | 4.52 | 4.13 | 12.49 | 2.21 |
여1 | 9,883 | 11h 46m 3s | 4.29 | 3.85 | 14.27 | 0.99 |
여2 | 10,140 | 11h 3m 5s | 3.92 | 3.68 | 20.49 | 0.28 |
여3 | 1,900 | 3h 5m 44s | 5.87 | 5.6 | 13.2 | 2.5 |
여4 | 1,604 | 3h 14m 38s | 7.28 | 7.16 | 14.9 | 3.16 |
여5 | 2,220 | 3h 12m 15s | 5.2 | 4.96 | 12.7 | 2.5 |
여6(영어) | 3,104 | 3h 49m 49s | 4.44 | 4.14 | 11.75 | 2.47 |
총합 | 58,559 | 72h 40m 44s | 4.47 | 4.13 | 20.49 | 0.28 |
서적에 따른 통계
서적 | 파일 수 | 음성 시간 통계 | ||||
---|---|---|---|---|---|---|
합 | 평균(초) | 중간값(초) | 최대값(초) | 최소값(초) | ||
뉴스 | 3,104 | 6h 27m 3s | 7.48 | 7.37 | 14.9 | 3.05 |
동화1 | 8,659 | 8h 10m 45s | 3.4 | 3.15 | 13.47 | 0.93 |
동화2 | 7,730 | 13h 4m 23s | 6.09 | 5.82 | 20.49 | 2.42 |
소설1 | 9,428 | 8h 34m 43s | 3.28 | 3.03 | 8.84 | 0.97 |
소설2 | 4,420 | 6h 24m 25s | 5.22 | 5 | 14.16 | 2.45 |
어학1 | 6,990 | 5h 1m 38s | 2.59 | 2.37 | 7.96 | 0.28 |
어학2 | 6,208 | 7h 43m 25s | 4.48 | 4.14 | 12.49 | 2.21 |
자기계발1 | 7,350 | 8h 27m 10s | 4.14 | 4.04 | 9.02 | 1.09 |
자기계발2 | 4,670 | 8h 47m 8s | 6.77 | 6.65 | 14.27 | 1.08 |
총합 | 58,559 | 72h 40m 44s | 4.47 | 4.13 | 20.49 | 0.28 |