한국어 음성 소개
기본탭
데이터셋명 | 한국어 음성 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 한국전자통신연구원 | 데이터 관련 문의처 | 담당자명 | 김상훈(한국전자통신연구원) |
가공기관 | 전화번호 | 042-860-5141 | ||
검수기관 | 이메일 | ksh@etri.re.kr | ||
구축 데이터량 | 1,000시간 | 구축년도 | 2018년 | |
버전 | 1.0 | 최종수정일자 | 2019.05.15 | |
소개 | 대화형 음성 인식 성능 개선을 위한 음향 모델용 한국어 자유 발화 음성 데이터 구축 및 2,000여명의 발성 대화 음성 1,000시간을 구축한 자연어 데이터 제공 | |||
주요 키워드 | 일상 대화, 쇼핑 대화, 정치 대화, 경제 대화, 취미 대화, AI 비서, 동시통역, 감성형 대화 음성지능 서비스 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | ||
샘플데이터 | 교육활용동영상 | |||
저작도구 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2019.05.15 | 데이터 최초 개방 |
필요성
- 최근 대화형 AI 서비스의 글로벌 경쟁이 치열함에 따라 국내 산업체 지원을 위한 AI학습용 대화형 자유발화 음성DB 구축 시급
- 구글, 바이두 등 해외 경쟁업체는 수천~수만시간의 대용량 음성데이터를 AI 기술 개발에 활용하고 있으나 국내에서는 수십~백시간 수준의 소규모 데이터 구축으로 한정되어 AI 기술개발에 제약이 되고 있음
- 본 DB 활용을 통해 국가 간 사활을 걸고 있는 AI 분야 대화형 음성인식 기술경쟁 우위 확보 및 新서비스 창출로 글로벌 시장 점유 확대 및 AI비서, 외국어교육, 동시통역 등 AI 기반 음성인식 사용성의 획기적 개선으로 장애인, 다문화가족을 비롯한 일반 국민의 편익 향상이 기대됨
구축내용
- 대화형 음성인식 성능 개선을 위한 음향모델(Acoustic Modeling)용 한국어 자유발화 음성데이터 구축
- 조용한 환경에서 2,000여명이 발성한 한국어 대화음성 1,000시간 구축
- 두 사람이 다양한 주제(예: 일상, 쇼핑, 정치, 경제, 날씨, 취미 등)로 자유롭게 대화하는 음성을 녹음하고 발성내용을 ERTI전사규칙(예: 간투사, 머뭇거림 등)에 따라 철자전사
- 전사규칙 공유 http://aihub.or.kr/node/542
- 평가 데이터, 실험 하이퍼 파라메터 등에 관한 참고 자료(레퍼런스 페이퍼) : KsponSpeech (Korean Spontaneous Speech Corpus for Automatic Speech Recognition)
[ 한국어 음성 분야 대화 주제 표 예시 ]
데이터 종류 | 구축수량 | 포함 내용 | 제공 방식 |
---|---|---|---|
안부 일상 대화 | 자기소개 | 날씨 | 계절 |
거주지 정보 | 황사/미세먼지 | ||
이성친구 | 혹서기/혹한기 | ||
학교생활 | 장마/폭설 | ||
회사생활 | 온도 | ||
기념일 | 눈/비/안개 등 | ||
쇼핑 | 의류 | 취미 | 사진 |
전자기기 | 여행 | ||
생활용품 | 음식(맛집) | ||
악기 등 | 책 | ||
TV | 예능 | 운동 | |
드라마 | 전시회 | ||
영화 | 공연 | ||
연예인 | 블로그 | ||
시사 | 음악 | ||
정치 경제 | 정치 | 스포츠 | |
부동산 | 게임 | ||
주식 | 자동차 | ||
전공 | 전공(이과/문과) |
데이터 구조
- 발화 단위로 세그멘테이션된 음성파일(포맷: 16kHz/16bits, headerless (little endian) linear PCM)과 전사파일(포맷: EUC-KR)로 구성- [그림 1] 데이터처리, [그림 2] 자유 발화 녹음 장면
- 발화단위는 long pause 단위로, 1개 발화에는 복수 개의 문장으로 구성됨- [그림 3] 음성 검사 프로그램
- 구축DB의 크기는 총 123GB이며, 41개의 폴더에 3GB씩 음성/전사 파일을 할당함

데이터 활용 예
- 인공지능 기반 대국민 민원서비스(예: 음성 챗봇 기반 민원상담 콜센터, 다국어 자동 자막 방송, 검찰/대법원 속기록 작성) 개선
- AI 비서, 대화로봇, 동시통역, AI 튜터 등 대화형 음성인식 기술 개발
- 금융 및 보험 등 서비스 자동화, 스마트폰 응용서비스, 지능형 홈, IoT 서비스 등 음성기반 인공지능서비스 구현
- 청각장애인을 위한 방송 자동자막화, 신체장애자를 위한 음성명령 등 장애인을 위한 음성인터페이스 개발
- 고령화에 따른 독거노인 대화 서비스, 경찰, 소방관 등 정신노동자 상담 등 감성형 대화 음성지능 서비스
데이터 구축 담당자