한국인 대화 음성 소개
기본탭
데이터셋명 | 한국인 대화 음성 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 솔루게이트 | 데이터 관련 문의처 | 담당자명 | 박준호(솔루게이트) |
가공기관 | 솔루게이트 | 전화번호 | 070-4405-7847 | |
검수기관 | 솔루게이트 | 이메일 | park1058@solugate.com | |
구축 데이터량 | 595만 | 구축년도 | 2020년 | |
버전 | 1.3 | 최종수정일자 | 2021.09.03 | |
소개 | 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터 | |||
주요 키워드 | AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링, 음성인식, 화자인식, 노이즈 제거 기술 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 업데이트 중 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.3 | 2021.09.03 | 개방데이터, 샘플데이터 품질 추가 보완 | |
1.2 | 2021.08.09 | 데이터 품질 보완 | |
1.1 | 2021.07.16 | 데이터 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축목적
- 연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축
활용분야
- 연구분야
- 음성인식, 화자인식, 노이즈 제거 기술 등의 연구에 활용 - 산업분야
- 온라인/오프라인 기반의 음성인식, 음성봇, AI비서, 외국어교육, 동시통역, 녹취록 작성, 청각 보완 실시간 자막 서비스 등에서 사용가능
주요 키워드
- AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링
소개
- 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI기술 개발을 위한 대화 음성 데이터 셋 구축
- 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함
구축 내용 및 제공 데이터량
- 원본 음성 데이터: 2,000H
- 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
- 성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
- FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
- 파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공
대표도면
- 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
(음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)
- 크라우드소싱 업체의 캐시미션 플랫폼을 활용하여 음원 녹음기능을 통해서 음원파일과 전사파일을 확보한다. 확보된 음원파일을 통해서 텍스트 전사(사람이 직접 음원파일 청취 후 전사)작업을 진행하고 매 업무마다 약식검수(크라우드소싱 업체 녹음자들이 크로스 체크를 통해서 검수 진행)를 진행한다.
필요성
- AI 학습데이터 셋 공유를 통한 민간 중심의 선순환 생태계 조성
- AI 기술개발에 양질의 AI 학습데이터 대규모 구축, 원천데이터 확보
- 기술 산업적으로 유망하고, AI 응용개발에 활용 가능한 범용성이 높은 AI 학습데이터 구축 및 공개
- AI 기술개발에 표준 가이드라인을 마련하고 단계적 품질 검증 확보
데이터 구조
- 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋
- 어노테이션 구조
어노테이션 구조 표 주제
구분주제
코드세부
주제세부
주제
코드성별
구분성별
코드세대
구분세대
코드거주
지역
구분거주
지역
코드화자
방언
구분화자
방언
코드출처
구분출처
코드음질
구분음질
코드방송 01 드라마 01 남 M 유아 C 서울
경기1 서울
경기1 방송 1 정상 1 영화 02 여 F 청소년 T 강원 2 강원 2 제작 2 노이즈 2 K-POP 03 일반성인 A 충청 3 충청 3 크라우드
소싱3 잡음 3 시사교양 04 고령층 S 경상 4 경상 4 기타 9 원거리 4 예능 05 기타 Z 전라 5 전라 5 연예인 06 제주 6 제주 6 회화 07 기타 9 기타 9 다큐 08 뉴스 09 스포츠 10 만화 11 여행 12 건강 13 역사 14 교육 15 기타 99
데이터셋 구축 담당자
수행기관(주관) : 솔루게이트
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
박준호 | 070-4405-7847 | park1058@solugate.com | · AI학습데이터 구축 개발 총괄PM · 원천데이터 확보 및 정제 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
코난 테크놀로지 |
· 저작도구 개발 및 자막 서비스개발, 데이터셋 후처리 가공 | 타임소프트 | · 회의록 서비스 개발, 메타데이터정보 구축 |