한국인 외래어 발화 소개
기본탭
데이터셋명 | 한국인 외래어 발화 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | NHN다이퀘스트 | 데이터 관련 문의처 | 담당자명 | 전기왕(NHN다이퀘스트) |
가공기관 | 잉글리시헌트, 크라우드웍스, 셀바스AI | 전화번호 | 02-3470-4307 | |
검수기관 | 아임클라우드 | 이메일 | kiwang@diquest.com | |
구축 데이터량 | 576만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.10.28 | |
소개 | 통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터 | |||
주요 키워드 | 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리, AI 비서, Voice Command & Control, AI 로봇 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.28 | 데이터 품질 보완 | |
1.1 | 2021.10.07 | 데이터 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 인공지능 기반 한국어 음성인식 서비스의 활성화를 위한 자유대화 지식데이터 구축
활용 분야
- 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용
소개
- 자연어 자유대화 학습데이터셋은 일반 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성
구축 내용 및 제공 데이터량
- 한국인 외래어 발화
- - 한국인 외래어에 대해 2,000명 이상의 한국인 화자를 대상으로 4,000여시간 이상의 음성 및 텍스트 데이터 수집
대표도면
필요성
- 인공지능(AI)기반 음성인식 시장 경우 기술발달과 스마트 스피커 등 단말 판매 증가와 접점이 확대되고 있으며, 다양한 산업 간의 연계를 통한 기술이 적용되는 영역의 확대와 함께 사회적 관심과 수요가 증가하고 있음
- 인공지능(AI)기반 음성인식 서비스들은 학습을 통해 사용자의 의도에 맞는 답변을 줄 수 있는 특성을 가지고 있으나 아직은 국내 인공지능(AI)기반 음성인식 서비스들의 품질이 소비자들을 만족시키지 못하고 있음
- 인공지능(AI)기반 서비스의 품질 향상을 위해서는 양질의 데이터를 보유하고 관리하는 것이 핵심이며, 성공적인 AI기반 음성인식 서비스의 정착을 위해서는 양질의‘인공지능(AI) 학습 데이터 구축’이 필수 당면과제로 대두됨
- 인공지능(AI)기반 음성인식 기술개발을 위해서는 실제 잡음 환경에서 한국인이 일상생활에서 사용하는 발화의 특징이 반영된 한국어 음성 데이터 구축이 절실함
데이터 구조
- 데이터형태
한국인 외래오 발화 AI데이터 구조 표 수집 대상 형태 원천데이터 o PCM(WAV) 음성 파일
o 대상자 및 대화 시나리오 정보를 포함한 음성파일메타데이터 o Json 형태
o 대상자 상세정보 (성별 / 연령 / 지역)
o 녹음환경 정보 (실내 / 실외 : 대중교통, 거리 등)
o 대화 주제 및 상세내용- o 원천데이터(음성파일)과 메타데이터(Json)로 구분
- o 원천데이터(음성파일)은 각각의 파일명으로 구분 (Ex. sample1.wav)
- 어노테이션 포맷
한국인 외래오 발화 AI데이터 구조 표 대분류 속성표기 의미 타입 필수여부 발화정보 recrdDt 녹음일시 String Y recrdTime 녹음시간 String Y stt 음성인식결과 String Y fileNm 파일명 String Y recrdQuality 녹음품질 String Y scriptSetNo 스크립트셋 번호 String scriptId 스크립트ID String 대화정보 colctUnitCode 수집방법 String Y convrsThema 대화주제 String Y cityCode 지역 String Y recrdEnvrn 녹음환경 String Y recrdUnit 녹음도구 String Y 녹음자정보 recorderId 녹음자ID String gender 성별 String Y age 나이 String Y
데이터셋 구축 담당자
수행기관(주관) : NHN다이퀘스트
책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
전기왕 | 02-3470-4307 | kiwang@diquest.com | · 데이터 구축 총괄 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
NHN다이퀘스트 | · 응용 서비스 개발 | 셀바스AI | · AI모델 개발, 음성 데이터 수집 및 가공 |
잉글리시헌트 | · 음성 데이터 수집 및 가공 | 크라우드웍스 | · 음성 데이터 수집 및 가공 |
아임클라우드 | · 음성 데이터 검수 |