자유대화 음성(노인남녀) 소개
기본탭
데이터셋명 | 자유대화 음성(노인남녀) | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | NHN다이퀘스트 | 데이터 관련 문의처 | 담당자명 | 전기왕(NHN다이퀘스트) |
가공기관 | 원더풀플랫폼, NHN다이퀘스트, 셀바스AI | 전화번호 | 02-3470-4307 | |
검수기관 | 아임클라우드 | 이메일 | kiwang@diquest.com | |
구축 데이터량 | 432만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.10.28 | |
소개 | 한국인 중 노인남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 | |||
주요 키워드 | 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리, AI 비서, Voice Command & Control, AI 로봇 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 업데이트 중 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.28 | 데이터 품질 보완 | |
1.1 | 2021.10.07 | 데이터 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 노인 음성데이터의 경우 사투리, 억양 등의 발화 특성이 타 연령대와 다른 특성이 존재하기에, 노인 대상 음성 서비스를 위해서는 별도의 음성인식 데이터의 구축이 필요
활용 분야
- 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용
소개
- 자연어 자유대화 노인남여 학습데이터셋은 60세 이상 남여 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성
구축 내용 및 제공 데이터량
- 60세 이상의 연령인 남녀를 대상으로 데이터 수집
- 1,000명 이상의 발화자를 대상으로 3,000여 시간 이상의 음성 데이터 수집
대표도면
- 발화데이터
- Jason 데이터
필요성
- 노인의 경우 건강점검, 치매 등을 인공지능비서, 음성인식봇을 통해 원격의료 서비스로 제공 할 수 있지만, 사투리, 억양 등의 발화 특성이 타 연령대와 확연히 다르다는 과제가 존재하기에, 서비스의 성공적인 정착을 위해서는 해당 연령대의 음성인식 데이터 구축 필수적으로 요구됨
- 노인 대화 기반의 음성인식 서비스 개발 시 일반 음성 대화데이터를 사용할 경우 노인의 발화의 특성을 고려되지 않기에 음성인식 기반 서비스가 정상적으로 제공되지 않는 가능성이 존재하기 때문에 음성인식 기반 인공지능 서비스 사용에 대한 소외 계층이 발생 할 수 있음
- 따라서 비문법적인 표현, 말 줄임, 반복 등 실제로 노인이 일상생활에서 사용하는 언어의 특징이 반영된 한국어 음성 데이터를 구축 할 필요성이 있음
데이터 구조
- 데이터 형태
데이터 형태 표 수집 대상 형태 원천데이터 o PCM(WAV) 음성 파일
o 대상자 및 대화 시나리오 정보를 포함한 음성파일메타데이터 o Json 형태
o 대상자 상세정보 (성별 / 연령 / 지역)
o 녹음환경 정보 (실내 / 실외 : 대중교통, 거리 등)
o 대화 주제 및 상세내용
- 원천데이터(음성파일)은 각각의 파일명으로 구분 (Ex. sample1.wav) - 어노테이션 포맷
데이터 Naming 표 대분류 속성표기 의미 타입 필수여부 발화정보 recrdDt 녹음일시 String Y recrdTime 녹음시간 String Y stt 음성인식결과 String Y fileNm 파일명 String Y recrdQuality 녹음품질 String Y scriptSetNo 스크립트셋 번호 String scriptId 스크립트ID String 대화정보 colctUnitCode 수집방법 String Y convrsThema 대화주제 String Y cityCode 지역 String Y recrdEnvrn 녹음환경 String Y recrdUnit 녹음도구 String Y 녹음자정보 recorderId 녹음자ID String gender 성별 String Y age 나이 String Y
데이터셋 구축 담당자
수행기관(주관) : NHN다이퀘스트
책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
전기왕 | 02-3470-4307 | kiwang@diquest.com | · 데이터구축 총괄 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
NHN다이퀘스트 | · 음성 데이터 수집 및 가공 | 셀바스AI | · AI모델 개발, 음성 데이터 수집 및 가공 |
원더풀플랫폼 | · 음성데이터 수집 및 가공, 응용서비스 개발 | 아임클라우드 | · 음성 데이터 검수 및 응용서비스 개발 |