차량 내 대화 및 명령어 음성 소개
기본탭
데이터셋명 | 차량 내 대화 및 명령어 음성 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 비디 | 데이터 관련 문의처 | 담당자명 | 이진희(비디) |
가공기관 | 미디어젠 | 전화번호 | 02-2025-4999 | |
검수기관 | 미디어젠, 세종대학교 | 이메일 | midi0225@bluedigm.com | |
구축 데이터량 | 460.8만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.10.22 | |
소개 | 차량 내 대화 및 명령어를 인식하여 문자로 바꾸어 주는 AI기술을 위한 음성 데이터 | |||
주요 키워드 | AI 스피커, AI 로봇, AI 키오스크, 스마트카, AI 기술, AI음성 비서, 자율주행차량, Voice Bot(Home to Car), Voice Bot(Car to Home) | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 업데이트 중 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.22 | 데이터 추가 개방 | |
1.1 | 2021.10.21 | 데이터 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 차량 내에서 발화한 한국인의 음성 대화 및 명령어를 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 차량 내 대화 및 명령어 기반 AI 학습용 한국어 음성 차량 데이터를 구축함으로써, 국내 음성인식 인공지능 기술을 발전시키고 서비스를 제공하고자 함
활용 분야
- 음성 서비스를 제공하고자 하는 기업과 기관 및 개인
소개

- AI 음성 서비스를 위한 음성 데이터를 다양한 환경에서 수집하여 생활 곳곳에서 음성 서비스를 가능하게 함.
- 차량 AI 명령어는 AI 음성비서, 자율주 행 차량, 홈투카, 카투홈 등의 서비스를 만들어낼 수 있음.
구축 내용 및 제공 데이터량
- 데이터 구축 프로세스
- - 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행 (정형 데이터 대상)
- - 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행 (정형 데이터 대상)
- 데이터 구축 규모
- - 음성 3,200시간 데이터 구축
- 음성 데이터 수집 도구
- - 스마트폰, 태블릿, PC 등 다양한 환경에서 크라우드 워커들의 데이터 수집 수행, 문장 단위 데이터 가공의 자동화로 효율적 수집 가능
- - 스마트폰, 태블릿, PC 등 다양한 환경에서 크라우드 워커들의 데이터 수집 수행, 문장 단위 데이터 가공의 자동화로 효율적 수집 가능
- 파일명 구조
- - 파일명으로 데이터 카테고리, 화자정보, 환경정보 등을 쉽게 구분.
- - 파일명으로 데이터 카테고리, 화자정보, 환경정보 등을 쉽게 구분.
- 데이터 검수 도구
- - 3단계의 강도 높은 검수를 통해 데이터 품질 확보.
- - 3단계의 강도 높은 검수를 통해 데이터 품질 확보.
- 어노테이션 구조
필요성
- 자율주행 제어 등 자동차 관련 기술 발전에 기여할 것으로 기대. 차량 내 음성인식은 자율주행의 UI로 가장 적합하기 때문에 관련 기술이 발전되어야 함. 본 사업은 그러한 토대를 마련해 줄 수 있을 것.
- 차량 명령어 AI 음성 데이터를 차량용 AI 비서에 활용 가능
- 음성 명령어 기반의 차량 전용 AI 비서 어플리케이션을 통하여, 스마트폰 조작이 어려운 운전 중에도 정보 탐색 및 습득에 대한 편의성과 접근성을 높일 수 있도록 함
데이터 구조
{ "기본정보":{ "Language" : "KOR", "Version" : "N/A", "ApplicationCategory" : "N/A", "NumberOfSpeaker" : "2484", "NumberOfUtterance" : "N/A", "DataCategory" : "readSpeech", "RecordingDate" : "N/A", "FillingDate" : "N/A", "RevisionHistory" : "N/A", "Distributor" : "MediaZen" }, "음성정보":{ "SamplingRate" : "48000", "NumberOfBit" : "16", "ByteOrder" : "N/A", "EncodingLaw" : "SignedIntegerPCM", "NumberOfChannel" : "1", "SignalToNoiseRatio" : "N/A" }, "전사정보":{ "LabelText" : "오늘 날씨를 알려줘", }, "화자정보":{ "SpeakerName" : "PCS", "Gender" : "Male", "Age" : "21~40", "Region" : "01", "Dialect" : "NotProvdied" }, "환경정보":{ "RecordingEnviron" : "Mart", "NoiseEnviron" : "Mart", "RecordingDevice" : "SmartPhone", }, "파일정보":{ "FileCategory" : "Audio", "FileName" : "test1_1_01_01_PCS_M_02_B.wav", "DirectoryPath" : "/path/to/the/folder", "HeaderSize" : "N/A", "FileLength" : "N/A", "FileFormat" : "PCM", "NumberOfRepeat" : "1", "TimeInterval" : "N/A", "Distance" : "50" }, "기타정보":{ "QualityStatus" : "Good", } }
데이터셋 구축 담당자
수행기관(주관) : 비디
책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
이진희 | 02-2025-4999 | midi0225@bluedigm.com | · 데이터구축 총괄 · 응용서비스 개발 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
미디어젠㈜ | · 데이터 검수 · AI 모델링 |
메트릭스리서치 | · 크라우드소싱 · 결과물 정제 및 검수 |
셀렉트스타 | · 비정형 데이터 정제 · 비정형 데이터 검수 |
세종대학교 | · 데이터 검증 및 연구활동 |