1. UrbanSound8K
Urban Sound 8K는 air_conditioner, car_horn, children_playing, dog_bark, drilling, Enginge_idling, gun_shot, jackhammer, siren 및 street_music의 10개 클래스에서 도시 소리의 레이블이 지정된 **8732개의 사운드 발췌(<=4s)**를 포함하는 오디오 데이터 세트입니다. 클래스는 도시 사운드 분류에서 가져옵니다. 모든 발췌문은 www.freesound.org에 업로드된 현장 녹음에서 가져왔습니다.
- class : 10개
The class name: air_conditioner, car_horn, children_playing, dog_bark, drilling, engine_idling, gun_shot, jackhammer, siren, street_music.
2. ESC-50
ESC-50 데이터 세트는 환경 소리 분류의 벤치마킹 방법에 적합한 2000개의 환경 오디오 녹음의 레이블이 지정된 컬렉션입니다. 데이터 세트는 5개의 주요 범주로 느슨하게 정렬된 50개의 의미 클래스(클래스당 40개의 예 포함)로 구성된 5초 길이의 녹음으로 구성됩니다.
- class : 50개

- model : BEATs
레퍼런스 1: BEATs: Audio Pre-Training with Acoustic Tokenizers 리뷰
레퍼런스 2: unilm/beats at master · microsoft/unilm
GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities
Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities
github.com
3. Audio set
Audioset은 2백만 개 이상의 사람이 주석을 단 10초 비디오 클립으로 구성된 오디오 이벤트 데이터 세트입니다. 이 클립은 YouTube에서 수집한 것이므로 대부분 품질이 좋지 않고 여러 음원이 포함되어 있습니다. 632 이벤트 클래스의 계층적 온톨로지가 이러한 데이터에 주석을 달기 위해 사용되며, 이는 동일한 사운드가 다른 레이블로 주석이 달릴 수 있음을 의미합니다. 예를 들어, 짖는 소리는 Animal, Pets, Dog로 주석 처리됩니다. 모든 비디오는 Evaluation/Balanced-Train/Unbalanced-Train 세트로 나뉩니다.
- class : 632개
'KT AIVLE SCHOOL' 카테고리의 다른 글
| [KT AIVLE] mlflow를 활용한 MLOps 기초 배우기 (0) | 2023.09.11 |
|---|---|
| [colab] MFCC 오디오 모델 변수 정리 python (0) | 2023.06.27 |
| [KT AIVLE] 웹프로그래밍 기초 mongo DB 사용법 (0) | 2023.04.28 |
| [KT AIVLE] 웹프로그래밍 JAVASCRIPT 기초 문법 (0) | 2023.04.26 |
| [KT AIVLE] 웹 프로그래밍 기초 정리 및 VSCODE 환경설정 (0) | 2023.04.25 |
댓글