본문 바로가기
KT AIVLE SCHOOL

[BIG PROJECT] Audio classification 데이터 정리

by 얀나대장 2023. 6. 27.

1. UrbanSound8K

Urban Sound 8K는 air_conditioner, car_horn, children_playing, dog_bark, drilling, Enginge_idling, gun_shot, jackhammer, siren 및 street_music의 10개 클래스에서 도시 소리의 레이블이 지정된 **8732개의 사운드 발췌(<=4s)**를 포함하는 오디오 데이터 세트입니다. 클래스는 도시 사운드 분류에서 가져옵니다. 모든 발췌문은 www.freesound.org에 업로드된 현장 녹음에서 가져왔습니다.

  • class : 10개

The class name: air_conditioner, car_horn, children_playing, dog_bark, drilling, engine_idling, gun_shot, jackhammer, siren, street_music.

2. ESC-50

ESC-50 데이터 세트는 환경 소리 분류의 벤치마킹 방법에 적합한 2000개의 환경 오디오 녹음의 레이블이 지정된 컬렉션입니다. 데이터 세트는 5개의 주요 범주로 느슨하게 정렬된 50개의 의미 클래스(클래스당 40개의 예 포함)로 구성된 5초 길이의 녹음으로 구성됩니다.

  • class : 50개

 

  • model : BEATs

레퍼런스 1: BEATs: Audio Pre-Training with Acoustic Tokenizers 리뷰

레퍼런스 2: unilm/beats at master · microsoft/unilm

 

GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

github.com

 

3. Audio set

Audioset은 2백만 개 이상의 사람이 주석을 단 10초 비디오 클립으로 구성된 오디오 이벤트 데이터 세트입니다. 이 클립은 YouTube에서 수집한 것이므로 대부분 품질이 좋지 않고 여러 음원이 포함되어 있습니다. 632 이벤트 클래스의 계층적 온톨로지가 이러한 데이터에 주석을 달기 위해 사용되며, 이는 동일한 사운드가 다른 레이블로 주석이 달릴 수 있음을 의미합니다. 예를 들어, 짖는 소리는 Animal, Pets, Dog로 주석 처리됩니다. 모든 비디오는 Evaluation/Balanced-Train/Unbalanced-Train 세트로 나뉩니다.

  • class : 632개

 

댓글