Anwendung von Deep-Learning-Modellen in der Geräuscherkennung
Die Anwendung von Deep-Learning-Modellen in der Klangerkennung hat einen umfassenden technischen Rahmen geschaffen. Sein Kernwert liegt darin, durch End-to-End-Lernen eine hochpräzise, multi-szenario-basierte Klangerkennung und semantisches Verständnis zu erreichen. Im Folgenden werden wichtige technische Anwendungsbereiche und typische Modellarchitekturen vorgestellt:
- Verwendung von CNNs zur automatischen Erlernung lokaler Merkmale (wie harmonische Struktur und Formanten) aus Mel-Spektrogrammen, wodurch das traditionelle manuelle Feature-Engineering unter Verwendung von MFCCs ersetzt wird. Dieser Ansatz verbessert die Klassifizierungsgenauigkeit in lauten Umgebungen auf dem UrbanSound8K-Datensatz um 27%.
- Leichte Modelle wie MobileNetV3, die tieftrennende Faltungen und PSA-Aufmerksamkeitsmodule verwenden, erreichen eine 100%ige Top-5-Genauigkeit bei der Vogelklangerkennung mit nur 2,6 Millionen Parametern.
- Die hybride CRNN-Architektur (CNN + BiLSTM) erfasst gleichzeitig die spektralen Eigenschaften und zeitlichen Abhängigkeiten von Schallereignissen und erzielt einen F1-Score von 92,3 % für die Erkennung plötzlicher Ereignisse wie Glasbruch.
- Transformer verwendet einen Self-Attention-Mechanismus zur Verarbeitung langer Audio-Sequenzen und erreicht eine Genauigkeit von über 99 % bei der Klassifizierung von Säuglingsschreien nach Hunger und Schmerz.
| Anwendungsbereiche | Technische Lösungen | Leistungsmetriken |
|---|---|---|
| Überwachung der Gesundheit von Haustieren | RNN-basiertes System zur Analyse von Sprach-Emotionen, unterstützt die Klassifizierung von über 10 Sprachtypen | |
| Sicherheit im Smart Home | End-to-End-Erkennung von abnormalen Geräuschen mit CNN+CTC | Reaktionszeit<200ms |
| Medizinische Diagnostik | Transfer-Learning-Sprachabdruckmodell (z. B. Urbansound-Architektur) zur Erkennung von pathologischem Husten | AUC 0,98 |
- Multimodale Fusion: Gemeinsames Training des visuellen YOLOv8-Modells und des LSTM-Audionetzwerks analysiert gleichzeitig Säuglingsbewegungen und Schreifrequenz, wodurch falsch-positive Ergebnisse um 38 % reduziert werden.
- Leichte Bereitstellung: Chips wie der WT2605A integrieren DNN-Inferenz-Engines, wodurch der Stromverbrauch des Sprachabdruckerkennungsmoduls auf 15 mW reduziert wird.
(Hinweis: Referenzziffern in der Tabelle sind außerhalb der Tabelle angegeben.)