EINLADUNG zum AES- Section Meeting am 5.November 2002 – 18:00
- Österreichische Akademie der Wissenschaften Institut für Schallforschung – Phonogrammarchiv
- 1010 Wien, Reichratsstrasse 17, 1. Stock rechts
- Holger Waubke, Florian Kragl und Peter Balazs (Institut für Schallforschung der ÖAW)
MPEG-7 Audio (ISO/IEC JTC1/SC29/WG11), eine Kurzbeschreibung
MPEG-7 Audio bietet 5 Technologien an: ein Audio Description Framework (einschließlich skalierbarer Sequenzen, Low-Level Deskriptoren und ein vereinheitlichtes „Silence“ Segment), Beschreibungswerkzeuge für die Klangfarbe von Musikinstrumenten, Schallerkennungs-Werkzeuge, Beschreibungswerkzeuge für Spracherkennung und Melodie-Beschreibungswerkzeuge.
MPEG-7 Audio Description Framework
Das Audio Framework enthält Low-Level Tools, die als Grundlage für höherrangige Audio-Applikationen dienen. Sie bilden eine gemeinsame Basis für die Struktur der Beschreibungen und die Semantik allgemein anerkannter Audio Features. MPEG-7 Audio bildet ferner eine Plattform für Interoperabilität für alle Anwendungen, die sich des künftigen Standards bedienen.
Im wesentlichen bieten sich zwei Möglichkeiten an, Low-Level Audio Features einzusetzen. Die erste nimmt Werte, die aus einzelnen Samples errechnet werden, die zweite benützt Segmente um Bereiche zu markieren, die innerhalb der Signale ähnlich oder unähnlich sind. Beide Möglichkeiten sind in den Low-Level Deskriptoren implementiert: für skalare Werte, wie Pegel oder Grundfrequenz und für Vektor-Typen, z.B Spektren. Jeder dieser Deskriptoren kann unmittelbar für ein Segment als einzelner Wert oder für eine Folge von Samples bestimmt werden, je nachdem was die Anwendung erfordert.
Die solcherart bestimmten Werte können selbst wieder im Rahmen eines vereinheitlichten Interfaces in skalierbaren Sequenzen weiterverarbeitet werden: skalierbare Folgen gestatten das progressive Down-Sampling der Daten, je nach Applikation, Bandbreite oder Speicherbedarf. Der entstehende „Baum“ kann auch die verschiedensten Summenwerte aufnehmen, wie Minimum, Maximum, Mittelwerte und Varianzen der Deskriptorenwerte.
Die 7 Zeitfunktions- und spektralen Deskriptoren werden grob in folgende Gruppen zusammengefasst:
- Basic: Instantaneous (momentan) Wellenform and Pegel-Werte
- Basic Spectral: das Log-(Bark-) Frequenz-Leistungsspektrum und spektrale Flachheit (einschließlich spektrales Zentroid) und spektrale Ausdehnung
- Signal Parameter: Grundfrequenz quasiperiodischer Signale und Harmonizität
- Klangfarbe temporal: Log Attack Zeit und temporales Zentroid
- Klangfarbe spektral: spezielle spektrale Features auf linearer Frequenz-Skala, einschließlich ein spektrales Zentroid sowie spezifische spektrale Features für harmonische Signalteile, einschließlich harmonisches spektrales Zentroid, spektrale Abweichung, spektrale Ausdehnung und spektrale Variation
- Spektrale Basis-Repräsentationen: Features, die zur Wiedererkennung dienen, wie Basisfunktionen, die die Projektion in einen nieder-dimensionalen Raum erlauben um Kompaktheit für die Wiedererkennung zu gewinnen.
Während Low-Level Audio Deskriptoren sich in allen möglichen Applikationen wertvoll zeigen, erbringt bereits das spektrale Flachheitsmaß einen robusten Indikator für das Matching von Audio-Signalen. Anwendungen schließen ein: Audio Fingerprinting, Identification von Audio in Datenbasen mit bekanntem Inhalt, z.B. für das Auffinden von Signalen ohne Metadaten oder ohne Annotierung (Copyrights).
Ein zusätzliches aber höchst einfaches Tool ist im “Silence”-Deskriptor verfügbar, der als Hilfe für weitere Segmentierungen herangezogen wird.
Figure 1: MPEG-7 Audio-Segmentierungs-Schema [1] für ein Soundfile (vgl. unten OeAW_ISF: STOOLS-STx für Applikationen mit simultaner Verarbeitung einer Vielzahl von Soundfiles).
Figure 2: STOOLS-STx Multi-Layer Segmentierungssystem für Soundfiles: Sound Segmentadressen, Segment-Identifiers, optionale Links und Content Deskriptoren (Annotierungen) sind in Referenz- (Meta-) Datenfiles abgespeichert. Die relative Adressierung (Segment[Beginn, Ende, Dauer] +/- Zeit[h, min, s, ms, Samples])erlaubt nicht nur Überlappung in eine Richtung, sondern auch bidirektionale Segment- und Offsetspezifizierungen [2].
High-Level Audio Description Tools
Vier Gruppen von High-Level Deskriptoren sind derzeit spezifiziert: Schallerkennung, Klangfarbe von Musikinstrumenten, gesprochene Sprache und melodische Kontur.
Klangfarbe von Musikinstrumenten:
Klangfarben-Deskriptoren bauen auf perzeptiven Features der Instrumentenklänge auf. Klangfarbe ist derzeit wie folgt definiert:
Klangfarbe ist jene Eigenschaft einer auditiven Empfindung wonach ein Zuhörer zwei in gleicher Weise dargebotene Schälle, die dieselbe Lautheit und dieselbe Tonhöhe hervorrufen als unterschiedlich beurteilen kann. Klangfarbe ist neben Tonhöhe, Lautstärke und anderen Eigenschaften, ein Merkmal der Hörempfindung, das sich mehrdimensional auf verschiedenen Skalen ausdrücken läßt, z.B. hell-dunkel oder scharf-stumpf usw. Die Klangfarbe wird im wesentlichen durch den Verlauf des Spektrums bestimmt [NTG 1704].
Anmerkung: die Klangfarbe hängt in erster Linie vom Spektrum des Signals ab, aber ebenso von der Wellenform, dem Schalldruck, der Lage der Frequenzen im Spektrum und von den zeitlichen Charakteristika.
Ziel der Klangfarben-Deskriptoren ist es, die perzeptuellen Features mit Hilfe eines reduzierten Satzes von Deskriptoren zu beschreiben. Dazu gehören die Beschreibungen, wie Einschwingvorgänge (Attack), Helligkeit, Klangfülle usw. Vergleiche auf akustischer Basis wurden bereits zahlreich durchgeführt und haben für die Differenzierung von Instrumentenklassen eine experimentell abgeleitete Distanz-Metrik ergeben (vgl. dagegen Hornbostl-Sachs, Instrumentensystematik).
Sound Recognition Tools
Sound Recognition Deskriptoren und Beschreibungs-Schemata bilden eine Sammlung von Tools für die Indizierung und Kategorisierung von allgemeinen Schällen, insbesodere Ton-Effekten. Die Recognition Tools unterstützen die automatische Identifikation, wie auch die Aufstellung von Taxonomien von Signalklassen, bzw. die Spezifikation der Sound Recognizer.
Die Sound Recognition Tools verwenden Spectral Basis Deskriptoren als Grundlage. Die Basisfunktionen werden weiter verarbeitet in eine Sequenz von Zuständen, die ein oder mehrere statistische Modelle beinhalten, z.B. Hidden Markov (HMM) oder Gaussian Mixture Modelle (GMM) aber auch Artifizielle Neuronale Netzwerke (ANNs), die auf Übergangswahrscheinlichkeiten trainiert werden. Diese Modelle werden für sich selbst errichtet oder sie sind assoziiert zur Semantik der Originaltöne und/oder können sie verwendet werden, um neue Signale zu kategorisieren (Generalisierung und Differenzierung), bzw. dienen sie als Input für weitere, modifizierte Recognition Systeme.
Spoken Content Description Tools
Spracherkennungs – Tools für frei gesprochene Sprache ermöglichen die Erkennung von Wörtern in einem Audio-Stream. In Kenntnis der Tatsache, dass die derzeit verfügbaren Automatic Speech Recognition (ASR) Technologien nur begrenzt einsatzfähig sind, und man stets mit Out-of-Vocabulary Utterances zu rechnen hat, muss ein Kompromiss zur Kompaktheit und Robustheit im Rahmen der Such-Algorithmen eingegangen werden. Zur Erreichung dieses Zieles werden die Tools in erster Linie dazu eingesetzt, Zwischenergebnisse für die Automatic Speech Recognition zu erbringen. Nichtsdestotrotz können die ASR-Technologien sinnvoll in Retrieval-Szenarios eingesetzt werden.
Melody Description Tools
Die Melodie-Kontur-Beschreibung soll eine kompakte Repräsentation der melodischen Information liefern, die für Ähnlichkeitsvergleiche, z.B. query-by-humming eingesetzt werden kann. Das Melody Contour Description Scheme führt eine 5-stufige Kontur ein, in der die aneinanderliegenden Intervallabstände kodiert sind (Intervallschritt auf/ab, groß/klein...). Gemeinsam mit der Basis-Rhythmus-Information (Zählung der Takte), erhält man ein erstaunlich brauchbares Tool für Melodie-Matching in Abfrageprozeduren.
Applikationen, die eine genauere Schätzung der Melodie erfordern können auch Cent-Werte eingesetzt werden. Zur genaueren Erfassung des Rhythmus wird ferner das Log-Verhältnis der Zeitdifferenzen zwischen den Onsets der Noten bestimmt. Schließlich werden sonst verfügbare Meta-Daten wie z.B. Noten, Tonart, Metrum usw. erfasst, soferne verfügbar.Quellenangaben:
Der vorstehende Text wurde bearbeitet, ergänzt und frei übersetzt nach [1]
[1] José M. Martínez (UPM-GTI, ES) http://ipsi.fhg.de/delite/Projects/MPEG7/Documents/w4031mpeg7overview.htm
[2] STx User's Manual and Reference Guide http://www.kfs.oeaw.ac.at/software/stx_manual/index.htm