Zum Inhalt springen

Sensorische Systeme/ Computermodelle/ Auditorisches System Simulation

Aus Wikibooks


Computersimulationen des auditorischen Systems

[Bearbeiten]

Arbeiten mit Audio

[Bearbeiten]

Audiosignale werden in einer Vielzahl von Formaten gespeichert. Sie unterscheiden sich hauptsächlich in der verwendeten Kompression und Kodierung, welche offen oder proprietär sein kann. Auf Windows-Systemen ist das gängigste Format das WAV-Format (w: WAV). Es enthält einen so genannten Header mit Informationen über die Anzahl der Kanäle, die Abtastrate, die Bits pro Abtastung usw. Nach dem Header folgen die eigentlichen Audiodaten. Die gängigste Bitstream-Kodierung ist das LPCM-Format (w: Pulse-code_modulation, lineare Pulscodemodulation).

Viele Programmiersprachen verfügen bereits in der Standard-Bibliothek über Funktionen zum Lesen und Schreiben von WAV-Dateien. Wenn man mit einem anderen Format arbeitet, hat man grundsätzlich zwei Möglichkeiten:

  • Konvertierung der Audiodatei in das WAV-Format. Eine sehr umfassende, kostenlose und plattformübergreifende Lösung zum Aufnehmen, Konvertieren und Streamen von Audio und Video ist ffmpeg (http://www.ffmpeg.org/).
  • Spezialisierte Bibliotheken oder Module zum Lesen/Schreiben des gewünschten Formats. Die Verfügbarkeit von solchen Erweiterungen ist abhängig von der verwendeten Programmiersprache.


--- Progress of translation ---


Reminder of Fourier Transformations (w:Fourier_transform)

[Bearbeiten]

To transform a continuous function, one uses the Fourier Integral:

where k represents frequency. Note that F(k) is a complex value: its absolute value gives us the amplitude of the function, and its phase defines the phase-shift between cosine and sine components.

The inverse transform is given by

Fourier Transformation: a sum of sine-waves can make up any repititive waveform.

If the data are sampled with a constant sampling frequency and there are N data points,

The coefficients Fn can be obtained by

Since there are a discrete, limited number of data points and with a discrete, limited number of waves, this transform is referred to as Discrete Fourier Transform (DFT). The Fast Fourier Transform (FFT) is just a special case of the DFT, where the number of points is a power of 2: .

Note that each is a complex number: its magnitude defines to the amplitude of the corresponding frequency component in the signal; and the phase of defines the corresponding phase (see illustration). If the signal in the time domain "f(t)" is real valued, as is the case with most measured data, this puts a constraint on the corresponding frequency components: in that case we have

A frequent source of confusion is the question: “Which frequency corresponds to ?” If there are N data points and the sampling period is , the frequency is given by

In other words, the lowest frequency is [in Hz], while the highest independent frequency is due to the Nyquist-Shannon theorem. Note that in MATLAB, the first return value corresponds to the offset of the function, and the second value to n=1!

Spektralanalyse von biologischen Signalen

[Bearbeiten]

Leistungsspektrum von stationären Signalen

[Bearbeiten]

Die meisten FFT-Funktionen und -Algorithmen liefern komplexwertigen Fourier-Koeffizienten . Das Leistungsspektrum ist gegeben durch

und widerspiegelt den Beitrag der verschiedenen Frequenzen.

Leistungsspektrum von nicht-stationären Signalen

[Bearbeiten]

Üblicherweise ändert sich die Zusammensetzung eines Audiosignals über die Zeit. Bei diesen sogenannten nicht-stationären Signalen ist man demnach daran interessiert, wie sich das Leistungsspektrum über die Zeit verändert.

Am einfachsten ist es, jeweils nur ein kurzes Segment der Daten isoliert zu betrachten und das entsprechende Leistungsspektrum zu berechnen. Dieser Ansatz wird als Kurzzeit-Fourier-Transformation (STFT) bezeichnet. Dabei können jedoch Flanken-Artefakte die Signale erheblich verzerren, da wir davon ausgehen, dass unser Signal periodisch ist.

"Hanning window"

Um Flanken-Artefakte zu eliminieren, können die Signale gefiltert oder "gefenstert" werden (w: Window_function). Ein Beispiel für ein solches Fenster ist in der obigen Abbildung dargestellt. Während einige Fenster eine bessere Frequenzauflösung bieten (z. B. das Rechteckfenster), weisen beispielsweise das Hanning-Fenster weniger Artefakte wie den spektralen Leakage-Effekt auf.

Durch Multiplikation des Signals mit dem Filter erhält man das gefilterte Signal, welches als Grundlage für die STFT dient (linke Abbildung):

Effects of windowing a signal.

Das obige Beispiel zeigt, wie sich die Anwendung eines Fensters auf die spektrale Leistungsverteilung auswirkt (siehe Abbildung rechts). ( Der entsprechende Python-Code ist zu finden unter [1] )

Man beachte, dass eine Verringerung der Breite des Zeitfensters die Breite des entsprechenden Leistungsspektrums erhöht.

Stimulationsstärke eines Zeitfensters
[Bearbeiten]

Um das Leistungsspektrum für ein ausgewähltes Zeitfenster zu erhalten, wird zunächst das Leistungsspektrum mithilfe einer STFT des Zeitsignals berechnet. Dies resultiert in der Schallintensität pro Frequenz. Der zweite Schritt besteht darin, diese Intensitäten auf einige wenige Frequenzen zu konzentrieren ("Binning"). Das Ergebnis ist ein Schallsignal im Frequenzbereich, das aus einigen wenigen dedizierten Frequenzen besteht, welche mit der Position der Elektroden in der simulierten Cochlea übereinstimmen. Die Rückkonvertierung in den Zeitbereich ergibt das simulierte Schallsignal für dieses Zeitfenster.

Die folgende Python-Funktion verarbeitet ein gegebenes Signal:

import numpy as np

def pSpect(data, rate):
    '''Calculation of power spectrum and corresponding frequencies, using a Hamming window'''
    nData = len(data)
    window = np.hamming(nData)
    fftData = np.fft.fft(data*window)
    PowerSpect = fftData * fftData.conj() / nData
    freq = np.arange(nData) * float(rate) / nData
    return (np.real(PowerSpect), freq)

def calc_stimstrength(sound, rate=1000, sample_freqs=[100, 200, 400]): 
    '''Calculate the stimulation strength for a given sound'''

    # Calculate the powerspectrum
    Pxx, freq = pSpect(sound, rate)

    # Generate matrix to sum over the requested bins
    num_electrodes = len(sample_freqs)
    sample_freqs = np.hstack((0, sample_freqs))
    average_freqs = np.zeros([len(freq), num_electrodes])
    for jj in range(num_electrodes):
        average_freqs[((freq>sample_freqs[jj]) * (freq<sample_freqs[jj+1])),jj] = 1

    # Calculate the stimulation strength (the square root has to be taken, to get the amplitude)
    StimStrength = np.sqrt(Pxx).dot(average_freqs)

    return StimStrength

Schallübertragung durch Ohrmuschel und Außenohr

[Bearbeiten]

Das äußere Ohr ist in zwei Teile unterteilt: den sichtbaren Teil an der Seite des Kopfes (die Ohrmuschel) und den äußeren Gehörgang, welcher zum Trommelfell führt. Diese Gesamtstruktur trägt die "spektralen Hinweise" für die Schalllokalisierung bei, so dass neben der Schallerkennung und -Identifizierung auch eine Ortung der Schallquelle möglich wird. [2]

The Atonamy of Human Ear

Funktion der Ohrmuschel

[Bearbeiten]

Durch die konische Form der Ohrmuschel werden Schallwellen gesammelt und in den äußeren Gehörgang geleitet. Darüber hinaus wirkt die Ohrmuschel durch ihre verschiedenen Falten als Resonanzraum, der bestimmte Frequenzen verstärkt. Ferner sind die Interferenzen, die sich aus der von der Ohrmuschel verursachten Schallreflexion ergeben, richtungsabhängig und schwächen andere Frequenzen ab. Folglich kann die Ohrmuschel als eine Filterfunktion simuliert werden, die auf den eintreffenden Schall angewendet wird und dessen Amplituden- und Phasenspektrum moduliert.

Frequency Responses for Sounds from Two Different Directions by the Pinna [3]

Die Resonanz des Ohrmuschelhohlraums kann durch 6 Eigenmoden approximiert werden [4]. Unter ihnen dominiert der erste Mode, der hauptsächlich von der Tiefe der Ohrmuschel (d. h. der Tiefe des schalenförmigen Teils der Ohrmuschel, der dem Gehörgang am nächsten liegt) abhängt.

Wie in der rechten Abbildung [3] dargestellt, durchläuft der von der Ohrmuschel übertragene Schall zwei unterschiedliche Pfade; einen direkten und einen längeren reflektierten Pfad. Die beiden Pfade sind unterschiedlich lang und erzeugen dadurch Phasenunterschiede. Wenn die Phasendifferenz die Hälfte der Schall-Wellenlänge beträgt, wird die Interferenz von Schall über den direkten und den reflektierten Pfad destruktiv. Die resultierende Auslöschung bestimmter Frequenzen durch die Ohrmuschelreflexion wird als "Pinna Notch" bezeichnet [4]. Betroffen sind insbesondere Frequenzen im Bereich von 6k Hz bis 16k Hz, je nach Form und Orientierung der Ohrmuschel.Dadurch trägt die Ohrmuschel zu den räumlichen Anhaltspunkten für die Schalllokalisierung bei.

Funktion des Gehörgangs

[Bearbeiten]

Der äußere Gehörgang ist etwa 25 mm lang bei einem Durchmesser von 8 mm und verläuft gewunden vom Eingang des Kanals bis zum Trommelfell. Der äußere Gehörgang lässt sich somit als einseitig geschlossener Zylinder modellieren, was zu einer Resonanzfrequenz um 3k Hz führt. Auf diese Weise verstärkt der äußere Gehörgang Töne in einem für die menschliche Sprache wichtigen Frequenzbereich. [5]

Simulation des Außenohrs

[Bearbeiten]

Basierend auf den wesentlichen Funktionen des Außenohrs ist es möglich, die Schallübertragung durch die Ohrmuschel und den äußeren Gehörgang mit einem Filter oder einer Filterbank zu simulieren, sofern die Eigenschaften des Filters bekannt sind.

Viele Forscher befassen sich mit der Simulation des menschlichen Gehörs, einschließlich der Simulation des Außenohrs. Im nächsten Kapitel wird zunächst ein Modell der Ohrmuschel-bezogenen Übertragungsfunktion (Pinna-Related Transfer Function) vorgestellt, gefolgt von zwei MATLAB-Toolboxen, die von finnischen bzw. britischen Forschergruppen entwickelt wurden.

Modell der Ohrmuschel-bezogenen Übertragungsfunktion nach Spagnol

[Bearbeiten]

This part is entirely from the paper published by S.Spagnol, M.Geronazzo, and F.Avanzini. [6] In order to model the functions of the pinna, Spagnol developed a reconstruction model of the Pinna-Related Transfer Function (PRTF), which is a frequency response characterizing how sound is transduced by the pinna. This model is composed by two distinct filter blocks, accounting for resonance function and reflection function of the pinna respectively, as shown in the figure below.

General Model for the Reconstruction of PRTFs[6]

There are two main resonances in the interesting frequency range of the pinna[6], which can be represented by two second-order peak filters with fixed bandwidth [7]:

where


and is the sampling frequency, the central frequency, and the notch depth.

For the reflection part, three second-order notch filters of the form [8] are designed with the parameters including center frequency , notch depth , and bandwidth .

where is the same as previously defined for the resonance function, and

each accounting for a different spectral notch.

By cascading the three in-series placed notch filters after the parallel two peak filters, an eighth-order filter is designed to model the PRTF.
By comparing the synthetic PRTF with the original one, as shown in the figures below, Spagnol concluded that the synthesis model for PRTF was overall effective. This model may have missing notches due to the limitation of cutoff frequency. Approximation errors may also be brought in due to the possible presence of non-modeled interfering resonances.

Original vs Synthetic PRTF Plots[6]

HUTear MATLAB Toolbox

[Bearbeiten]
Block Diagram of Generic Auditory Model of HUTear

HUTear ist eine MATLAB-Toolbox für die Gehörmodellierung, welche vom Labor für Akustik und Audiosignalverarbeitung der Technischen Universität Helsinki entwickelt wurde [9]. Die Open-Source-Toolbox kann von hier heruntergeladen werden. Die Struktur der Toolbox ist in der rechten Abbildung dargestellt.

Das Modell enthält ein Modul für die Simulation des Außen- und Mittelohrs (OME). Das OME-Modul wurde auf der Grundlage der Forschung durch Glassberg und Moor [10] entwickelt. Der verwendete Filter ist üblicherweise linear und wird unter Einbezug der Korrekturen Equal Loudness Curves at 60 dB (ELC) / Minimum Audible Fiel (MAF) / Minimum Audible Pressure at ear canal (MAP) erstellt. Durch Parametrisierung lassen sich die MAP-IIR-Näherung und die MAP-Daten vergleichen, wie in der Abbildung unten dargestellt.

UI of OEMtool from HUTear Toolbox

MATLAB-Modell der auditiven Peripherie (MAP)

[Bearbeiten]

MAP wurde von Forschern des Hearing Research Lab an der University of Essex in England entwickelt [11]. Es handelt sich um ein Computermodell der Gehör-Physiologie und ist ein offen zugängliches Software-Paket, das hier heruntergeladen werden kann. Die Struktur des Modells ist in der rechten Abbildung dargestellt.

MAP Model Structure

Innerhalb des MAP-Modells gibt es das Untermodul "Outer Middle Ear (OME)", welches die Resonanzfunktion des äußeren Mittelohrs modelliert. Diese setzt sich zusammen aus zwei parallelen Bandpassfiltern, welche die Concha-Resonanz und die Resonanz des äußeren Gehörgangs abbilden. Beide Filter werden über ihren jeweiligen Durchlass-Frequenzbereich, die Verstärkung und die Ordnung spezifiziert. Durch Addition des gefilterten Signals zur ursprünglichen Schalldruckwelle resultiert das "Ausgangssignal" des äußeren Mittelohrs.

Um das OME-Modell zu testen, muss die Funktion "testOME.m" ausgeführt werden. Es wird eine Abbildung angezeigt, die die Außenohrresonanzen und die maximale Verschiebung des Steigbügels darstellt (wie in der Abbildung unten dargestellt).

External Ear Resonances and Stapes Peak Displacement from OME Model of MAP

Zusammenfassung

[Bearbeiten]

Die Resonanz- und Reflexionswirkung auf den ankommenden Schall durch das Außenohr, einschließlich Ohrmuschel und äußerem Gehörgang, kann als linearer Filter oder als Filterbank simuliert werden. Da die Form der Ohrmuschel von Person zu Person unterschiedlich ist, sind auch die Modellparameter wie Resonanzfrequenzen individuell zu wählen.

Ein Aspekt, der in den oben beschriebenen Modellen nicht berücksichtigt wird, ist die kopfbezogene Übertragungsfunktion (Head-Related Transfer Function, HRTF). Die HRTF beschreibt, wie das Ohr den Schall von einer punktförmigen Schallquelle im Raum empfängt. Sie wird hier nicht weiter erläutert, da sie über die Wirkungsweise des Außenohrs hinausgeht und auch die komplexe Filterwirkung von Kopf und Rumpf beschreibt. Für den interessierten Leser gibt es eine Fülle von Literatur und Veröffentlichungen zur HRTF (wiki, tutorial 1,2, Leseliste für räumliche Audioforschung einschließlich HRTF)

Simulation des Innenohrs

[Bearbeiten]

Die Form und der Aufbau der Basilarmembran führen dazu, dass einzelne Membranabschnitte durch dedizierte Frequenzen besonders stark in Resonanz versetzt werden. Dies führt zu einer tonotopischen Organisation der Empfindlichkeit für Frequenzbereiche entlang der Membran, welche als eine Reihe sich überlappender Bandpassfilter modelliert werden kann: die "auditorischen Filter"[12].

Die auditorischen Filter sind Punkten entlang der Basilarmembran zugeordnet. Sie modellieren die Frequenzselektivität der Cochlea und damit die Unterscheidung zwischen verschiedenen Tönen durch den Hörer [13].

Filter mit einer Selektivität für hohe Frequenzen korrespondieren mit der Basis der Cochela, während Filter für tiefe Frequenzen dem oberen Ende der Cochlea zugeordnet werden [13][14]. Alle Filter sind nichtlinear und pegelabhängig. Die Bandbreite der auditiven Filter wird auch als Frequenzgruppe oder kritische Frequenzbandbreite bezeichnet.

ERB related to centre frequency. The diagram shows the ERB versus centre frequency according to the formula of Glasberg and Moore.[13]

Ein weiteres Konzept im Zusammenhang mit dem auditorischen Filter ist die äquivalenten Rechteckbandbreite ("equivalent rectangular bandwidth", ERB). Die ERB zeigt die Beziehung zwischen dem auditorischen Filter, der Frequenz und der kritischen Bandbreite auf. Ein ERB lässt dieselbe Energiemenge durch wie der entsprechende auditorische Filter und zeigt, wie dieser sich in Abhängigkeit von der Eingangsfrequenz verändert[13]. Bei niedrigem Schallpegel wird das ERB nach Glasberg und Moore durch die folgende Gleichung angenähert:[13]

wobei die ERB in Hz und die Mittenfrequenz F in kHz angegeben ist.

Man geht davon aus, dass jeder ERB etwa 0,9 mm auf der Basilarmembran entspricht[13][14].

Gammatone Filter

[Bearbeiten]
Sample gamma tone impulse response.

Ein Filtertyp, der zur Modellierung der auditorischen Filter verwendet wird, ist der "Gammatone-Filter". Er nutzt einen einfachen linearen Filter zur Beschreibung der Dislokation des korrespondierenden Basilarmembran-Abschnitts bei einem bestimmten Schalleingang. Lineare Filter werden gerne zur Modellierung verschiedener Aspekte des auditorischen Systems eingesetzt, da diese leicht zu implementieren ist.

Im Allgemeinen handelt es sich dabei um IIR-Filter (Infinite Impulse Response) mit Vorwärts- und Rückkopplung, die wie folgt definiert sind

mit a1=1

Die Koeffizienten ai und bj bestimmen diesen Filtertyp eindeutig. Der Rückkopplungscharakter dieser Filter wird deutlicher, wenn man die Gleichung umformt

Im Gegensatz dazu sind FIR-Filter, also Filter mit endlicher Impulsantwort, nur vorwärts gerichtet: für sie gilt for i>1.

General description of an "Infinite Impulse Response" filter.

Lineare Filter können die nichtlinearen Aspekte des auditorischen Systems nicht berücksichtigen. Dennoch werden sie in einer Vielzahl von Modellen des auditorischen Systems verwendet. Die Impulsantwort des Gammatons ist gegeben durch

wobei für die Frequenz, für die Phase des Trägersignals, für die Amplitude, für die Ordnung des Filters, für die Bandbreite des Filters und für die Zeit steht.

Dies ergibt eine Sinuskurve mit einer Amplitudenhüllkurve, die einer skalierten Gammaverteilungsfunktion entspricht.

Variationen und Verbesserungen des Gammatone-Filter sind unter anderem der Gammachirp-Filter, der Ganzpol- und der 0-1-Gammatone-Filter, der zweiseitige Gammatone-Filter und Filterkaskadenmodelle sowie verschiedene pegelabhängige und nichtlineare Versionen dieser Modelle [15].

Für Computersimulationen stehen effiziente Implementierungen von Gammatone-Modellen in Matlab und Python zur Verfügung[16].

Mit Hilfe der Gammatone-Filtern und dem Parseval-Theorem lässt sich ausserdem die Energie in einem bestimmten Frequenzband bestimmen:

Sensory Systems/Computer Models/Auditory System Simulation/PerceptualAudioCoding

Perzeptive Audiocodierung und Filtereigenschaften der Cochlea

[Bearbeiten]

Der folgende Abschnitt diskutiert die grundlegenden Mechanismen der perzeptiven Audiocodierung. Die zugrundeliegenden psychoakustischen Prinzipien werden erläutert und die Beziehung zu den Filtereigenschaften der Cochlea und höheren kortikalen Verarbeitungsstufen aufgezeigt.

Perzeptive Audiocodierung

[Bearbeiten]

Mp3 (MPEG-1 Layer 3, Vorgänger von MPEG-2 und MPEG-4 Advanced Audio Coding (AAC)) ist das wohl bekannteste Audioformat, das die perzeptive Kodierung von Audiosignalen nutzt. AAC ist eine effizientere Erweiterung, erzielt im Allgemeinen eine bessere Klangqualität und ermöglicht eine größere Bandbreite, beruht aber auf denselben Kodierungsprinzipien wie Mp3. Beide Formate sind von ISO und IEC genormt, aber nur der Decoder ist vollständig spezifiziert, die Implementierung des Encoders bleibt offen. Dies führte zu einer Vielzahl von verfügbaren Encodern, die sich in der Wiedergabequalität, der erzielten Bitrate, der Leistung und der Kodiereffizienz unterscheiden [17].

Klassische Komprimierungs-Algorithmen verfolgen in der Regel das Ziel, Informationen mit einer minimalen Anzahl von Bits darzustellen und dabei die Qualität der Signalwiedergabe beizubehalten. Im Gegensatz dazu berücksichtigt die perzeptive Audiocodierung das Wissen um das menschliche Gehör und reduziert die Bitrate durch das Entfernen von Informationen, die für die meisten Hörer irrelevant sind.

Diese verlustbehaftete Komprimierung wird durch Ausnutzung der Eigenschaften des menschlichen Gehörs und statistischer Redundanzen erreicht. Die übliche Bitrate für MP3 ist 128 kbit/s, und effiziente Kodierer erreichen bei der Komprimierung von Audiodaten in CD-Qualität (16 bit PCM, 44,1 kHz, ≈ 1411 kBit/s) in der Regel eine Datenreduzierung um den Faktor 10. Anders ausgedrückt: Etwa 90 % der auf einer CD gespeicherten Daten können vom Hörer nicht wahrgenommen werden.

CD-Qualität ist das, was die Nutzer beim Musikhören in der Regel erwarten. Es gibt eine lange Debatte darüber, ob CD-Qualität gut genug ist, um den analogen Originalton zu reproduzieren. Unter den vielen verschiedenen Expertenmeinungen sind diese beiden Referenzen [17][18] für eine weitere Lektüre interessant. Die Notwendigkeit einer effizienteren Audiocodierung ergibt sich aus Netzwerk-, Multimediasystem- und Speicheranwendungen, und Mp3 wurde ursprünglich für die effizientere Übertragung von audiovisuellen Inhalten entwickelt.

Das theoretische Limit der perzeptiven Audiocodierung wurde von Johnston [19] untersucht, was zu dem Begriff der perzeptiven Entropie führte. Auf der Grundlage von Messungen wurde die perzeptive Entropie für Audio in CD-Qualität auf etwa 2 Bit pro Sample geschätzt. Moderne Kodierer bestätigen dies und erreichen eine vergleichbare Effizienz [20]. Die Qualität eines perzeptiven Kodierungsalgorithmus wird in der Regel durch Hörtests und jüngst auch in Kombination mit einem standardisierten Algorithmus für die objektive Messung der wahrgenommenen Audioqualität, der Perceptual Evaluation of Audio Quality (PEAQ), bewertet.

Architektur eines perzeptiven Audiocodierers

[Bearbeiten]
Basic architecture of a perceptual audio encoder

Die für perzeptiven Audiocodierer übliche Grundarchitektur ist in der Abbildung rechts dargestellt. Die Filterbank abstrahiert die zeitlichen und spektralen Signalverarbeitung des menschlichen Gehörs. Die Audioeingabe wird in Segmente unterteilt, die in eine Reihe von Parametern umgewandelt werden, welche wiederum quantisiert und kodiert werden können. Die Quantisierungs- und Kodierungsphase nutzt statistische Redundanzen und stützt sich auf Schwellenwerte, die vom perzeptiven Wahrnehmungsmodell abgeleitet sind.

Weiter liefert das perzeptive Wahrnehmungsmodell Schwellen für die Maskierung als Funktion der Frequenz. In der abschliessenden Kodierungsphase werden verlustfreie Kodierungstechniken wie die Huffman-Kodierung verwendet. Für eine technische Erklärung des Algorithmus und eine Beispielimplementierung wird hiermit auf die Online-Bücher von J.O. Smith verwiesen.

Psychoakustische Prinzipien der perzeptiven Audiocodierung

[Bearbeiten]

Auditive Maskierung beschreibt ein Phänomen, bei dem die Wahrnehmung eines Geräuschs durch die Anwesenheit eines anderen Geräuschs beeinträchtigt wird. Maskierungseffekte treten sowohl im Frequenzbereich (simultane Maskierung) als auch im Zeitbereich (nicht-simultane Maskierung) auf.

Die grundlegende Idee der perzeptiven Audiocodierung besteht darin, das Quantisierungsrauschen so zu verändern, dass es durch das eigentliche Audiosignal maskiert wird und daher vom Hörer nicht wahrgenommen werden kann.

Dies wird durch die Nutzung psychoakustischer Prinzipien wie der Schwelle des absoluten Gehörs, der Analyse der kritischen Frequenzbänder und der auditorischen Maskierung erreicht [20]. Da der Wiedergabepegel in der Kodierungsphase oft nicht bekannt ist, werden in der Regel konservative Schätzungen der absoluten Hörschwelle zur Signalnormalisierung verwendet.

Simultane Maskierung

[Bearbeiten]
Adapted from Jayant et al.[21]. Spreading function for simultaneous masking. Critical-band noise masker of varying intensity at 1 kHz.

Bei der simultanen Maskierung spielt die Frequenzauflösung der Cochlea eine zentrale Rolle. In der Cochlea findet eine Frequenz-Ort-Umwandlung statt, und es ergeben sich unterschiedliche Bereiche, die auf verschiedene Frequenzbänder abgestimmt sind. Diese unterschiedlichen Frequenzbereiche werden als kritische Bandbreite des Hörens (oder Frequenzgruppe) bezeichnet. Die kritische Bandbreite bleibt in der Regel konstant ≈ 100 Hz bis 500 Hz und steigt oberhalb von 500 Hz auf etwa 20 % der Mittenfrequenz an [20]. Die ersten 24 Frequenzgruppen werden durch die Bark-Skala beschrieben. Ein Ton führt zur Erregung der Basilarmembran, was die Erkennungsschwelle für einen zweiten Ton innerhalb derselben Frequenzgruppe beeinflusst (Intrabandmaskierung). Darüber hinaus werden auch benachbarte Frequenzgruppen beeinflusst (Interbandmaskierung). Die Beeinflussung benachbarter Gruppen wird durch die Spreading-Funktion beschrieben.

Die Abbildung auf der rechten Seite zeigt eine empirisch ermittelte Spreading-Funktion. Wie in der Abbildung dargestellt, ist die Maskierung von höheren Frequenzgruppen effizienter als die von niedrigeren Frequenzgruppen, was als upward spread der Maskierung bezeichnet wird. Es wird vermutet, dass diese Ausbreitung ein Nebenprodukt der mechanischen Filtereigenschaften der Cochlea ist, bei der die äußeren Haarzellen die Bewegung der Basilarmembran verstärken um so die Frequenzauflösung zu erhöhen[21]. Der Grund für die Ausbreitung der Maskierung für ist allerdings nicht abschliessend geklärt, und neben der mechanischen Anregung könnte auch Unterdrückung eine Rolle spielen [21]. Weiter zeigt die ermittelte Spreading-Funktion auch nichtlineare Übertragungscharakteristik des Innen- und Mittelohrs, wodurch bei höheren Schalldruckpegeln ein zweiter Ausschlag um 2 kHz (die zweite Harmonische von 1 kHz) auftritt [21].

Das Vorliegen eines starken Rausch- oder Tonmaskierers erzeugt somit eine ausreichend starke Anregung an der Basilarmembran, um die Übertragung eines schwächeren Signals in seiner Frequenzgruppe wirksam zu blockieren. Weiter sind durch die Ausbreitung der Maskierung auch benachbarte Gruppen betroffen.

Es werden zwei Arten von simultaner Maskierung beobachtet:

  • Rauschen wird durch das Signal maskiert. Es lässt sich einen unteren Schwellenwert für das Rauschen ermitteln, sodass es durch ein gegebenes Signal gerade noch maskiert wird.
  • Das Signal wird durch Rauschen maskiert. Es lässt sich einen oberen Schwellenwert für das Rauschen ermitteln, sodass es ein Signal vollständig maskiert.

Bei der perzeptiven Audiocodierung werden diese Schwellenwerte basierend auf der Zeit-Frequenz-Analyse interpoliert. Anschliessend wird die Spreading-Funktion berücksichtigt. Das objektive Signal-Rausch-Verhältnis (SNR) kann sehr niedrig sein während das subjektive SNR hoch genug ist, um eine für den Höhrer transparente Kodierung zu erreichen [21].

Nicht-simultane Maskierung

[Bearbeiten]
Adapted from Jayant et al.[21] Non-simultaneous masking. A sharp transient creates masking effects that influence the auditory perception of two signals in time domain. The perception before (pre- or backward masking) as well as after the transient (post- or forward masking) is affected.

Akustische Reize in Musik oder Sprache sind oft charakterisiert durch einen Einschwingvorgang: Einen kurzen, hochfrequenten und nicht-periodischen Ausschlag zu Beginn des Tones, der beispielsweise beim Klavier durch den Anschlag einer Taste entsteht. Diese sogenannten Transiente können Maskierungseffekte im Zeitbereich verursachen. Die Wahrnehmung vor und nach dem Einschwingvorgang ist betroffen, wie in der Abbildung dargestellt. Der Bereich der Rückwärtsmaskierung dauert in der Regel wenige Millisekunden, der Bereich der Vorwärtsmaskierung dauert deutlich länger [20].

Dieses Phänomen ist nicht vollständig verstanden und ein aktives Forschungsthema. Es gibt jedoch Hinweise darauf, dass eine höhere kortikale Verarbeitungsstufe daran beteiligt ist. Es ist jedoch unklar, ob dieser Effekt mit der Integration von Geräuschen, der Unterbrechung oder Hemmung der neuronalen Verarbeitung und/oder Unterschieden in den Übertragungsgeschwindigkeiten zusammenhängt. Vorwärts- und Rückwärtsmaskierung weisen unterschiedliche Merkmale auf und sind daher vermutlich auf unterschiedliche Eigenschaften des menschlichen Hörsystems zurückzuführen [22].

2.2.3 Maskierung und Joint Stereo Codierung (Kanalkoppelung)

[Bearbeiten]

Eine effiziente Technik, die bei der Audiocodierung häufig zum Einsatz kommt, ist die Kanalkoppelung. Da der linke und der rechte Audiokanal eines Audiosignals in der Regel stark korreliert sind, ist es manchmal effizienter, eine Summen- bzw. Differenzcodierung (L-R, L+R) des Audiosignals durchzuführen. Im Fall von MP3 wurde dieses Potenzial leider nicht voll ausgeschöpft.

Ein solches Verfahren würde die Schwellenwerte für Links/Rechts- und Summen-/Differenzkodierung vergleichen und dynamisch den effizientesten Schwellenwert wählen. Bei der Berechnung der Schwellenwerte ist besondere Vorsicht geboten, da die Kanalkoppelung beim binauralen Hören wahrnehmbare Artefakte verursachen kann [21].

Da der Kompressionsfaktor inhaltsabhängig ist, wird bei Mp3 und AAC stattdessen die Kodier-Bitrate festgelegt: Eine niedrigere Bitrate führt zu einem höheren Kompressionsverhältnis und eine höhere Bitrate zu einem niedrigeren Kompressionsverhältnis. Letztere verringert die Wahrscheinlichkeit für mögliche Artefakte. Als Folge ergibt sich ein optimaler Arbeitsbereich (Bitrate), in dem ein bestimmter Algorithmus am besten funktioniert, während sich bei noch höherer Bitrate die Qualität nur geringfügig verbessert [17].

Im Gegensatz zu Rausch- und Verzerrungsartefakten von Abspielgeräten, an die wir alle beim Hören von CDs gewöhnt sind, können Artefakte von perzeptiven Encodern als störend empfunden werden. Wenn die Bitrate für eine transparente Kodierung zu niedrig ist, lassen sich Rauschen und Verzerrungen als zeitvariantes Signal beschreiben. Aufgrund der sich von Frame zu Frame ändernden Bandbreite sind die Verzerrungen nicht mehr harmonisch zusammenhängend. Das Ergebnis kann daher rau klingen [17].

Bandbreitenverlust

[Bearbeiten]

Um eine gegebene Bitrate zu erreichen, suchen Kodierer einen Kompromiss zwischen der Frequenzbandbreite und der Abdeckung von niedrigen Frequenzen. Da grosse Unterschiede in der Bandbreite zwischen den Frames als störend empfunden wird, wirken Kodierer diesem Artefakt im Allgemeinen durch eine Begrenzung der maximalen Bandbreite entgegen.

Preecho (Vorhall)

[Bearbeiten]

Der Vorhall wird durch die Framegröße des perzeptiven Encoders bestimmt und ist das am schwierigsten zu vermeidende Artefakt. Abrupte Transiente in der Mitte eines Frames können sich über die Rückwärtsmaskierung ausbreiten und somit hörbar werden. Es gibt verschiedene Techniken, um das Auftreten von Vorhall zu minimieren, z. B. eine Analysefilterbank mit variabler Framegröße [17].

Preecho is the most difficult error to avoid and is related to the frame size of the perceptual encoder. If a strong attack of an audio signal occurs in the middle of a frame the calculated threshold for the noise might spread over the backward masking region due to the frame size and thus become audible. There are various techniques to minimize the occurrence of preechos, such as a variable frame size analysis filterbank.[17]

Bezug zu den Filtereigenschaften der Cochlea

[Bearbeiten]

Die perzeptive Kodierung nutzt aktuelle Erkenntnisse über die Eigenschaften des menschlichen Gehörs. Die Cochlea sowie akustischen und mechanischen Eigenschaften des Mittel- und Außenohrs bestimmen die absolute Hörschwelle. Bei der simultanen Maskierung ergeben sich die Maskierungsschwellen innerhalb und zwischen den kritischen Bändern (die Spreading Funktion) aus den Filtereigenschaften der Cochlea.

Andere Phänomene, wie das upward spreading der Maskierung, sind jedoch nicht abschliessend durch die Eigenschaften der Cochlea zu erklären. Der Effekt der zeitlichen Maskierung sowie Artefakte bei der lassen auf den Einfluss einer höheren kortikalen Verarbeitung im Hörsystem schliessen.

Menschliche Sprache

[Bearbeiten]

Terminologie

[Bearbeiten]

Lautstärke

[Bearbeiten]

Die Intensität des Schalls wird in der Regel in Dezibel (dB) ausgedrückt, definiert als

wobei SPL für den Schalldruckpegel (in dB) steht und für den Referenzdruck. Man beachte, dass dieser Wert viel kleiner ist als der Luftdruck (ca. 105 N/m2). Oft wird Schall relativ zum "Hörpegel" angegeben:

  • 0 - 20 dB SPL ... Hörpegel (0 dB für Sinustöne, von 1 kHz - 4 kHz)
  • 60 dB SPL ... mittelhoher Ton, gesprochene Sprache

Die Grundtonfrequenz, die sich aus den Schwingungen der Stimmbänder im Kehlkopf ergibt, beträgt bei erwachsenen Männern etwa 120 Hz, bei erwachsenen Frauen 250 Hz und bei Kindern bis zu 400 Hz.

Frequency- and loudness-dependence of human hearing loss.

Formanten

[Bearbeiten]

Die dominanten Frequenzen in der menschlichen Sprache werden als Formanten bezeichnet. Sie werden durch Resonanz und Interferenzeigenschaften des Mundes verstärkt und zeigen sich als deutliche Ausschläge der Energie im Frequenzspektrum. Sie sind in aufsteigender Reihenfolge nummeriert, beginnend mit dem Formant der niedrigsten Frequenz.

Spectrogram of the German vowels "a,e,i,o,u". These correspond approximately to the vowels in the English words "hut, hat, hit, hot, put". Calculated using the MATLAB command "spectrogram(data, 512,256, 512, fs)". The chapter Power Spectrum of Non-stationary Signals below describes the mathematics behind the spectrogram.

Phoneme

[Bearbeiten]

Sprache wird oftmals als eine Abfolge von akustischen Einheiten betrachtet, die Phon genannt werden und sprachlichen Einheiten, den Phonemen, entsprechen. Phoneme sind die kleinsten Lauteinheiten, anhand derer verschiedene Wörter unterschieden werden können. Beispielsweise enthält das Wort "dog" drei Phoneme. Änderungen am ersten, zweiten und dritten Phonem ergeben die Wörter "log", "dig" und "dot". Die deutsche und englische Sprache verfügen über etwa 40 verschiedene Phoneme.

Sprachwahrnehmung

[Bearbeiten]

Während die automatische Spracherkennung in Umgebungen mit hohem Signal-Rausch-Verhältnis recht erfolgreich ist, nimmt die Leistung der existierenden Algorithmen im Vergleich zu Menschen überproportional ab, sobald die Bedingungen nicht mehr ideal sind. Es scheint demnach, dass die heute verwendeten Algorithmen zur Spracherkennung noch nicht annähernd an den «Algorithmus» herankommen, den der Mensch zur Spracherkennung verwendet.

Es ist erwiesen, dass die Wahrnehmung von Sprache im Gehirn auf einem anderen Verarbeitungspfad beruht als die Wahrnehmung anderer Klänge. Studien haben gezeigt, dass die Reaktion auf nicht-sprachliche Geräusche im Allgemeinen mit dem Stimulus korreliert, während bei der Verarbeitung von Sprache eine Diskretisierung der Reaktion festgestellt werden konnte. Lisker und Abramson [23] konnten zeigen, dass die temporale Organisation eines Lautes dessen Identifizierung beeinflusst. So scheint das Einsetzen der Stimme nach dem Abspielen der Phonemen /b/ oder /p/ (Voice Onset Time, VOT) massgeblich für deren korrekte Klassifizierung. Bei einer gleichmäßigen Variation der VOT konnte ein Schwellenwert von ~20 ms festgestellt werden, bei dem die Versuchspersonen ihre Identifizierung von /b/ auf /p/ umstellten. Dies belegt, dass eine Art von Kategorisierungsschema vorliegt.

Die Herausforderung bei der Modellierung der Sprachwahrnehmung ist die so genannte "fehlende Invarianz" (Lack of Invariance) im Sprachsignal. Die Varianz entsteht insbesondere durch die Position eines Phonems im gesprochenen Wort, wie beispielsweise /p/ in «Position» respektive «Sprache». Ein einzelnes Phonem kann somit einer Vielzahl von Wellenformen zugeordnet werden. Umgekehrt ist die Zuordnung einer Wellenform zu einem bestimmten Phonem stark kontextabhängig. Weiter kann eine Wellenform aufgrund von Faktoren wie dem Sprechtempo, der Identität des Sprechers und dem Ton, in dem er spricht, sehr unterschiedlich ausfallen. Dennoch ist der menschliche Hörer in der Lage, zuverlässig das richtige Ergebnis zu ermitteln.

Existierende Modelle der Sprachwahrnehmung lassen sich in zwei Klassen einteilen.

Passive Wahrnehmungsmodelle

[Bearbeiten]

Passive Wahrnehmungstheorien definieren das Konzept der Sprachwahrnehmung im Allgemeinen auf dieselbe Weise wie die meisten Algorithmen zur Verarbeitung sensorischer Signale: Ein Eingangssignal wird an eine Verarbeitungs-Hierarchie übergeben, in der jeder Schritt ein zunehmend abstrakteres Signal aus dem Eingangssignal extrahiert. Ein früher Vertreter der passiven Modelle war die Theorie der distinktiven Merkmale (distinktive Feature). Aus dem Spektogramm des Eingangssignal werden dabei eine Reihe von artikulatorischen Merkmalen extrahiert, zum Beispiel ober der Laut nasal/oral oder stimmhaft/nicht stimmhaft gesprochen ist. Diese Merkmale werden als binärer Vektor zusammengefasst und als die wesentlichen Eigenschaften (distinktiven Merkmale) eines Phonems verstanden.

Andere passive Modelle, wie die von [24] und Uttley,[25] beschriebenen, beruhen auf einer Art Musterabgleich. Auch hier extrahiert eine Hierarchie von Verarbeitungsebenen Merkmale, die zunehmend abstrakt und bezüglich irrelevanten Eigenschaften (wie der Identität des Sprechers bei der Klassifizierung von Phonemen) invariant sind.

Aktive Wahrnehmungsmodelle

[Bearbeiten]

Die Theorien der aktiven Wahrnehmung stellen eine völlig andere Sichtweise der Sprachwahrnehmung dar. Vertreter dieser Theorien argumentieren, dass es für das Gehirn energetisch ungünstig wäre, getrennte Systeme für die Sprach-Wahrnehmung und -Produktion zu verwenden. Als Schlussfolgerung wäre die Fähigkeit der Sprachwahrnehmung sehr eng mit der Sprachsynthese verbunden: Es wird vermutet, dass der initiale Versuch einer simplen Replikation des Gehörten essenziell für die Sprachwahrnehmung ist und die entsprechenden neuralen Schaltkreise sowohl für die Identifizierung als auch die Synthese der Phoneme zuständig sind.

Die motorische Theorie der Sprachwahrnehmung (Liberman et al., 1967) besagt, dass Sprachlaute nicht durch irgendeine Art Musterabgleich identifiziert werden, sondern indem die sprachgenerierenden Mechanismen eine möglichst ähnliche Version des gehörten Sprachsignals erzeugen. Phoneme wären demnach nicht als distinktives Merkmal für die Spracherkennung, sondern als Anhaltspunkte (Cue) im prämotorischen Signal für den sprachgenerierenden Mechanismus zu verstehen. Die Theorie postuliert, dass die sprachgenerierenden Regionen des Gehirns durch Rückkoppelung mit dem Hörzentrum lernen, welches prämotorische Signal zu welchem Laut führt. Das Lallen von Babys, so wird argumentiert, diene dem Erlernen der Synthese dieser "Cue"-Laute aus dem prämotorischen Signal [26].

Eine ähnliche Idee wird im Modell der «Analyse durch Synthese» von Stevens und Halle verfolgt [27]. Die Autoren beschreiben ein generatives Modell, das versucht, ein zum eingehenden Ton ähnliches Signal zu erzeugen. Dieser Ansatz macht sich die Tatsache zunutze, dass die Mechanismen der Spracherzeugung bei allen Menschen ähnlich sind und dass die charakteristischen Merkmale der Sprache vom Sprecher reproduziert werden können.

Während man den Ton hört, versuchen die Sprachzentren, das eintreffende Signal zu reproduzieren. Komparatoren liefern ein ständiges Feedback über die Qualität der Reproduktion. Die Wahrnehmung basiert demnach nicht auf der Abstraktion des ankommenden Schalls sondern vielmehr auf den prämotorischen Befehlen zur Erzeugung derselben Sprache.

Die motorischen Theorien erhielten einen schweren Schlag, als eine Reihe von Studien über die so genannte Broca-Aphasie veröffentlicht wurden. Diese neurologische Erkrankung verhindert die Sprachsynthese, ohne dabei das Sprachverständnis und damit die Fähigkeit der Sprachwahrnehmung zu beeinträchtigen. Die Existenz der Broca-Aphasie scheint demnach der Vorhersage der motorischen Theorie zu widersprechen, dass Produktion und Wahrnehmung von denselben Schaltkreisen gesteuert werden [28].

Aktuelle Modelle

[Bearbeiten]
The TRACE model of speech perception. All connections beyond the input layer are bidirectional. Each unit represents some unit of speech such as a word of a phoneme.

Eines der einflussreichsten Computermodelle der Sprachwahrnehmung ist TRACE [29], welches im Aufbau einem rückgekoppelten neuronalen Netz mit drei Schichten gleicht.

Die erste Schicht extrahiert temporale Merkmale aus dem Spektrogramm und simuliert damit im Grunde die Cochlea. Die zweite Schicht extrahiert Phoneme und die dritte Schicht bildet Wörter. Das Modell enthält exzitatorische Feed-Forward-Verbindungen (bottom-up), laterale inhibitorische Verbindungen und exzitatorische Feedback-Verbindungen (top-down). Im Modell entspricht jedes "Neuron" einer Wahrnehmungseinheit (z. B. dem Phonem /p/ oder dem Wort "Phonem").

Die Architektur des Modells ist so ausgelegt, dass die Einheiten innerhalb einer Schicht auf der Grundlage ihres Inputs um den stärksten Output konkurrieren. Die lateralen inhibitorischen Verbindungen führen zu einer Art Winner-takes-all-Schaltung, bei der die Einheit mit dem stärksten Input ihre Nachbarn hemmt. Die Rückkopplungsverbindungen wiederum modellieren den Kontext, sodass beispielsweise Anfang und Ende eines Wortes die Erkennung eines Phonems beeinflussen können.

Referenzen

[Bearbeiten]
  1. Vorlage:Citation/core
  2. Vorlage:Cite
  3. 3,0 3,1 http://tav.net/audio/binaural_sound.htm
  4. 4,0 4,1 Vorlage:Cite
  5. Vorlage:Cite
  6. 6,0 6,1 6,2 6,3 Vorlage:Cite
  7. S. J. Orfanidis, ed., Introduction To Signal Processing. Prentice Hall, 1996.
  8. U. Zölzer, ed., Digital Audio Effects. New York, NY, USA: J.Wiley & Sons, 2002.
  9. http://www.acoustics.hut.fi/software/HUTear/
  10. Vorlage:Cite
  11. http://www.essex.ac.uk/psychology/department/research/hearing_models.html
  12. Vorlage:Cite
  13. 13,0 13,1 13,2 13,3 13,4 author or editor. Cochlear hearing loss. Whurr Publishers Ltd., 1998. ISBN 0585122563.
  14. 14,0 14,1 Vorlage:Cite
  15. Vorlage:Citation/core
  16. Vorlage:Citation/core
  17. 17,0 17,1 17,2 17,3 17,4 17,5 Karlheinz Brandenburg. Mp3 and aac explained. In Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999.
  18. J. R. Stuart for Acoustic Renaissance for Audio. A proposal for the high-quality audio application of high-density CD carriers. 1995.
  19. James D Johnston. Estimation of perceptual entropy using noise masking criteria. In Proceedings of the International Conference on Acoustics, Speech, and Signal Processing of the IEEE 1988.
  20. 20,0 20,1 20,2 20,3 Ted Painter and Andreas Spanias. A review of algorithms for perceptual coding of digital audio signals. In Proceedings of the 13th International Conference on Digital Signal Processing of the IEEE 1997
  21. 21,0 21,1 21,2 21,3 21,4 21,5 Nikil Jayant, James Johnston, and Robert Safranek. Signal compression based on models of human perception. Proceedings of the IEEE, 81(10):1385-1422, 1993.
  22. Renata Filippini. Unmasking auditory temporal masking, 2015. http://hearinghealthmatters.org/pathways/2015/unmasking-auditory-temporal-masking/
  23. author or editor. Proceedings of the 6th International Congress of Phonetic Sciences. Academia, 1970.
  24. Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.
  25. author. “The transmission of information and the effect of local feedback in theoretical and neural networks”. Brain Research, 2:21–50, year. DOI:10.1016/0006-8993(66)90060-6.
  26. author or editor. Coding Processes in Human Memory. V. H. Winston & Sons, 1967.
  27. author or editor. Models for the perception of speech and visual form: proceedings of a symposium. MIT Press, 1967.
  28. author. “The role of mirror neurons in speech and language processing”. Brain and Language, 112:1–2, year. DOI:10.1016/j.bandl.2009.10.006.
  29. author. “The TRACE model of speech perception”. Cognitive Psychology, 18:1–86, year. DOI:10.1016/0010-0285(86)90015-0.