Zum Inhalt springen

Sensorische Systeme/ Computermodelle/Effiziente Kodierung

Aus Wikibooks

Effiziente Kodierung

[Bearbeiten]

Warum brauchen wir effizientes Kodieren?

[Bearbeiten]

Wie bereits beschrieben, werden visuelle Signale im visuellen Kortex verarbeitet, um Informationen zu interpretieren. Nachdem wir verstanden haben, wie visuelle Informationen verarbeitet werden, stellt sich die Frage, wie diese Informationen kodiert werden.

Menge an Eingabedaten

[Bearbeiten]

Die Netzhaut nimmt ca. 1010 Bit/Sekunde auf, davon werden ca. 3-6 * 106 Bit/Sekunde von ca. 1 Million Axonen durch jeden Sehnerv übertragen [1] [2] Das Ergebnis ist, dass nur 104 Bit/Sekunde bis zur Schicht IV von V1 gelangen. Da die Kapazität des Bewusstseins auf <= 100 bit/sec1 geschätzt wird, ist eine Reduzierung der Datenmenge nicht nur ausreichend, sondern auch notwendig.

Verarbeitungsgeschwindigkeit und Präzision

[Bearbeiten]

Beim Menschen feuern die Nervenzellen mit einer Frequenz von etwa 0,2 bis 10 Hz [3] Die Kodierung der Information hängt auch vom exakten Zeitpunkt und der Frequenz des Feuerns ab.[4] Eine zusätzliche Herausforderung besteht darin, dass das verarbeitende neuronale Netzwerk auch mit Rauschfaktoren umgehen muss. Innerhalb dieser Problematik spielt insbesondere das retinale Rauschen eine Rolle. Dieses Phänomen beschreibt die spontane Fluktuation der elektrischen Signale auf den Photorezeptoren der Netzhaut. Diese Fluktuationen werden durch die thermische Zersetzung von Rhodopsin in den Stäbchen verursacht und erzeugen Ereignisse, die nicht klar von den Ereignissen unterschieden werden können, die entstehen, wenn Licht auf die Stäbchen fällt und ein Quantum absorbiert wird. Solches Rauschen entsteht ebenso in den Zapfen aufgrund molekularer Ursachen. [5]. [6] and also arises in the cons having a molecular origin.[4] Die These besagt, dass das retinale Rauschen die visuelle Empfindlichkeit deutlich stärker einschränkt als das Rauschen im zentralen Nervensystem. Letzteres wird durch zufällige Aktivitäten an den Synapsen der Nervenzellen verursacht, was zusätzliche Aktionspotenziale erzeugt. [7].

Energieverbrauch

[Bearbeiten]

Jede neuronale Aktivität benötigt Energie: Das Gehirn verbraucht etwa 20% des Ruhestoffwechsels. Ein Anstieg um ein Aktionspotenzial pro Neuron und Sekunde erhöht den Sauerstoffverbrauch um 145 ml/100 g graue Substanz/h. Der menschliche Blutkreislauf versorgt das menschliche Gehirn mit etwa 1,5 l Blut pro Minute und liefert ihm Energie und Sauerstoff. "Bei einer Aktionspotentialfrequenz von 4 Hz in aktiven Zellen sollten etwa 15% einer Neuronengruppe gleichzeitig aktiv sein, um einen Zustand zu kodieren" [8].

Lösung

[Bearbeiten]

Angesichts der enormen Datenmengen, die von einem Nervensystem mit begrenzter Geschwindigkeit, Präzision und verfügbarer Energie verarbeitet werden müssen, ist die Implementierung einer effizienten Kodierung notwendig.

Die Grundstruktur, auf der die menschliche (verbale) Kommunikation beruht, sind im auditorischen System die Phoneme, d.h. die verschiedenen Grundlautelemente einer Sprache, die ein Wort von einem anderen unterscheiden [9] So besteht z.B. das Wort "Auge" nur aus einem Phonem, /ai/, während das Wort "Code" aus den Phonemen /k/, /ə/, /ʋ/, /d/ besteht.

Analog dazu würde ein effizienter Code für das visuelle System aus Bildstrukturen als Grundelementen bestehen, die kombiniert werden können, um die wahrgenommene Umgebung (d. h. das Bild) darzustellen. Als Modell, das die grundlegenden Eigenschaften der visuellen Wahrnehmungsfelder bewahrt, haben Olshausen & Field einen Optimierungsalgorithmus vorgeschlagen, der einen spärlichen Code findet und dabei die Informationen des Bildes bewahrt. [10]


Technische Demonstration

[Bearbeiten]
Kodierungs- und Dekodierungsprozess

Das Prinzip der Informationskompression lässt sich sehr gut anhand der "k-means"-Methode demonstrieren, die auf (zweidimensionale) Bilder angewendet wird. Diese Methode ist in der Python-Bibliothek scikit-image implementiert.[11] Die Idee besteht darin, wie in Abbildung 1 veranschaulicht, ein Bild oder Daten im Allgemeinen zu komprimieren, zu verarbeiten und anschließend zurück zu transformieren. Der Verarbeitungsschritt ist auf diese Weise wesentlich effizienter und im Gegensatz zu den Methoden in biologischen Systemen gibt es auch verlustfreie Komprimierungsmethoden, wie z. B. Wavelets, die eine korrekte Rücktransformation ermöglichen.

Eine verlustfreie Komprimierung ist für biologische Systeme nicht notwendig. Der Informationsverlust wird am Beispiel des bereits erwähnten k-means-Algorithmus auf scikit-learn [11] und auch auf youtube gezeigt.[12]

Einleitung

Bruno Olshausen und Michael Lewicki untersuchten Ende der 1990er Jahre bzw. zu Beginn des 21. Jahrhunderts, wie natürliche Bilder [10] und natürliche Töne [13] vom Gehirn kodiert werden, und versuchten, ein Modell zu erstellen, das diesen Prozess so genau wie möglich wiedergibt. Es wurde festgestellt, dass der Prozess beider Eingangssignale mit sehr ähnlichen Methoden modelliert werden konnte. Das Ziel einer effizienten Kodierungstheorie ist es, ein Maximum an Informationen über einen Stimulus zu erfassen, indem eine Reihe von statistisch unabhängigen Merkmalen verwendet wird [14]. Eine effiziente Kodierung natürlicher Bilder ergibt sich aus einer Population von lokalisierten, orientierten Gabor wavelet-ähnlichen Filtern [10],[15]. Gammatone-Filter sind das Äquivalent zu diesen Filtern für das auditorische System. Um Formen in einem Bild zu unterscheiden, ist das wichtigste Merkmal die Kantenerkennung, die mit Gabor-Filtern erreicht wird. Bei der Tonverarbeitung können Tonanfänge oder "akustische Kanten" durch einen Pool von Filtern ähnlich einer Gammatone-Filterbank kodiert werden.[13]

Vision

Bruno Olshausen und sein Team waren 1996 die Ersten, die einen Lernalgorithmus entwickelten, der darauf abzielt, spärliche lineare Codes für natürliche Bilder zu finden und die Spärlichkeit zu maximieren, um eine Gruppe von lokalisierten, orientierten, rezeptiven Bandpass-Feldern zu bilden, die denen im primären visuellen Kortex entsprechen [10].

Sie gehen von der Annahme aus, dass ein Bild als lineare Überlagerung von Basisfunktionen dargestellt werden kann, :

Die Parameter hängen davon ab welche Basisfunktionen gewählt werden, und sind für jedes Bild unterschiedlich. Das Ziel einer effizienten Kodierung ist es, eine Familie von zu finden, die den Bildraum aufspannt und Parameter erhält, die statistisch so unabhängig wie möglich sind. Natürliche Szenen enthalten viele Formen statistischer Strukturen höherer Ordnung, die nicht gaußförmig sind [16]. Die Verwendung der Hauptkomponentenanalyse zur Erreichung dieser beiden Ziele wäre daher ungeeignet. Statistische Abhängigkeiten zwischen einem Pool von Parametern können erkannt werden, sobald die gemeinsame Entropie kleiner ist als die Summe der einzelnen Entropien:


Mit Entropie ist hier die Shannon-Entropie gemeint, die der Erwartungswert (Durchschnitt) einer Variablen ist. Die Blockentropie ist ein Maß für die Unsicherheit, die mit einer Reihe von Variablen verbunden ist. Es wird davon ausgegangen, dass natürliche Bilder eine "spärliche Struktur" haben, d. h. das Bild kann als Funktion einer kleinen Anzahl von Merkmalen aus einer größeren Menge ausgedrückt werden [17],[16]. Ziel ist es, einen Code zu finden, der die Entropie senkt, wobei die Wahrscheinlichkeitsverteilung jedes Parameters unimodal ist und ihren Höhepunkt bei Null hat. Dies kann als Optimierungsproblem formuliert werden [14]:

wobei ein positiver Gewichtungskoeffizient ist. Die erste Größe bewertet den mittleren quadratischen Fehler zwischen dem natürlichen Bild und dem rekonstruierten Bild.

Der zweiten Größe werden höhere Kosten zugeschrieben, wenn für ein bestimmtes Bild die verschiedenen Parameter spärlich verteilt sind. Sie wird berechnet, indem die Aktivität der einzelnen Koeffizienten, die in eine nichtlineare Funktion eingesetzt werden, addiert wird.

wobei eine Skalierungskonstante ist. Für , Funktionen, die inmitten von Aktivitätszuständen mit gleicher Varianz diejenigen mit der geringsten Anzahl von Nicht-Null-Parametern bevorzugen (z.b. , , ).

Durch Minimierung der Gesamtkosten über wird Lernen erreicht. Die konvergiert durch Gradientenabstieg über mehrere Bildvariationen gemittelt. Der Algorithmus ermöglicht es, dass die Basisfunktionen dimensionsmäßig überkomplett und nicht orthogonal [18] sind, ohne dass der Zustand der Spärlichkeit abnimmt.

Nach dem Lernprozess wurde der Algorithmus an künstlichen Datensätzen getestet, wobei sich bestätigte, dass er geeignet ist, spärliche Strukturen in den Daten zu erkennen. Die Basisfunktionen sind gut lokalisiert, orientiert und selektiv für verschiedene räumliche Maßstäbe. Durch die Zuordnung der Reaktion jedes zu Punkten an jeder Position wurde eine Ähnlichkeit zwischen den rezeptiven Feldern und den Basisfunktionen hergestellt. Alle Basisfunktionen bilden zusammen einen vollendeten Bildcode, der den gemeinsamen Raum von räumlicher Position, Orientierung und Skala ähnlich wie Wavelet-Codes abdeckt.

Zusammenfassend zeigen die Ergebnisse von Olshausens Team, dass die beiden hinreichenden Ziele für die Entstehung von lokalisierten, orientierten, rezeptiven Bandpass-Feldern darin bestehen, dass die Information erhalten bleibt und die Repräsentation spärlich ist.

Audition

Fig.1: Zeitreihenanalyse. (a) Die Filter in einer Fourier-Transformation sind in der Frequenz, aber nicht in der Zeit lokalisiert. (b) Wavelet-Filter sind sowohl in der Zeit als auch in der Frequenz lokalisiert. (c–e) Die statistische Struktur der Signale bestimmt, wie die Filterformen, die sich aus der effizienten Kodierung der verschiedenen Datensätze ergeben, im Zeit-/Frequenzraum verteilt sind. Jede Ellipse ist eine schematische Darstellung der Ausdehnung eines einzelnen Filters im Zeit-/Frequenzraum. (c) Umgebungsgeräusche. (d) Tierlaute. (e) Sprache.

Lewicki veröffentlichte seine Ergebnisse nach Olshausen im Jahr 2002. Er führte Experimente zur Überprüfung der Hypothese der effizienten Kodierung durch, welche auf vorangegangenen Arbeiten basiert. Das Ziel war es, optimierte Codierungen für unterschiedliche Kategorien von natürlichen Klangkulissen zu entwickeln, einschließlich Tierlauten, Umgebungsgeräuschen und menschlicher Sprache.

Die Forscher nutzten die Methode der unabhängigen Komponentenanalyse (UKA), um eine lineare Zerlegung von Signalen zu realisieren. Dieses Verfahren zielt darauf ab, Korrelationen und statistische Abhängigkeiten höherer Ordnung zu minimieren [19]. Dieser Lernalgorithmus liefert dann einen Filter für jeden Datensatz, der in Form eines Zeit-Frequenz-Fensters interpretiert werden kann. Die Form des Filters wird durch die statistische Struktur des Ensembles bestimmt [13].


Bei der Anwendung auf die vielfältigen Beispiele von Geräuschkulissen ergaben sich mittels der angewandten Methode Filter mit Zeit-Frequenz-Fenstern. Diese Fenster ähneln jenen eines Wavelets, insbesondere im Fall von Umgebungsgeräuschen, bei denen Schallereignisse sowohl in der zeitlichen als auch in der frequenzlichen Dimension lokalisiert sind. (Abb. 1c). Bei der Analyse von Tierlauten resultiert eine Darstellung, die einem Kachelmuster ähnelt und vergleichbar mit der Fourier-Transformation ist. In diesem Fall erfolgt die Lokalisierung des Schalls in der Frequenz, jedoch nicht in der zeitlichen Dimension. (Abb. 1d). Sprache enthält eine Mischung aus beidem mit einer Gewichtung von 2:1 zwischen Umwelt- und Tierlauten (Abb. 1e). Dies ist darauf zurückzuführen, dass Sprache aus harmonischen Vokalen und nichtharmonischen Konsonanten besteht. Diese Muster wurden bereits experimentell bei Tieren und Menschen beobachtet [20].

Um die wesentlichen Unterschiede zwischen diesen drei Arten von Geräuschen zu ermitteln, analysierte Lewickis Team die Bandbreite, die Filterschärfe und die zeitliche Hüllkurve. Die Bandbreite nimmt bei Umweltgeräuschen in Abhängigkeit von der Mittenfrequenz zu, während sie bei Tierlauten konstant bleibt. Sprache nimmt ebenfalls zu, aber weniger als Umweltgeräusche. Aufgrund des Zeit/Frequenz-Kompromisses verhalten sich die zeitlichen Hüllkurven ähnlich. Beim Vergleich der Schärfe in Bezug auf die Mittenfrequenz physiologischer Messungen [21],[22] aus Sprachdaten mit der Schärfe der kombinierten Geräuschensembles wurde die Übereinstimmung zwischen beiden Feinheiten bestätigt.

Es ist anzumerken, dass zur Durchführung dieser Analyse mehrere Näherungen erforderlich waren. In ihrer Analyse wurden die Intensitätsschwankungen des Schalls nicht berücksichtigt. Das auditorische System hält sich an bestimmte Intensitätsschwellen, je nachdem, welche Frequenzen gewählt werden [23]. Die physiologischen Messungen, mit denen diese Messungen verglichen werden, werden jedoch mit isolierten reinen Tönen durchgeführt, was den Anwendungsbereich dieses Modells zwar einschränkt, es aber nicht diskreditiert. Außerdem stimmt die zeitliche Symmetrie der Filter nicht mit den physiologisch charakterisierten "Gammatonfiltern" überein. Es besteht die Option, den Algorithmus derart zu modifizieren, dass er kausal agiert. In diesem Fall würden die zeitlichen Hüllkurven der Filter asymmetrisch gestaltet werden, ähnlich wie bei den Gammatonfiltern.

Schlussfolgerung

Es gibt eine Analogie zwischen diesen beiden Systemen. Der Ort und die räumliche Frequenz von visuellen Reizen werden von den Neuronen im visuellen Kortex kodiert. Die Anpassung zwischen diesen beiden Variablen ist ähnlich wie die zwischen Zeitpunkt und Frequenz bei der auditiven Kodierung.

Ein weiterer interessanter Aspekt dieser Parallele ist, warum die UKA die neuronalen Antworteigenschaften in den früheren Phasen der Analyse im auditorischen System aufklärt, während sie die Antworteigenschaften der kortikalen Neuronen im visuellen System aufklärt. Es ist zu beachten, dass die neuronale Anatomie der beiden Systeme unterschiedlich ist. Im visuellen System tritt ein Engpass am Sehnerv auf, wo die Informationen von 100 Millionen Photorezeptoren in 1 Million Sehnervenfasern verdichtet werden. Die Informationen werden dann im Kortex um den Faktor 50 verbreitet. Im auditorischen System gibt es keinen Engpass und die Informationen von 3000 inneren Haarzellen der Cochlea werden direkt auf 30000 Hörnervenfasern übertragen. Die UKA wird dann tatsächlich dem Punkt der Ausdehnung in der Repräsentation zugeordnet [24].

References

[Bearbeiten]

Vorlage:Reflist

Vorlage:BookCat

  1. Marcus E. Raichle: Two views of brain function Trends Cogn Sci. 2010 Apr;14(4):180-90
  2. Anderson, C.H. et al. (2005) Directed visual attention and the dynamic control of information flow. In Neurobiology of Attention (Itti, L. et al., eds), pp. 11 – 17, Elsevier
  3. György Buzsáki & Kenji Mizuseki: The log-dynamic brain: how skewed distributions affect network operations, Figure 3 e, f: http://www.nature.com/nrn/journal/v15/n4/fig_tab/nrn3687_F3.html
  4. 4,0 4,1 Wulfram Gerstner, Andreas K. Kreiter, Henry Markram, and Andreas V. M. Herz: Neural codes: Firing rates and beyond, http://www.pnas.org/content/94/24/12740.full
  5. Fred Rieke, Denis A. Baylor, Origin and Functional Impact of Dark Noise in Retinal Cones, Neuron, Volume 26, Issue 1, April 2000, Pages 181-186, ISSN 0896-6273, http://dx.doi.org/10.1016/S0896-6273(00)81148-4
  6. H. B. Barlow: Retinal noise and absolute threshold, J Opt Soc Am. 1956 Aug;46(8):634-9
  7. Jonathan B. Demb, Peter Sterling, Michael A. Freed: How Retinal Ganglion Cells Prevent Synaptic Noise From Reaching the Spike Output, Journal of Neurophysiology Published 1 October 2004 Vol. 92 no. 4, 2510-2519
  8. David Attwell and Simon B. Laughlin: An Energy Budget for Signaling in the Grey Matter of the Brain
  9. https://en.oxforddictionaries.com/definition/phoneme
  10. 10,0 10,1 10,2 10,3 Olshausen, B. A. & Field, D. J. Emergence of simple-cell receptive-field properties by learning a sparse code for natural images. Nature 381, 607-609 (1996)
  11. 11,0 11,1 http://scikit-image.org/docs/dev/auto_examples/features_detection/plot_gabors_from_astronaut.html#sphx-glr-auto-examples-features-detection-plot-gabors-from-astronaut-py
  12. https://www.youtube.com/watch?v=8V7QVLTghac
  13. 13,0 13,1 13,2 Lewicki, M. Efficient coding of natural sounds Nature Neurosci. 5, 356-363 (2002)
  14. 14,0 14,1 Barlow, H.B. Possible principles underlying the transformation of sensory messages. in Sensory Communication (ed. Rosenbluth, W.A.) 217-234 (MIT Press, Cambridge, 1961).
  15. Bell, A.J. & Sejnowski, T: J: The 'independent components' of natural scenes are edges filters. Vision Res. 37, 3327-3338 (1997).
  16. 16,0 16,1 Field, D. J. What is the goal of sensory coding? Neural Comp. 6, 559–601 (1994).
  17. Field, D. J. Relations between the satistics of natural images and the response properties of cortical cells. J. Optical Soc. Am. A 12, 2379–2394 (1987).
  18. Daugman, J.G. Computational Neuroscience (ed. Schwartz, E.) 403-423 (MIT Press, Cambridge, MA,1990).
  19. Hyvarinen, A., Karhunen, J. & Oja, E. Independent Component Analysis (Wiley, New York, 2001)
  20. Ehret, G. in Advances in Hearing Research. Proceedings of the 10th International Symposium on Hearing (eds. Manley, G. A., Klump, G. M., Koppl, C., Fastl, H. & Oekinghaus, H.) 387-400 (World Scientific, London, 1995).
  21. Evans, E. F. Cochlear nerve and cochlear nucleus. in Handbook of Sensory Physiology Vol. 5/2 (eds. Keidel, W. D. & Neff, W. D.) 1–108 (Springer, Berlin, 1975).
  22. Rhode, W. S. & Smith, P. H. Characteristics of tone-pip response patterns in relationship to spontaneous rate in cat auditory nerve fibers. Hearing Res. 18, 159–168 (1985).
  23. Evans, E. F. & Palmer, A. R. Exp. Brain Res. 40, 115–118 (1980).
  24. Olshausen, B. A. & O'Connor K. N. A new window on sound Nature Neurosci. 5, 292-295 (2002)