Benutzer:Yomomo/ Aufgabe/ Coronavirus

Aus Wikibooks
Zur Navigation springen Zur Suche springen

(Kommentare bitte in der Diskussionsseite)

Was für eine objektive Schätzung notwendig ist[Bearbeiten]

Was die Sterberate betrifft, sind für jegliche objektive Schätzungen Zahlen notwendig, die ich nicht finden konnte. Um zu schätzen, wie gefährlich der Virus sein kann, brauchen wir eine so ausführliche wie möglich Analyse der gestorbenen je nach Grund, Alter, Region und Tag.

Nehmen wir das Beispiel von Italien. Mit den Daten aus Wikipedia (Sterblichkeitsrate und Bevölkerung in Italien) kann man leicht die Anzahl der erwartenden Toten z.B. in Italien berechnen [1]. Für Italien wäre das gerundet 1600 Toten am Tag. Im Winter gibt es immer eine Erhöhung der Anzahl. Um zu entscheiden, ob eine Epidemie gefährlich ist, müssen wir die Daten statistisch mir vorherigen Jahren (und entsprechenden Jahreszeiten) vergleichen. Leider hab ich entsprechende Daten nicht gefunden. Die bisherigen Daten zeigen allerdings, dass beides möglich ist, also dass es eine statistisch nachweisbare Erhöhung der Todesfälle gibt ober auch nicht. 450 Todesfälle pro Tag werden mit ca. 1700 erwartete Todesfälle verglichen (Stand 20.3.2020). Wie schon erwähnt: wir haben die Gesamtanzahl der Toten pro Tag nicht. Ich warte noch darauf, bis irgendeine Institution sie veröffentlicht.

Im Fall einer Glättung der Anzahl der virusbedingten Toten könnte man auch argumentieren, dass die Zahlen wegen der Maßnahmen sich schon jetzt "glätten". Die Inkubationszeit und der Verlauf der Krankheit allerdings spricht für die Zeit eher dagegen. Bis die Maßnahmen wirklich eine Wirkung haben, braucht es mehr als zumindest 12 Tagen (vielleicht sogar viel mehr).

Was den exponentiellen Verlauf betrifft, kann man hier das nächste Unterkapitel lesen.

Exponentieller Verlauf der infizierten in Österreich[Bearbeiten]

Der folgende Teil ist zwar mathematisch und ein bisschen schwer, allerdings für die objektive Argumentation notwendig. Wer keinen Bock drauf hat, kann nur die letzten zwei Absätze dieses Unterkapitels (hier klicken) und dann die folgenden Unterkapitel lesen.

Datum[2] Infekt.
27.2. 2
28.2. 4
29.2. 5
1.3. 10
2.3. 10
3,3, 18
4.3. 29
5.3. 41
6.3. 55
7.3. 79
8.3. 99
9.3. 131
10.3. 182
11.3. 246
12.3. 302
13.3. 422
14.3. 655
15.3. 800
16.3. 959
17.3. 1132
Mathematische Analyse

Zugegeben sind die Daten, die man in den Medien über Coronavirus findet, erschreckend. Wenn wir bestimmte Daten wählen, dann kommen wir zu einer exponentiellen Funktion mit einem unglaublichen wöchentlichen Wachstumsfaktor (Basis der Potenzzahl) von 20! Genauer: Wenn wir die Daten der erkrankten in Österreich vergleichen, hatten wir in der 9. Kalenderwoche 2 nachgewiesenen angesteckten und in der 11. Kalenderwoche 800 [3]. Dadurch bekommen wir mit der Lösung der entsprechenden Gleichung zu einem Wachstum von unglaublich 1900% pro Woche. Analysieren wir die Daten und schauen wir, ob so was überhaupt stimmen kann:

Wir sollten allerdings bei der Auswertung von solchen Daten extrem vorsichtig sein, besonders wenn wir sie veröffentlichen wollen.

Zunächst einmal gibt es bei dieser Rechnung schon einen mathematischen Bias (kognitive Verzerrung auf Deutsch) und ist daher mathematisch gesehen falsch. Wenn wir das wöchentliche Wachstum berechnen wollen, müssen wir den gleichen Wochentag von der jeweiligen Woche nehmen, sonst haben wir nicht das wöchentliche Wachstum, sondern das Wachstum pro etwas mehr oder weniger Tagen als 7 (je nachdem welche Wochentage wir als Anfangs- bzw Endwert wählen, im erwähnten Beispiel wäre das pro 8 Tage). Wenn wir tatsächlich den gleichen Wochentag wählen, reduziert sich schon der Wachstumsfaktor von 20 auf (beispielsweise) ca. 8,94. Diesen Wert bekommen wir, wenn wir z.B. die Anzahl der festgestellten infizierten am 1.3. (10) und am 15.3. (800) vergleichen:

Das ist aber nicht das wichtigste bei der Auswertung der schon vorhandenen Daten. Konzentrieren wir uns auf das Wachstum pro Tag. Wenn wir die Daten zwischen 1.3. und 15.3. nehmen, dann bekommen wir:

Für einen täglichen Wachstum und in einer Menschengesellschaft (und nicht in einer Bakterienkultur) ist diese Zahl extrem hoch. Betrachten wir aber die Daten genauer und nehmen wir die drei Tagen zwischen 14.3. (655) und 17.3. (1132) um 11 Uhr (hier müssen wir eindeutig die gleiche Uhrzeit nehmen), dann bekommen wir:

Wenn wir die Daten der Tagen zwischen 14.3. und 17.3. korrelieren lassen, bekommen wir das gleiche Ergebnis mit einem extrem hohen Korrelationskoeffizienten (0.9992). Letzterer ist allerdings bei diesen Daten genau so viel (0.9992), wenn wir ein lineares Modell benutzen[4].

Wenn wir den Wachstumsfaktor zwischen Anfang und letzten Tagen vergleichen wollen, dann müssen wir auch entsprechende Daten nehmen. Wenn wir die Werte zwischen 1. März (10) und 8.März (99) nehmen, dann bekommen wir einen Wachstumsfaktor von 1,39 (hätten wir den 2. März genommen, wäre das Ergebnis sogar 1,47, aber das wäre doch wieder ein Bias in Gegenrichtung).

Es ist extrem schwer eine solche Abnahme des Wachstumsfaktors in so wenigen Tagen allein durch Zufall zu erklären, geschweige eine (noch bei weitem nicht bestätigte aber überhaupt nicht auszuschließende) Tendenz zu einem linearen Zusammenhang. Die Daten reichen nicht aus, weder für das eine, noch für das andere.

Viel leichter (aber eben auch so wenig sicher) sind die Änderungen durch ein Bias beim Vorgang zu erklären. Wenn wir die Entwicklung einer Krankheit in einer Bevölkerung messen wollen, müssen wir eine Randomisierung (Deutsch für Randomization) anwenden. Wir müssen die Infizierung von zufällig ausgewählte Personen in der Bevölkerung messen. Das ist selbstverständlich nicht leicht und kann viel kosten. Der Bias im ausgewählten Vorgang (nur Personen, die im Kontakt mit den Infizierten waren, zu überprüfen) kann extrem groß sein (muss aber nicht; ich wiederhole: das ist nicht auszuschließen, die Daten sind eher wenig, mit den gegebenen Daten ist es allerdings eher unwahrscheinlich, dass das Wachstum so groß ist).


Eine aussagekräftigere Folgerung kann man allerdings schon ziehen, wenn man die Todesfälle analysiert. Das wird im Abschnitt über die Todesfälle in Italien gemacht.

Virus und Intensivstation[Bearbeiten]

Mir völlig unbekannt ist auch, ob der Verbleib in einer Intensivstation die Überlebenswahrscheinlichkeit erhöht (und wenn ja, wie viel) und ob es doch andere Alternativen gibt.

  • Wenn wir wissen, dass eine Therapie keine oder kaum eine Wirkung hat, dann wenden wir diese in der Regel eben auch nicht an. Ich würde mich freuen, wenn jemand in der Diskussionsseite Links zu wissenschaftlichen Studien darüber hinzufügt.
  • Wenn wir wissen, dass es alternative Therapien mit ähnlich guten Ergebnissen gibt aber doch viel günstiger sind, wenden wir diese in der Regel an. Ich würde mich eben auch freuen, wenn jemand in der Diskussionsseite Links zu wissenschaftlichen Studien darüber hinzufügt.

Bei der öffentlichen Diskussion hab ich bisher (21.03.2020 10 Uhr früh) keinen Beitrag gefunden. Es wird diskutiert, ob es genügende Betten gibt, es wird aber nicht darüber diskutiert, in wie weit dies notwendig ist.

Folgerung[Bearbeiten]

Es ist noch früh Folgerungen zu schließen. Es ist allerdings überhaupt nicht auszuschließen, dass die Gefahr von der laufenden Pandemie viel geringere als bisher eingeschätzt ist. Ich hoffe, dass es so sein wird und ich hoffe, dass ihr auch das gleiche hofft. In diesem Beitrag geht es allerdings nicht um Hoffnung und hoffentlich auch nicht darum, wer Recht hat, sondern um Argumentation, die zeigt, dass es noch früh ist oder dass die Daten nicht ausreichend sind, um Folgerungen zu schließen. Dazu zeigt die Argumentation, dass wir extrem vorsichtig mit der Auswertung der Daten seien sollen. In beiden Richtungen (pessimistisch oder optimistisch).

Bemerkung über das Virus und den Klimawandel[Bearbeiten]

Ich finde es enttäuschend und erschreckend, dass die Menschen so bereit sind, ihr Benehmen so stark zu ändern, wenn es um eine kurzfristige Gefahr geht aber nicht wenn die Gefahr später in der Zukunft liegt. Ich meine hier den Klimawandel. Es ist wie, wenn wir Rauchen und das Virus vergleichen. Wenn wir die (für das Virus noch nicht genügend festgestellte) Konsequenzen direkt spüren, dann sind wir bereit, auch unsere Grundfreiheiten zu opfern. Mit dem Rauchen hören wir aber nicht auf. Wir spüren die Konsequenzen nicht. Und wenn sie da sind, ist es in der Regel zu spät... Mit dem Klimawandel ist es genauso. Wir sind nicht bereit, auf das Auto zu verzichten, auf das neue Handy jedes Jahr, auf so viel Energieverbrauch. Das ist für uns unvorstellbar, weil die Konsequenzen nicht direkt spürbar sind, sondern irgendwann (wann, wissen wir eben nicht) in der Zukunft liegen. Und wenn sie da sind, wird es zu spät sein... Da reicht es aber nicht aus, Klopapier tonnenweise zu kaufen... Und die Daten da sind doch EINDEUTIG...

Bemerkung über die Messung der Krankheitsfälle[Bearbeiten]

Um die Entwicklung der Krankheit zu messen, muss man randomisierte Untersuchungen machen. Man könnte denken, dass diese viel kosten, es gibt aber Wege die Kosten zu sinken. Man kann für mehrere Menschen eine Untersuchung machen und je nach Ergebnis, die Untersuchung wiederholen. [5]

Bemerkung über die Notwendigkeit der Maßnahmen[Bearbeiten]

Die von den Regierungen betroffenen Maßnahmen sind in allen Fällen gerechtfertigt, eben genau weil wir noch nicht wissen, wie gefährlich die Krankheit ist. Sobald das uns bekannt wir (was allerdings mehr Transparenz braucht), sollten wir auch die Maßnahmen entsprechend anpassen. Allerdings sollten wir auch mit der wirtschaftliche Lage vorsichtig sein. Der Sinn dieser Maßnahmen ist, empfindliche Gruppen der Bevölkerung zu schützen. Wenn die wirtschaftliche Lage sich extrem verschlechtert, werden wir diese Gruppen mit Maßnahmen wie Ausgangssperre für die ganze Bevölkerung nicht mehr schützen können, da die Wirtschaft diese Schutz nicht mehr unterstützen können wird.

Analyse der Daten aus Italien[Bearbeiten]

Datum[6] Todesf.
27.2. 17
28.2. 21
29.2. 29
1.3. 34
2.3. 52
3,3, 79
4.3. 107
5.3. 148
6.3. 197
7.3. 233
8.3. 366
9.3. 463
10.3. 631
11.3. 827
12.3. 1016
13.3. 1266
14.3. 1441
15.3. 1809
16.3. 2158
17.3. 2503
18.3. 2978
19.3. 3405
20.3. 4032
21.3. 4825

Die Anzahl der Verstorbenen in Italien hat während der Epidemie für Aufregung gesorgt. Viele sind von einer exponentiellen Entwicklung ausgegangen, bald hat es sich allerdings gezeigt, dass diese keine realistische Beschreibung der Daten ist, wie die vorherige Analyse zeigte. Allein die Tatsache, dass in diesen Daten der Wachstumsfaktor ständig fällt, spricht eindeutig gegen eine exponentielle Beschreibung. Welche Funktion wäre in so einem Fall geeigneter?

Eine Analyse mit Hilfe von Geogebra kann die Sache ziemlich gut klären. Mit Hilfe dieses Instruments ist es ganz leicht (zumindest die in Geogebra vorhandenen) Modellen zu vergleichen. Mit Hilfe von Regression finden wir heraus, dass die meisten Modelle den gleichen Korrelationskoeffizienten haben. Daher ist er nicht geeignet, um die Modelle zu vergleichen, da die Modelle wirklich extrem großen Unterschiede aufweisen. In diesem Fall kann man allerdings das Bestimmtheitsmaß R² vergleichen. Für eine exponentielle Funktion ist er 0,325, bei einer linearen Regression (vielleicht überraschenderweise) ist er noch höher und liegt bei 0,723. In den Bildern ist es allerdings ziemlich klar zu sehen, dass beide Modelle das Phänomen nicht ausreichend erklären. Daher wenden wir uns an eine Funktion, die Wachstumsphänomene in der Natur ziemlich gut beschreibt, nämlich die logistische Funktion. R² ist in diesem Fall 0,998. Das Modell beschreibt die Entwicklung der mit dem Virus diagnostizierten Verstorbenen extrem gut. Es sagt ein Stabilisierung der Anzahl der Todesfälle zwischen 22.3. und 25.3 voraus und ihrem Rückgang im Nachhinein. Das Modell allerdings weist bestimmte Probleme auf. Die mit dem Modell geschätzte Obergrenze der Anzahl der Todesfälle scheint nach den laufenden Entwicklungen klein zu sein (laut diesem Modell sind insgesamt 11000 Todesfälle zu erwarten). Das Modell ist auch nicht nach Region angewandt, sondern nimmt die gesamte Anzahl der Verstorbenen im ganzen Land. Es gibt Regionen allerdings, wo die Anzahl gerade viel stärker wächst. Das kann bedeuten, dass die gesamte Anzahl der verstorbenen doch größer sein kann (wie viel, ist noch schwierig vorauszusagen...). Noch dazu kann die Berechnung mit Geogebra keine statistischen Grenzen bei dieser Berechnung angeben. Die tatsächliche Grenze der Anzahl der Verstorbenen variiert um den angegebenen Wert (11000) mit einer statistisch bestimmten Wahrscheinlichkeit und zwischen bestimmten Werten, die hier nicht berechnet wurden. Extrem wichtig ist auch zu erwähnen, dass die Regression von Daten, deren erste Ableitung noch steigend ist, eine logistische Funktion ergeben, deren Grenze ungefähr das doppelte des höchsten Wertes der gegebenen Daten ist. Das kann auch zu einer extreme Unterschätzung dieser Grenze führen. Vielleicht wäre auch eine Maxwell-Boltzmann-Verteilung in diesem Fall geeignet, eine Regression dieser Funktion kann man allerdings nicht mit Geogebra ausführen. Die folgenden Tagen werden uns zeigen, wie gut die Voraussagen dieses Modells sind und in wie weit wir es nach Region anpassen müssen. Das Modell kann dazu auch jeden Tag angepasst werden, was höchstwahrscheinlich zu einer Erhöhung der oberen Grenze für die nächsten paar Tagen führen wird.

Die Exponentialfunktion erweist nicht nur den kleinsten
sondern per se einen extrem kleinen Zusammenhang zu
den Daten schon vor der Wirkung der Maßnahmen!

Jede Person kann die Daten seines Landes benutzen und die Voraussagen des logistischen Modells entdecken. Ob sie so erschreckend sind, wie die Sensationsmedien oft zu vermitteln versuchen, kann jede Person für sich entscheiden.

Die Berechnungen sind allerdings eher zu optimistisch. Wie schon im Text erwähnt, ändert sich die Grenze der logistischen Funktion jedes Mal, dass eine neue Zahl hinzukommt und die Änderung kann massiv sein. Deshalb braucht man eine Funktion, die das Verhalten des Wachstumsfaktors untersucht. Das Modell mit dem größten Bestimmtheitsmaß (ca. 0,43) dafür ist eine Potenzfunktion. Laut diesem Modell wird der Wachstumsfaktor erst 71 Tagen (ca. am 30. April) nach dem ersten Tod unter 1 sein und die gesamt Verstorbenen innerhalb von ca. 150 Tagen ca. 450000. Die höchste Anzahl von Todesfälle an einem Tag wird nach diesem Modell ca. 9100 (ja, an einem Tag) sein. Das optimistischte Modell ist in diesem Fall eine Exponentialfunktion (Bestimmtheitsmaß ca. 0.3, Wachstumsfaktor unter 1 ca. am 31. März, Anzahl der Verstorbenen ca. 30000, allerdings innerhalb von 80 Tagen, größte Anzahl der Opfer pro Tag ca. 1300). Ein plausibles Modell wäre auch die logarithmische und die lineare Funktion, mit Ergebnissen mehr oder weniger zwischen den hier angegebenen (das ist allerdings keine Schulaufgabe mehr...). Der Spielraum ist nicht gerade gering, daher können wir, wie schon betont, nur extrem vorsichtig mit den Daten umgehen. Der Vollständigkeit halber müssen wir allerdings hier schon auf Folgendes aufmerksam machen. Auch nach dem schlimmsten hier erwähnten Szenario werden ca. 450000 Menschen innerhalb von 150 Tagen sterben. Das liegt ca. 50% oberhalb der erwarteten Anzahl. Wir haben immer noch keine Statistik über die gesamte Anzahl (unabhängig von Todesursache) in Italien. Da ein extrem großer Anteil der mit dem Virus infizierten Verstorbenen an anderen lebensbedrohenden Krankheiten leiden, ist es wohl zu erwarten, dass die gesamte Anzahl der Todesfälle in Italien beim schlimmsten Szenario und auf das ganze Jahr ca. um 50% erhöht wird (also 900000 im ganzen Jahr, 300000 mehr wegen der Epidemie). Die dadurch entstandene Verminderung der Lebenserwartung kann jemand andere vielleicht berechnen, wird allerdings vermutlich nicht mehr als 1,5 Jahre sein.

Hauptfolgerung[Bearbeiten]

Die im Nachhinein berechnete Mortalitätsrate der Krankheit (zwischen 0,3 bis höchstens 1%) unterstützt die hier durchgeführten Berechnungen. Sogar wenn ALLE Personen in Italien (die ganze Bevölkerung) anstecken würden (was allerdings wegen der Herde-Immunität nicht mal möglich ist), wäre die Anzahl der Todesopfer AUCH BEI NULL MAßNAHMEN bei 600000 Menschen, also die Anzahl, die für das Jahr zu erwarten ist. Weil ein Großteil der Todesopfer zu den Risikogruppen gehören, wäre die gesamte Erhöhung der Todesfälle durch den Virus im aller schlimmsten Fall 50%. Und das ist die beim Weitestem schlimmste Voraussage, die weit über das Erwartete ist. Das Problem liegt vor allem daran, dass diese Anzahl der Menschen in viel kürzere Zeit als gewöhnlich sterben werden. Das ist selbstverständlich kurzfristig erschreckend, rechtfertigt allerdings die Verlängerung der betroffenen Maßnahmen (jetzt, da wir Daten haben) nicht mehr, geschweige dass die Opfer der Maßnahmen (angeblich gegen die Epidemie) voraussichtlich eindeutig mehr sein werden, als diejenige der Epidemie selber...

Nachrede[Bearbeiten]

Sucharit Bhakdi hat es in seinem Interview am 29. April in ServusTV[7] auf den Punkt gebracht (allerdings hat er das schon viel früher auf den Punkt gebracht, nur nicht in den gängigen Medien). Ich hätte es gern, wenn er etwas mehr über Italien gesprochen hätte. Allerdings: Es gibt jetzt zwei Möglichkeiten (und selbstverständlich viele dazwischen):

  • Die Sache durch eine (Medien- und politische) Diktatur zu vertuschen, gezwungen durch den Druck, den das Zugeben des Fehlers ausübt.
  • Die Sache offen und klar zu besprechen. Die Krise ist nicht durch eine Epidemie entstanden, sondern durch die Art und Weise, wie die Mass-Medien und die (von denen stark abhängig) Politik auf eine (eindeutig falsche) Information reagiert haben. Das ist ja wie die Medien funktionieren. Das ist ja auch wie die Politik funktioniert. Das muss diskutiert werden und nicht bei der Diskussion bleiben. Lösungen und (vielleicht für diese beiden Kategorien schmerzhafte) Änderungen sind NOTWENDIG. Die Verantwortung des Einzelnen ist in diesen Sache nicht zu vernachlässigen.

Die blödeste Zwischenvariante wäre selbstverständlich darüber zu sprechen und NICHTS zu tun...




Fußnoten[Bearbeiten]

  1. Für MathematiklehrerInnen: das wäre ja auch ein gutes Prüfungsbeispiel
  2. Die Daten wurden aus der Ministerium Seite jeweils um 11 Uhr vormittags erhoben. Ein Balkendiagramm kann man in der entsprechenden Wikipediaseite finden
  3. die allerdings nicht unbedingt krank waren sondern infiziert, im Sinne, dass ihre Symptome nicht so stark oder sogar gar nicht vorhanden waren, man kann die Definitionen mit den entsprechenden Definitionen von AIDS vergleichen. Dazu muss ich sagen: Ich weiß nicht, ob der Test überprüft wurde. ich weiß nicht, ob er tatsächlich nur diesen Virus misst, darüber hab ich leider keine ausreichende Information
  4. Geschmackssache :)
  5. Das könnte ein Extremwertaufgabe sein, das Ergebnis hängt von der Häufigkeit der Krankheit ab. Vielleicht schaffe ich es, so eine Aufgabe auch vorzubereiten.
  6. Die Daten wurden aus der Ministerium Seite Italiens jeweils erhoben. Ein Balkendiagramm kann man in der entsprechenden Wikipediaseite finden
  7. https://www.servustv.com/videos/aa-23ud73pbh1w12/