Multimedia im Überblick/ Anwendung/ PC und Internet/ Die „Krake“ Google

Aus Wikibooks


Details zu Google[Bearbeiten]

Vorher Teil von "Suchmaschinen"

Einige Zahlen

  • Durchsuchte Webseiten: 8 Milliarden+
  • Bilder: 1 Milliarden+
  • Usenet-Mitteilungen: 1 Milliarden
  • Sprachen, für die Google eine Nutzeroberfläche bietet: Mehr als 100
  • Sprachen, in denen Google Ergebnisse bietet: 35
  • Internationale Domains: Mehr als 100
  • Mitarbeiter: Mehr als 3.000 weltweit

Google-Technologie[Bearbeiten]

Die Software, die hinter der Suchtechnologie von Google steckt, führt in einem Bruchteil einer Sekunde gleichzeitig eine Reihe von Berechnungen durch. Google verwendet PageRank™, um die gesamte Linkstruktur des Internets zu analysieren und herauszufinden, welche Seiten die wichtigsten sind. Google kombiniert die Wichtigkeit insgesamt mit der Relevanz für eine spezifische Suchanfrage, und ist so in der Lage, zuerst die relevantesten und verlässlichsten Ergebnisse zu liefern.

PageRank-Technologie: PageRank nimmt eine objektive Bewertung der Wichtigkeit von Webseiten vor. Dabei wird eine Gleichung mit 500 Millionen Variablen und über 2 Milliarden Begriffen berechnet. PageRank bewertet dann die Wichtigkeit einer Seite nach den erzielten Voten.

PageRank berücksichtigt auch die Wichtigkeit jeder Seite, die ein Votum abgibt, da Voten von einigen Seiten einen höheren Wert aufweisen und deshalb auch der Seite, auf die der Link verweist, einen höheren Wert geben. Wichtige Seiten werden von PageRank höher eingestuft und demnach auch in den Suchergebnissen an einer vorderen Position angeführt.

Analyse von Hypertextübereinstimmung: Die Suchmaschine von Google analysiert auch den Content einer Seite. Es werden jedoch der gesamte Content einer Seite und Faktoren wie Schriftarten, Unterteilungen und die genaue Position aller Begriffe auf der Seite analysiert, anstatt nur den seitenbasierten Text zu scannen (der über Metatags von Website-Publishern manipuliert werden kann). Google analysiert außerdem den Content der benachbarten Webseiten, um sicherzustellen, dass die ausgegebenen Ergebnisse die relevantesten für die Suchanfrage eines Nutzers sind.

Die Innovationen von Google enden nicht beim Desktop. Um Nutzern, die über tragbare Geräte auf das Internet zugreifen, seine genauen und schnellen Ergebnisse zur Verfügung zu stellen, hat Google auch Pionierarbeit geleistet hinsichtlich der kabellosen Technologie für die Sofortübersetzung von HTML-Dateien in Formate, die für WAP, i-mode, J-SKY und EZWeb optimiert wurden.

Google: Die verfeinerte Suche[Bearbeiten]

Google kann mehr, als einem auf dem ersten Blick gewahr ist. Einen Suchbegriff eintippen und das perfekte Ergebnis abholen, das funktioniert eben nicht immer. Aber kein Problem, es gibt zahlreiche, spezielle Kommandos, um eine Suche zu verbessern:

  • "Suchbegriff"

Die bekante Phrasensuche in Anführungszeichen. Findet Suchbegriffe im exakten Wortlaut und in exakt der angegebenen Reihenfolge.
Beispiel: "Morgenstund hat Gold im Mund"

  • link:url

Zeigt welche Seiten auf eine bestimmte URL linken. Klappt auch mit einem Domainnamen.
Beispiel: link: http://www.domain.de
Ob man www vorne dazuschreibt oder nicht, macht dabei keinen Unterschied aus.

  • related:url

Zeigt welche Seite mit einer anderen Seite verbunden ist.
Beispiel: related: http://www.domain.de

  • allinurl:

Zeigt nur Fundstellen, die den Suchbegriff in der URL enthalten - nicht im Text der jeweiligen Seiten.
Beispiel: allinurl: webdesign

  • allintitle:

Zeigt nur Fundstellen, die den Suchbegriff im Titel enthalten.
Beispiel: allintitle: webdesign

  • allintext:

Zeigt Fundstellen, die den Suchbegriff ausschließlich im <body>-Text enthalten.
Beispiel: allintext: webdesign

  • allinlinks:

Zeigt Fundstellen, die den Suchbegriff ausschließlich in Links enthalten.
Beispiel: allinlinks: webdesign

  • info:url

Zeigt Seiten, die eine bestimmte URL in Form von Text enthalten.
Beispiel: info: http://www.domain.de

  • spell: ...

Suchanfrage unter Einbeziehung des Google Rechtschreibkorrektur. Google macht in diesem Fall immer Vorschläge für eine möglicherweise korrekte Schreibweise.
spell: webmaaster

  • stocks: ...

Abfrage des Aktienkurses. Stammt in 7/2004 immer noch vom konkurrierenden Unternehmen Yahoo.
Beispiel: stocks: sap

  • define: ...

Google liefert hier Begriffserklärungen, ähnlich wie in einem Lexikon. Leider nur auf Englisch.
Beispiel: define: rss

  • filetype:

Bezieht eine Suchanfrage nur auf bestimmte Dokumententypen.
Beispiel: filetype:doc webdesign

Möglich sind:

    • Adobe Portable Document Format (pdf)
    • Adobe PostScript (ps)
    • Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
    • Lotus WordPro (lwp)
    • MacWrite (mw)
    • Microsoft Excel (xls)
    • Microsoft PowerPoint (ppt)
    • Microsoft Word (doc)
    • Rich Text Format (rtf)
    • Text (ans, txt)
    • HTML (Webseiten)
    • HTM (Webseiten)
    • PHP (Webseiten)
    • ASP (Webseiten)
    • Bilddateien (JPG)
    • Bilddateien (GIF)
  • daterange:

Findet Webseiten, die innerhalb eines bestimmten Datums veröffentlicht wurden. Eine Funktion für die Google API. Etwas kompliziert zu handhaben. Man braucht eine Start- und Endzeit nach dem Julianischen Kalender. Google beschreibt das so: "The Julian date is calculated by the number of days since January 1, 4713 BC. For example, the Julian date for August 1, 2001 is 2452122."
Beispiel: webdesign daterange:2452122-2452234

Zusätzlich diesen Suchoptionen gibt es noch die erweiterte Suche. Hier kann man verschiedene Bedingungen gleichzeitig angeben, wie Sprache, Dateiformat, Domains, ob alle Wörter der Suchanfrage gefunden werden sollen, oder nur eins davon, etc. Im Übrigen darf eine Suchanfrage bei Google höchstens aus 10 Begriffen bestehen.

Google hacken[Bearbeiten]

Google's Spinnenarme greifen weit, manchmal etwas zu weit. Teilweise ist es gar nicht notwendig, verschiedenste p2p Suchmaschinen oder Filesharing Programme anzuwerfen, wenn das gute manchmal doch so nahe ist. mp3- Files, Cracks oder auch Telefonnummern können mit ihr gefunden werden, mit der Suchmaschine, die mittlerweile ein Monopol auf dem Searchengine-Sektor besitzt, wenn es um den Bekanntheitsgrad geht.

Oft wundert man sich über die Suchergebnisse, vor allem von images.google.com, die logischerweise nur sehr vage sein können: Bilder können auch nur sehr schwer automatisch indiziert werden. Die Zuordnung passiert mittels des Textes, der das Bild umgibt, oder auch dem Dateinamen. Daneben kann es auch lustig sein, keine Resultate zu erhalten (wie das relativ bekannte Suchergebnis der französischen Militärerfolge) oder auch unerwartete Antworten zu bekommen. Suchanfragen wie "miserable failure", die auf die Website von G.W. Bush zeigt, oder auch diverse andere Scherze zeigen den Entertainmentfaktor der Suchmaschine.

Neben der bekannten Syntax von Google gibt es auch einige undokumentierte Features und Tricks, um bestimmte Inhalte zu finden:

  • mp3 Suche - mit der Suche nach "Index of /" +mp3 finden sich viele Webserver-File-Listings, wo mp3 Dateien gebunkert wurden. Eine weitere Möglichkeit ist intitle:"index of /" "parent directory" intitle:"mp3" -filetype:htm -filetype:html - happy leeching!
  • Telefonnummern - mit der Angabe der internationalen Vorwahl des gesuchten Landes und dem Namen der Person kann oft eine Telefonnummer schnell in Google gefunden werden: zB. Vorname Nachname "+43". Meistens zwar nicht der erste Hit, oft aber schneller als das Telefonbuch zu Rate zu ziehen. (Alternativ kann man auch "0043" und "tel" als zusätzliche Suchbegriffe verwenden)
  • Sabotage - mit den Standardtexten verschiedenster (Web-)Services kann man viele offene Systeme finden, und so auf fremder Leute Drucker ausdrucken: intitle:"Home" "Xerox Corporation" "Refresh Status" oder auch private Webcams ansehen: intitle:"my webcamXP server!"inurl:":8080"

Einige der obengenannten Tricks und einige mehr kann man auf searchlores.org oder auch auf der Google Hacking Database nachlesen, den (un)besorgten Sysadmins der betroffenen Systeme kann man nur ans Herz legen, sich mal über robots.txt (Blocken von Suchmaschinen-Spiders) und .htpasswd Files (Passwortschutz) gedanken zu machen.


"Seit einigen Jahren ist Google die bekannteste und am häufigsten genutzte Suchmaschine. Google ist auch für die Suche nach PDF-, Postscript-, Word- und PowerPoint-Dateien geeignet." (de.wikipedia.org)

Das bedeutet aber nicht automatisch, dass man genau das findet, was man auch gesucht hat. Die wenigsten Leute kennen die boolschen Operatoren der GoogleSyntax, wie etwa "AND", "OR", "NOT" und Anführungszeichen.

Zu Testzwecken gibt es auch ein Programm mit dem Namen Google Hacks, das je nach gewählten Einstellungen dem User gesuchte Dateien anzeigt.

Google Labs[Bearbeiten]

Google Labs ist eine Sammlung von Google-Dienstleistungen, die sich noch im Beta-Stadium befinden. Es handelt sich dabei entweder um neue Suchfunktionen, Browser-Plug-ins oder personalisierte Webdienste.

Überblick über die aktuellen Labs-Projekte

Die neuen Produkte sind erst nur in Englisch verfügbar. Stellen sie sich dann als erfolgreich heraus, so werden sie nach einiger Zeit lokalisiert und kommen aus Labs auf die offizielle Dienstübersichtsseite. Dort bleiben sie für gewöhnlich noch einige Zeit im Beta-Stadium. Nachfolgend eine Übersicht der aktuellen Dienste.

  • Google Codesearch

Mit dieser neuen Suchfunktion kann man Google zur Verfügung gestellte Quelletexte nach beliebigen Ausdrücken untersuchen. Programmierer, die ihren Code bereitstellen möchten, können diesen jederzeit über ein Online-Formular hochladen. Wie dies genau geht, wird in der englischsprachigen FAQ beschrieben. Die Suche selbst ist nun auch in Deutsch verfügbar.

  • Google Firefox Extensions

Im Rahmen der Partnerschaft mit Mozilla bietet Google verschiedene Erweiterungen für den Firefox-Browser an. Zurzeit sind sie nur auf Englisch verfügbar.

  • Google Browser Sync.

Google Browser Sync ist ein kleines Tool, das die Lesezeichen, Chronik und Passwörter sowie den aktuellen Stand der Sitzung verschlüsselt auf Google-Servern speichert und somit alle Firefox-Browser, bei denen die Erweiterung installiert und die Google-Account-Daten eingegeben wurden, synchronisiert.

  • Google Notebook

Google Notebook fügt jedem Suchergebnis einen kleinen Link hinzu, mit dem man Textfragmente und Links direkt online abspeichern kann. Dazu kann man beliebig viele Notizbücher anlegen, um diese Notizen zu ordnen. Unter dem Namen „Google Notizbuch „ steht die Funktion nun auch auf Deutsch zur Verfügung. Weitere Funktionen sind Blogger Web Comments, die Kommentare aus Blogs über die aktuelle Seite anzeigen, und Google Send To Phone, das Texte von Webseiten ans Handy senden kann. Diese Funktion ist zurzeit aber nur in den USA verfügbar.

  • Google Page Creator

Alle Besitzer eines Google-Mail-Accounts können bei Google Pages mit einem simplen Baukastenprinzip Google Page Creator eine kostenlose Homepage erstellen. Die Seite ist dann über <Username>.googlepages.com zu erreichen. Davon ist allerdings abzuraten, weil Spammer auf diese Weise ganz einfach die E-Mail-Adresse herausfinden können. Der verfügbare Speicherplatz beträgt 100 MB. Beim Erstellen werden die Änderungen ständig gespeichert. Aufgrund großer dabei übertragener Datenmenge und einem sehr resourcenlastigen Aufbau des Creators ist er jedoch für Benutzer mit Analog oder ISDN-Verbindung eher ungeeignet.

  • Google Sets

Eine neue Labs-Funktion namens Google Sets ermöglicht es dem Benutzer per Mausklick verwandte Suchbegriffe zu finden und nach diesen zu suchen. Zu diesem Zweck gibt man einen oder mehrere Begriffe in ein Formular ein und Google gibt dann ähnliche Begriffe aus. Die Benutzeroberfläche dieser Funktion ist zurzeit nur auf Englisch verfügbar, jedoch werden auch Begriffe in anderen Sprachen ausgewertet. Google Sets ist immer noch ein Labs-Produkt, obwohl es diese Funktion schon seit 2002 gibt. Damit ist sie die älteste Funktion, die diesen Status noch trägt.

Alle in der Übersicht auf labs.google.com

Einleitung[Bearbeiten]

Für den Begriff Planet Google gibt es an sich keine Definition, es gibt lediglich verschiedene Sichtweisen bzw. Betrachtungswinkel zu diesem Begriff. Der Planet Google kann einfach als Summe aller Google Dienste gesehen werden. Die Gründer von Google, Larry Page und Sergei Brin, die ihr Unternehmen am 7. September 1998 gründeten, führen ihr Unternehmen nach dem Motto "Don't be evil". Sie meinen, das Ziel von Google sei es, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen. Aufgrund der laufenden Diskussionen wegen angeblicher datenschutzrechtlicher Probleme drängt sich natürlich die Frage auf welche Informationen da wohl gemeint sein wollen. Die Produktchefin von Google meint sogar, Ziel von Google sei es nicht Geld zu verdienen sondern: "Wir wollen, dass die Leute bei uns Spass haben". Dies ist eine interessante Betrachtungsweise, da ja Google mittlerweile einen Jahresumsatz von 21,8 Mrd USD (2008) macht, bei einem Marktanteil von 80% und mittlerweile die teuerste Marke der Welt ist.

Einige Eckdaten der Google Inc.:

  • Februar 2001: Übernahme des Usenet-Archiv von Deja - News
  • Februar 2003: Übernahme von Blogger.com
  • April 2003: Kauf von Applied Semantics Inc. (daraus entstand Google AdSense)
  • Oktober 2004: Kauf von Keyhole Corp. (Entwicklung von Google Earth)
  • August 2005: Kauf von Android Inc. (Entwicklung von Google Android, dem Betriebssystem des Google G1 - Handys das in Österreich von T-Mobile vertrieben wird)
  • Oktober 2006: Übernahme von youtube (für 1,65 Mrd. USD)
  • August 2006: Kauf von Neven Vision (Inhaber von Patenten für biometrische Gesichtserkennung und Objekterkennung)
  • 2006: Wahl zur einflussreichsten Marke des Jahres 2005
  • März 2008: Kauf von DoubleClick (größter Anbieter für Online-Marketing)

Die Google Inc. hat mittlerweile derart an Umfang und Einfluss gewonnen dass viele Menschen Google als weltumspannende "Datenkrake" sehen der nicht leicht zu entkommen ist.

Google Masterplan: http://www.youtube.com/watch?v=PbCjyQgd1ks

Datenschutz[Bearbeiten]

Wie steht es nun wirklich um Google und den Datenschutz? Dafür lohnt ein Blick in die Datenschutzbestimmungen von Google. Dort ist als Überschrift zu lesen: Google erkennt an, dass Datenschutz wichtig ist. Und gleich im Anschluss ist aufgelistet, wie Google Informationen sammelt und verwendet, u.a. ist zu lesen:

  • Informationen, die Sie zur Verfügung stellen:

Wenn Sie sich für ein Google-Konto oder andere Google-Services anmelden, die eine Registrierung erfordern, bitten wir Sie um personenbezogene Daten wie Ihren Namen, Ihre E-Mail-Adresse und Ihr Kontopasswort. Für bestimmte Services bitten wir Sie um Kreditkarten- oder Kontoinformationen. Möglicherweise kombinieren wir die von Ihnen bei der Verwendung Ihres Kontos bereitgestellten Informationen mit Informationen aus anderen Google-Services oder Services von Drittanbietern.

  • Installation von Cookies
  • Protokolldaten:
Wenn Sie auf Google-Services zugreifen, zeichnen unsere Server automatisch Informationen auf, die Ihr Browser beim Besuch einer Website sendet. Diese Serverprotokolle können folgende Informationen enthalten:

Ihre Webanfrage, Ihre IP-Adresse, den Browsertyp, die Sprache des Browsers, Datum und Zeitpunkt Ihrer Anfrage sowie ein oder mehrere Cookies, die Ihren Browser eindeutig identifizieren.

  • Google-Services auf Partner-Websites:
Wir bieten einige unserer Services über andere Websites an. Personenbezogene

Daten, die Sie an diese Websites übermitteln, können an Google gesendet werden.

  • Standortbezogene Daten:
Google bietet standortbezogene Services wie Google Maps für Handys an.

Wenn Sie diese Services nutzen, erhält Google möglicherweise Informationen zu Ihrem tatsächlichen Standort (beispielsweise von einem Mobilgerät übermittelte GPS-Signale) oder Informationen, über die Ihr ungefährer Standort ermittelt werden kann (z.B. die Zellen-ID).

  • Links:
Google präsentiert Links in einem Format, das wir daraufhin überprüfen können, ob den Links gefolgt wurde.

Wie sich das in der Praxis auswirkt wird vorgeführt auf: http://www.youtube.com/watch?v=W1wl8X4nlUU

Im Mai 2007 waren dann erstmals Experten der EU Google auf den Fersen und prüften ob nicht das auf Vorrat speichern der Nutzungs- und Prorokolldateien illegal sei. Google verteidigte sich damit, dass man diese Daten nur zwei Jahre speichern würde. Zu guter Letzt einigte man sich darauf die Daten nur mehr 18 Monate zu speichern. Im Juni 2009 stellte die Bürgerrechtsorganisation Privacy International Google ein vernichtendes Zeugnis im Umgang mit den persönlichen Daten seiner Nutzer aus. In einer veröffentlichten Rangliste großer Internet-Unternehmen rangiert Google an letzter Stelle. Als einziges der von der britischen Organisation untersuchten Internet-Unternehmen erhielt Google die Bewertung "datenschutzfeindlich". Privacy International verwies darauf, dass auch die Datenschutzpraktiken zahlreicher anderer Unternehmen als bedenklich einzustufen seien. Von keinem der untersuchten Unternehmen würde jedoch eine vergleichbare Bedrohung für persönliche Daten ausgehen, hieß es in einer Aussendung der Organisation. Als Alternative zur Google-Suche sei an dieser Stelle auf http://www.metager2.de/ verwiesen. Es besteht auch die Möglichkeit einen Anonymisierungsdienst für die Googlesuche (z.B.: http://www.scroogle.org/) zu verwenden.

Zensur[Bearbeiten]

Neben datenschutzrechtlicher Bedenken steht Google auch in Bezug auf Zensur seiner Inhalte in der Schusslinie. Beim Nachrichtendienst news.google.com übernimmt ein Computer die redaktionellen Aufgaben. Dieser richtet sich nach der Anzahl der Links, die von anderen Internet-Seiten auf eine Headline verweisen. Die Zensur von Suchergebnissen, bei Google Indexsäuberung genannt, richtet man ganz auf die jeweiligen staatlichen Bedürfnisse ein. Siehe Google.cn bei der Eingabe von Dalai Lama, aber auch auf Google.de, wenn man - warum auch immer - nach rechtsradikalen Inhalten suchen würde, erscheint folgende Meldung: "Aus Rechtsgründen hat Google XX Ergebnisse von dieser Seite entfernt". Solchen Indexsäuberungen fallen auch immer wieder harmlose Websites zum Opfer wie z.B. 1488.com wo Rechtsberatung für chinesische Staatsangehörige angeboten wird. Die Zensur von Luftaufnahmen auf Google Earth oder Google Maps schreitet auch immer weiter voran.

Google Dienste[Bearbeiten]

Aus der Fülle der großteils kostenlosen Google Dienste seien hier nur einige vorgestellt:

Google Analytics kann auf der eigenen Website installiert werden und gibt dann genau Auskunft über die Anzahl der Seitenzugriffe, den Herkunftsort der Besucher, über welche Webseiten man gekommen ist und ob man ein "neuer" Besucher ist oder schon öfters auf der Website war. Datenschutzrechtlich auch wieder brisant da man ja eigentlich der Protokollierung der eigenen IP-Adresse zustimmen muss (z.B. bei der Nutzung von Google durch die Annahme der Datenschutzbestimmungen), was aber hier im Vorfeld nicht möglich ist, zumal es einem ja vorher nicht bekannt ist, ob eine Website Google Analytics nutzt.
Die Google Blogsuche ist eine auf Internetblogs spezialisierte Suchmaschine.
  • Google Compute
Dieser Dienst lief nur von März 2002 bis Oktober 2005 und war als Add-on für die Google Toolbar verfügbar. Er stellte bei Leerlaufprozessen die Rechnerleistung für komplexe wissenschaftliche Berechnungen zur Verfügung, lief jedoch weiter selbst wenn man die Toolbar schloss, was nicht gerade zu seiner Beliebtheit beitrug.
Google Chrome ist ein von Google entwickelter Webbrowser, der seit Dezember 2008 zur Verfügung steht. Dieser steht jedoch ebenfalls in der Kritik lediglich für Google optimiert zu sein und nicht unbedingt für seine Nutzer.
Google Text und Tabellen ist eine internet-basierte Anwendung zur Textverarbeitung, Tabellenkalkulation und Präsentation. Sie ermöglicht Nutzern Textdokumente, Tabellen und Präsentationen gemeinsam mit anderen Nutzern in Echtzeit online zu erstellen und zu bearbeiten.
Google Wave ist ein noch in der Entwicklung befindliches Kommunikationsprogramm welches man - wie die meisten Googleprogramme - in einem Webbrowser bedient. Es ist für verschiedene Arten von Kommunikation gedacht (email artige Kommunikation, Instant Messenger artige Kommunikation), aber auch zum Austauschen von Bildern und zum Verwalten gemeinsamer Fotoalben. Google Wave lässt sich gut in bestehende Systeme (Facebook, Twitter, Skype, ...) integrieren und wird voraussichtlich im Herbst 2009 erscheinen.

Funktionsweise[Bearbeiten]

Aus der Sicht von Google besteht die Herausforderung darin, das gesamte WWW (mit über 8 Milliarden Seiten und 1 Milliarde Bildern) zu sichten, zu indizieren und zu speichern, die gesamte Informationsmenge in weniger als 0,5s zu durchsuchen und Tausende von Anfragen pro Sekunde, die rund um die Uhr aus allen Teilen der Welt eintreffen, zu verarbeiten. Dabei darf das System niemals ausfallen, nicht einmal angesichts von Erdbeben, Stromausfällen, Hardwareausfällen oder Softwarefehlern. Mehrere Dinge sind zu beachten, um diese Stabilität zu gewährleisten. Google betreibt zum Beispiel weltweit mehrere Datenzentren, wobei der Webbrowser die Anfrage immer an das Nächstgelegne sendet. Ein Datenzentrum hat mindestens eine 2488 Gbit/s Glasfaserleitung zum Internet, über die es Anfragen erhält und Antworten sendet sowie eine Sicherungsverbindung von einem anderen Anbieter mit 622 Mbit/s. Des Weiteren ist für unterbrechungsfreie Stromversorgungen und Notstromaggregate mit Dieselmotoren gesorgt.

Verarbeitung einer Abfrage[Bearbeiten]

Nachdem die Abfrage beim vorgesehenen Datenzentrum eingetroffen ist wird sie zu einem Abfragebearbeiter und parallel zur Rechtschreibprüfung und zum Werbungsserver geleitet. Die Suchbegriffe werden dann parallel in den Indexservern gesucht. Diese Server enthalten einen Eintrag für jedes Wort im Web. Jeder Eintrag hat eine Liste aller Dokumente, die das Wort enthalten, sortiert nach der Rangfolge der Seite. Die Indexserver geben einen Satz von Dokumentkennzeichnern zurück. Im nächsten Schritt werden die eigentlichen Dokumente referenziert, ihre Titel, URL und Textausschnitte in der Nähe der Suchbegriffe werden herausgezogen. Schliesslich erhält der Abfragebearbeiter die Ergebnisse und die gefundenen Seiten werden gemäss ihrer Rangordnung zusammengetragen. Abschliessend werden allfällige Rechtschreibfehler angekündigt, relevante Werbungen hinzugefügt und die Suchergebnisse präsentiert. Pro Abfrage werden ca. 100 MB an Daten verarbeitet.

Architektur[Bearbeiten]

Google verwendet preiswerte PCs mittlerer Leistung in Massen und hat daraus den weltweit grössten Cluster aus Standardkomponenten erstellt. Die billigen PCs fallen zwar häufiger aus als Highend-Server, die Google Software ist aber so konzipiert, dass sie mit ausfallender Hardware umgehen kann, das Preis-/Leistungsverhältnis wird somit optimiert. Mehr als die Hälfte der Ausfälle geht auf fehlerhafte Festplatten zurück, gefolgt von der Stromversorgung und den RAM-Chips. Die PCs befinden sich gestapelt in speziellen Gestellrahmen; 80 PCs haben in einem solchen Gestellrahmen platz. Die PCs im Gestellrahmen sind durch Switched Ethernet miteinander verbunden und die Gestellrahmen selbst sind ebenfalls über Switched Ethernet miteinander verbunden. Ein Datenzentrum kann bis zu 64 Gestellrahmen unterstützen, sodass ein Datenzentrum bis zu 5120 PCs umfassen kann. Ein typischer PC verbraucht etwa 120W und ein Gestellrahmen beansprucht eine Stellfläche von , was eine Energiedichte von 3000 W/ ergibt. Spezielle Kühlmassnahmen sind erforderlich um die Gestellrahmen zu kühlen. Die Hardware und Software sind äusserst redundant ausgelegt. Festplatten, Kabel etc. sind vielfach repliziert vorhanden; die Indizes und Dokumente sind nocheinmal in "Shrads" (Scherben) aufgeteilt und kommen in jedem Datenzentrum wiederholt vor.

PageRank[Bearbeiten]

Der PageRank ist eine von Larry Page entwickelte Methode, die die Wichtigkeit einer Webseite beschreibt; die Webseiten werden bei der Anfrage nach ihrem Ranking sortiert. Hierbei wird das WWW als vernetztes System mit Webseiten und Hyperlinks, die die einzelnen Seiten verbinden, betrachtet. Das Web wird dann als gerichteter Graph dargestellt, wobei jede Webseite einen Knoten und jeder Hyperlink eine Kante darstellt. Je mehr Links auf eine Seite verweisen desto wichtiger ist die Seite wahrscheinlich, aber Links von Seiten mit vielen Links (Linkfarmen) haben weniger Gewicht. Dies wirkt sogenannten Google-Bomben entgegen, wo versucht wird das Google-Suchergebnis für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext zu manipulieren. Das Auftreten der Suchbegriffe im Dokumenttitel oder in Überschriften sowie die Verwendung der Begriffe als Ankertext (Google Bombing s.o.) sind weitere Faktoren für die Sortierung.

Quellen[Bearbeiten]