Google versucht nun das Deep-Web zu indexieren

Wie am 11. April im Webmaster Central Blog von Google veröffentlicht versucht Google nun auch Inhalte des Deep Web über die Auswertung von Formularen zu indexieren. Das Deep Web beinhaltet Content, der bisher für Suchdienste nicht zugänglich war. Es handelte sich dabei meistens um große Datenbanken mit Artikel und Fachbeiträge aber auch Wetterdaten, Bibliotheken oder die Daten der Nasa usw.  Die Firma BrightPlanet hat eine Schätzung veröffentlicht nachdem die Inhalte des Deep Web um den Faktor 400-550 höher liegen als jene Inhalte, die aktuell von Suchdiensten indexiert werden können. Diese Angabe wird von einigen Spezialisten bezweifelt, da in der Schätzung z.B. auch Dubletten und Klima Daten enthalten sind. Dennoch gehe auch ich davon aus, dass Google bisher nur einen Bruchteil des Webs überhaupt indexiert hat.

Die Suchmaschine base-search.net  und der Google Service Scholar sind Projekte, die die Indexierung des Deep Web vorantreiben sollten. Jedoch bilden diese Projekte bisher nur eine geringe Menge des Deep Web ab. Base-search.net nutz lediglich 700 Datenquellen und es befinden sich überwiegend wissenschaftliche Datenbanken oder Universitäts Datenbanken in diesen Quellen. Google Scholar beinhaltet von verschiedenen wissenschaftlichen Verlagen zugänglich gemachte Inhalte. Damit kann Google unter dem Scholar Service Fachartikel präsentieren, jedoch sind es solche von vergleichsweise wenig Verlagen, die durch gezielte Ansprache von Google ihre Bereitschaft zur Indexierung gaben.

Mit der nun eingeschlagenen Arbeitsweise des Google Bots werden bisher ignorierte Formulare von Google ausgefüllt und versucht an die Inhalte hinter der Suchen zu gelangen um diese zu indexieren. Dabei werden Checkboxen, Radiobuttons, Suchfelder und Pulldownmenüs nun vom Googlebot bedient. Google geht bei Suchformularen vom Content der Seite aus um die Suchmasken mit Stichworten zu füllen und Ergebnisse zu erhalten.

Dieser neue Ansatz hat für SEO zwei Aspekte, die zu beachten sind:
Musste man in der SEO Konzeption bisher gezielt daran Arbeiten um Inhalte für Google zugänglich zu machen, kann man sich eventuell diese Arbeit nun sparen. Trotzdem sollte man sich nicht auf Google verlassen, denn welche Inhalte Google nun indexiert ist kaum mehr steuerbar.

Konnte man bisher Inhalte durch Suchformulare gegenüber Google sperren um keine doppelten Inhalte (DC) zu erzeugen, muss nun zusätzlich per Metatag oder robots.txt der Bereich behandelt werden, der zu DC führen würde.  Glücklicherweise hält sich Google bei der Indexierung an die üblichen Steuermöglichkeiten wie im Webmaster Central Blog ausdrüglich dargelegt wird.

Weitere Themen:
Google Empfehlung zu minderwertigen Links – Bad neighbourhood

...

DER SEO Rapper zu Webdesign und Searchability

...

Neues SEO und SMO Tool

...

Cuil ist da! Der Anfang einer neuen Ära?

...

Google versucht mehr Marktanteile im Browsermarkt zu generieren

...

0 Responses to “Google versucht nun das Deep-Web zu indexieren”


  1. No Comments

Leave a Reply