Web Crawler Methodik. Breitensuche in Python mit Scrapy Framework (eBook)

(Autor)

eBook Download: PDF
2016 | 1. Auflage
37 Seiten
GRIN Verlag
978-3-668-27529-4 (ISBN)

Lese- und Medienproben

Web Crawler Methodik. Breitensuche in Python mit Scrapy Framework - Torun Ünver
Systemvoraussetzungen
15,99 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Projektarbeit aus dem Jahr 2016 im Fachbereich Informatik - Programmierung, Note: 1, Hochschule Darmstadt (Fachbereich Media), Veranstaltung: Informationswissenschaftliches Kolloquium, Sprache: Deutsch, Abstract: Python ist eine sehr effiziente und einflussreiche Programmiersprache. In diesem Buch geht es um die Durchsuchung des World Wide Web. Kann man mit der Programmiersprache Python Linkquellen aus unterschiedlichen Webseiten analysieren? Mithilfe von Python, einem Python-Framework namens Scrapy und einer Datenbank namens MongoDB wird in diesem Buch der Versuch gestartet, Linkquellen zu untersuchen. Untersuchte Linkquellen sollen zunächst in einer Datenbank abgelegt werden und sobald der erste Durchlauf vollendet ist, soll der Crawler die nächste gespeicherte Linkquelle aus der Datenbank entnehmen und diese Linkquelle nach weiteren Linkquellen untersuchen.

Dabei ist es wichtig, dass bei den gespeicherten Linkquellen keine Duplikate enthalten sind und die bereits untersuchten Webseiten nicht erneut untersucht werden. Kann man mit Python als Programmiersprache einfach und schnell eine hohe Anzahl an Linkquellen unterschiedlicher Webseiten aufspüren?

Zuerst tauchen wir gemeinsam in die Theorie der beiden Suchalgorithmen: Breiten- und Tiefensuche. Im Anschluss wird auf Konzeption, Voraussetzungen und Installation eingegangen, die man für einen solchen Versuch braucht.
Erscheint lt. Verlag 16.8.2016
Verlagsort München
Sprache deutsch
Themenwelt Informatik Programmiersprachen / -werkzeuge Python
Schlagworte MongoDB • Python • Python Framework • Scrapy • Searchengine • Suchmaschine • Web crawler • Web Scraping • Web Spider
ISBN-10 3-668-27529-7 / 3668275297
ISBN-13 978-3-668-27529-4 / 9783668275294
Haben Sie eine Frage zum Produkt?
PDFPDF (Ohne DRM)
Größe: 827 KB

Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopier­schutz. Eine Weiter­gabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persön­lichen Nutzung erwerben.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
ein kompakter Einstieg für die Praxis

von Ralph Steyer

eBook Download (2024)
Springer Vieweg (Verlag)
34,99
Arbeiten mit NumPy, Matplotlib und Pandas

von Bernd Klein

eBook Download (2023)
Carl Hanser Verlag GmbH & Co. KG
29,99