Start
Bilder und Diagramme
CMS Content Management
Crawler
Databases
Forensoftware
PDF-Bibliotheken
Sonstiges
Suchmaschinen
Template Engines
Web-Frameworks
Impressum
Links
|
Willkommen bei meiner Auflistung
Open-Source Java Crawler und Spider
für das Web-Umfeld
-
Java Web Crawler
Java Web Crawler ist eine äusserst einfache Implementierung eines Crawlers in einer einzigen Java-Klasse.
Java Web Crawler Home
-
WebEater
Ein Java programm um Websites herunterzuladen und im Offlien Modeus anzusehen.
WebEater Home
-
JSpider
JSpider wirbt damit besonders gut konfigurierbar und anpassbar zu sein. Das Projekt wird aber schon lange nicht mehr weiterentwickelt.
JSpider Home
-
Niocchi
Ein asynchron arbeitender Webcrawler. Man kann damit parallel tausende Websites herunterladen.
Niocchi Home
-
crawler4j
Crawler4j bietet eine einfache API. Crawler4j wirbt damit, dass man in 5 Minuten einen multi-thread-fähigen Crawler aufsetzen kann.
crawler4j Home
-
Heritrix
Einer der bekanntesten Web-Crawler. OpenSource, Erweiterbar, Skalierbar. Entwickelt um Web-Archive aufzubauen.
Heritrix Home
-
Flaxcrawler
Leichtgewichtiger, multi-thread fähiger Web-Crawler. Umfangreiche Konfigurationsmöglichkeiten.
Flaxcrawler Home
-
Web Harvest
Libary mit der einfach Content aus Webseiten extrahiert werden kann. Stichworte: Web Scraping oder Web Data Mining
Web Harvest Home
Hinweis:
Dies ist eine private Zusammenstellung.
Sie erhebt keinerlei Anspruchauf Vollständigkeit.
Vom Inhalt der verlinkten Seiten distanziere ich mich ausdrücklich.
|