Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| de:modul:ffit:3-jahr:java:learningunits:lu13:b [2025/12/02 00:08] – angelegt apeter | de:modul:ffit:3-jahr:java:learningunits:lu13:b [2025/12/02 01:39] (aktuell) – apeter | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| ====== LU13b - Crawler Aufbau Teil 2 ====== | ====== LU13b - Crawler Aufbau Teil 2 ====== | ||
| - | === WikiPageDownloaderService | + | ==== WikiPageCollectorService |
| + | Der '' | ||
| + | |||
| + | Der Benutzer soll einen Unterordner beziehungsweise einen " | ||
| + | |||
| + | Leider gibt es dazu keine geeignete und funktionierende XML-RPC-Funktion. Theoretisch könnte man alle Seiten als HTML-Dokumente runterladen und dann sämtliche links (<a href=...) speichern, aber beim DokuWik-Code sind die Links nicht dabei. | ||
| + | |||
| + | In unserem Fall nutzen wir deshalb die Seitenübersicht (https:// | ||
| + | |||
| + | Aber auch hier wird nicht alles auf einmal geladen. Die Inhalte der Ordner wird nur bei Bedarf via '' | ||
| + | |||
| + | Diese Ajax-Funktion können wir nutzen, um uns die Namespace und Seiten pro Namespace auszugeben. | ||
| + | |||
| + | |||
| + | ==== WikiCrawlerPipelineService ==== | ||
| + | |||
| + | Orchestriert wird das Ganze durch den '' | ||
| + | |||
| + | Zum Beispiel müssen bereits gespeicherte Seiten nicht erneut heruntergeladen werden, wenn man davon ausgeht, dass sich die Seite in der Zwischenzeit nicht geändert hat. | ||
| + | |||
| + | Ebenfalls kann man Seiten, die lediglich zur Navigation dienen, theoretisch ignorieren, da diese Seite kein nützliches Wissen enthalten. | ||
| + | |||
| + | Beispiel: https:// | ||