Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| de:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 00:02] – apeter | de:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 01:39] (aktuell) – apeter | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| - | ====== LU13a - Crawler Aufbau ====== | + | ====== LU13a - Crawler Aufbau |
| Damit alle relevanten Seiten von DokuWiki (https:// | Damit alle relevanten Seiten von DokuWiki (https:// | ||
| - | === WikiPageDownloaderService === | + | ==== WikiPageDownloaderService |
| Der '' | Der '' | ||
| - | Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher. | + | Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher. |
| - | ^ Beispiel DokuWiki-Markup ^ Beispiel | + | |
| ^ Beispiel DokuWiki-Markup | < | ^ Beispiel DokuWiki-Markup | < | ||
| ====== 3. Lehrjahr ===== | ====== 3. Lehrjahr ===== | ||
| Zeile 15: | Zeile 15: | ||
| <nspages . -subns -nopages -exclude -h1 -textNS="" | <nspages . -subns -nopages -exclude -h1 -textNS="" | ||
| </ | </ | ||
| - | | < | + | ^ Beispiel HTML | < |
| <html xmlns=" | <html xmlns=" | ||
| <meta charset=" | <meta charset=" | ||
| Zeile 400: | Zeile 400: | ||
| </ | </ | ||
| </ | </ | ||
| - | |||
| - | === WikiPageCollectorService === | ||
| - | Der '' | ||
| - | |||
| - | Der Benutzer soll einen Unterordner beziehungsweise einen " | ||
| - | |||
| - | Leider gibt es dazu keine geeignete und funktionierende XML-RPC-Funktion. Theoretisch könnte man alle Seiten als HTML-Dokumente runterladen und dann sämtliche links (<a href=...) speichern. | ||
| - | |||
| - | In unserem Fall nutzen | ||
| - | |||
| - | |||
| - | Daher nutzen wir dieselbe Funktionen, die auch vom Wiki verwendet wird, um Unterseiten aufzulisten. | ||
| - | <code dokuwiki>< | ||
| - | |||
| - | |||
| - | |||
| - | '' | ||
| - | https:// | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | === WikiCrawlerPipelineService === | ||
| - | |||
| - | Orchestriert wird das Ganze | ||
| - | Filter | ||