Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- de:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 00:02] – apeter
+++ de:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 01:39] (aktuell) – apeter
@@ Zeile 1: / Zeile 1: @@
-====== LU13a - Crawler Aufbau ======
+====== LU13a - Crawler Aufbau Teil 1 ======
 Damit alle relevanten Seiten von DokuWiki (https://wiki.bzz.ch) heruntergeladen werden können, nutzen wir eine Kombination aus Collector, Downloader und Orchestrator.
-=== WikiPageDownloaderService ===
+==== WikiPageDownloaderService ====
 Der ''WikiPageDownloaderService'' lädt den Inhalt einer Seite via XML-RPC herunter. Das hat mitunter zur Folge, dass kein HTML-Dokument, sondern direkt der DokuWiki-Markup-Code zurückgeschickt wird.
-Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher.
+Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher. Das HTML-Dokument enthält wiederkehrende Elemente wie Header und Footer, die nicht relevant sind. Ebenfalls ist viel Logik und Styling ebenfalls im HTML-Dokument enthalten. Das nachfolgende Beispiel zeigt den Unterschied.
 ^ Beispiel DokuWiki-Markup | <WRAP><code dokuwiki>
@@ Zeile 15: / Zeile 15: @@
 <nspages . -subns -nopages -exclude -h1 -textNS="" -simplelist></code>
 </WRAP> |
-^ Beispiel HTML | <WRAP><code html>
+^ Beispiel HTML | <WRAP><code xml>
 <html xmlns="http://www.w3.org/1999/xhtml" lang="de" dir="ltr" class="js"><head><style class="anchorjs"></style><style type="text/css">span.iconify, i.iconify, iconify-icon { display: inline-block; width: 1em; }</style>
     <meta charset="UTF-8">
@@ Zeile 400: / Zeile 400: @@
 </code>
 </WRAP> |
-=== WikiPageCollectorService ===
-Der ''WikiPageCollectorService'' sammelt die URLs von den Seiten, die heruntergeladen werden sollen.
-Der Benutzer soll einen Unterordner beziehungsweise einen "Namespace" angeben können und sämtliche darunterliegenden Seiten sollen rekursiv gesammelt werden.
-Leider gibt es dazu keine geeignete und funktionierende XML-RPC-Funktion. Theoretisch könnte man alle Seiten als HTML-Dokumente runterladen und dann sämtliche links (<a href=...) speichern.
-In unserem Fall nutzen
-Daher nutzen wir dieselbe Funktionen, die auch vom Wiki verwendet wird, um Unterseiten aufzulisten.
-<code dokuwiki><nspages . -h1  -exclude -simpleList -textPages=""></code>
-''Ajax''
-https://wiki.bzz.ch/start?idx=
-=== WikiCrawlerPipelineService ===
-Orchestriert wird das Ganze
-Filter