Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
de:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 00:02] apeterde:modul:ffit:3-jahr:java:learningunits:lu13:a [2025/12/02 01:39] (aktuell) apeter
Zeile 1: Zeile 1:
-====== LU13a - Crawler Aufbau ======+====== LU13a - Crawler Aufbau Teil 1 ======
  
 Damit alle relevanten Seiten von DokuWiki (https://wiki.bzz.ch) heruntergeladen werden können, nutzen wir eine Kombination aus Collector, Downloader und Orchestrator.  Damit alle relevanten Seiten von DokuWiki (https://wiki.bzz.ch) heruntergeladen werden können, nutzen wir eine Kombination aus Collector, Downloader und Orchestrator. 
    
-=== WikiPageDownloaderService ===+==== WikiPageDownloaderService ====
 Der ''WikiPageDownloaderService'' lädt den Inhalt einer Seite via XML-RPC herunter. Das hat mitunter zur Folge, dass kein HTML-Dokument, sondern direkt der DokuWiki-Markup-Code zurückgeschickt wird. Der ''WikiPageDownloaderService'' lädt den Inhalt einer Seite via XML-RPC herunter. Das hat mitunter zur Folge, dass kein HTML-Dokument, sondern direkt der DokuWiki-Markup-Code zurückgeschickt wird.
  
-Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher.+Dieser Code ist einiges schlanker als das entsprechende HTML und macht das Interpretieren einfacher. Das HTML-Dokument enthält wiederkehrende Elemente wie Header und Footer, die nicht relevant sind. Ebenfalls ist viel Logik und Styling ebenfalls im HTML-Dokument enthalten. Das nachfolgende Beispiel zeigt den Unterschied.
  
 ^ Beispiel DokuWiki-Markup | <WRAP><code dokuwiki> ^ Beispiel DokuWiki-Markup | <WRAP><code dokuwiki>
Zeile 15: Zeile 15:
 <nspages . -subns -nopages -exclude -h1 -textNS="" -simplelist></code> <nspages . -subns -nopages -exclude -h1 -textNS="" -simplelist></code>
 </WRAP> </WRAP>
-^ Beispiel HTML | <WRAP><code html>+^ Beispiel HTML | <WRAP><code xml>
 <html xmlns="http://www.w3.org/1999/xhtml" lang="de" dir="ltr" class="js"><head><style class="anchorjs"></style><style type="text/css">span.iconify, i.iconify, iconify-icon { display: inline-block; width: 1em; }</style> <html xmlns="http://www.w3.org/1999/xhtml" lang="de" dir="ltr" class="js"><head><style class="anchorjs"></style><style type="text/css">span.iconify, i.iconify, iconify-icon { display: inline-block; width: 1em; }</style>
     <meta charset="UTF-8">     <meta charset="UTF-8">
Zeile 400: Zeile 400:
 </code> </code>
 </WRAP> | </WRAP> |
- 
-=== WikiPageCollectorService === 
-Der ''WikiPageCollectorService'' sammelt die URLs von den Seiten, die heruntergeladen werden sollen.  
- 
-Der Benutzer soll einen Unterordner beziehungsweise einen "Namespace" angeben können und sämtliche darunterliegenden Seiten sollen rekursiv gesammelt werden. 
- 
-Leider gibt es dazu keine geeignete und funktionierende XML-RPC-Funktion. Theoretisch könnte man alle Seiten als HTML-Dokumente runterladen und dann sämtliche links (<a href=...) speichern. 
- 
-In unserem Fall nutzen 
- 
- 
-Daher nutzen wir dieselbe Funktionen, die auch vom Wiki verwendet wird, um Unterseiten aufzulisten. 
-<code dokuwiki><nspages . -h1  -exclude -simpleList -textPages=""></code> 
- 
- 
- 
-''Ajax'' 
-https://wiki.bzz.ch/start?idx= 
- 
- 
- 
- 
-=== WikiCrawlerPipelineService === 
- 
-Orchestriert wird das Ganze  
-Filter 
  • de/modul/ffit/3-jahr/java/learningunits/lu13/a.1764630154.txt.gz
  • Zuletzt geändert: 2025/12/02 00:02
  • von apeter