Zum Hauptinhalt springen

Überblick

Web-Quellen ermöglichen es Ihnen, Inhalte direkt von Ihrer Website in die Wissensbasis Ihres Agenten zu importieren. Dies ist die gängigste Methode, um Ihren Agenten mit bestehenden Website-Inhalten wie Produktseiten, Dokumentationen, Blogbeiträgen und Dienstleistungsbeschreibungen zu trainieren.
Beginnen Sie zuerst mit Ihren wichtigsten Seiten. Qualität ist wichtiger als Quantität - eine fokussierte Wissensbasis mit relevanten Inhalten funktioniert besser als eine, die mit irrelevanten Seiten gefüllt ist.

Erkennungsmethoden

Die Plattform bietet vier Methoden zur Erkennung und zum Import von Web-Inhalten:

Schnell-Scan

Schnelle Domain-Zuordnung, die zügig Seiten auf Ihrer Website erkennt.

Tiefen-Scan

Gründliches Crawling mit erweiterten Optionen für präzise Kontrolle über importierte Inhalte.

Sitemap-Import

Importieren Sie URLs direkt aus der sitemap.xml-Datei Ihrer Website.

Manuelle Eingabe

Fügen Sie bestimmte URLs ein, wenn Sie genau wissen, welche Seiten importiert werden sollen.

Schnell-Scan

Der Schnell-Scan ist der schnellste Weg, Seiten auf Ihrer Website zu entdecken. Er verwendet intelligente Domain-Zuordnung, um Seiten zu finden, ohne jede einzelne vollständig zu crawlen.

Verwendung

  1. Wählen Sie Schnell-Scan als Erkennungsmethode
  2. Geben Sie Ihre Website-URL ein (z.B. https://example.com)
  3. Klicken Sie auf Domain scannen
  4. Überprüfen Sie die entdeckten URLs in der Ausstehend-Liste
  5. Speichern Sie die gewünschten Seiten in der Wissensbasis Ihres Agenten

Erweiterte Optionen

Standardmäßig erkennt der Schnell-Scan unbegrenzt viele Seiten. Sie können ein Limit festlegen, um die Anzahl der entdeckten URLs zu begrenzen:
  • Unbegrenzt: Alle verfügbaren Seiten entdecken
  • Benutzerdefiniertes Limit: Eine bestimmte Anzahl festlegen (z.B. 100 Seiten)
Dies ist nützlich, wenn Sie eine große Website haben, aber nur eine Teilmenge der Seiten benötigen.

Tiefen-Scan

Der Tiefen-Scan bietet gründliches Crawling mit feinkörniger Kontrolle über den Crawling-Prozess. Verwenden Sie ihn, wenn Sie präzise Kontrolle darüber benötigen, welche Seiten entdeckt werden.

Verwendung

  1. Wählen Sie Tiefen-Scan als Erkennungsmethode
  2. Geben Sie Ihre Start-URL ein (z.B. https://example.com/docs)
  3. Konfigurieren Sie erweiterte Optionen (optional)
  4. Klicken Sie auf Domain scannen
  5. Überwachen Sie den Crawl-Fortschritt in Echtzeit
  6. Überprüfen und speichern Sie die entdeckten URLs

Erweiterte Optionen

Der Tiefen-Scan bietet mehrere Konfigurationsoptionen:
Steuert, wie viele Ebenen tief der Crawler Links folgen wird.
TiefeVerhalten
0Nur die Start-URL
1Start-URL + davon verlinkte Seiten
2Start-URL + 2 Ebenen verlinkter Seiten
3+Folgt Links weiter bis zur angegebenen Tiefe
Standard: 2 Ebenen
Höhere Tiefenwerte ergeben mehr Seiten, aber längere Crawl-Zeiten.
Zeit in Millisekunden, die zwischen Anfragen gewartet wird. Dies hilft, Ihren Server nicht zu überlasten und verhindert Ratenbegrenzung.Standard: 200msErhöhen Sie diesen Wert, wenn Ihr Server Ratenbegrenzung hat oder wenn Zeitüberschreitungsfehler auftreten.
Maximale Anzahl der URLs, die während des Crawls entdeckt werden sollen.
  • Unbegrenzt: Keine Begrenzung der entdeckten URLs
  • Benutzerdefiniertes Limit: Stoppt nach Entdeckung der angegebenen Seitenanzahl
Standard: 100 URLs
Steuert, ob der Crawler auf Ihrer Domain bleibt oder externen Links folgt.
OptionVerhalten
Nur gleiche DomainCrawlt nur Seiten auf derselben Domain wie die Start-URL
Alle DomainsFolgt auch Links zu externen Websites
Standard: Nur gleiche Domain
Die Aktivierung von “Alle Domains” kann die Crawl-Zeit erheblich verlängern und irrelevante Inhalte einschließen.
Begrenzen Sie das Crawling auf bestimmte Pfade Ihrer Website. Geben Sie kommagetrennte Pfade ein, um den Crawler einzuschränken.Beispiel: /docs, /blog, /productsDies würde nur URLs crawlen, die /docs, /blog oder /products in ihrem Pfad enthalten.
Zusätzliche Filter zum Ausschließen unerwünschter URLs:
FilterWas ausgeschlossen wird
Social Media überspringenLinks zu Facebook, Twitter, LinkedIn usw.
Datei-URLs überspringenLinks zu PDFs, Bildern, Downloads usw.
Anker-Links überspringenURLs mit #-Fragmenten
Alle Filter sind standardmäßig aktiviert.

Crawl abbrechen

Während eines Tiefen-Scans können Sie jederzeit auf Abbrechen klicken, um den Crawl zu stoppen. Alle bis zu diesem Zeitpunkt entdeckten URLs stehen weiterhin in Ihrer Ausstehend-Liste zur Verfügung.

Sitemap-Import

Wenn Ihre Website eine sitemap.xml-Datei hat, können Sie alle URLs direkt daraus importieren. Dies ist oft die zuverlässigste Methode für gut gepflegte Websites.

Verwendung

  1. Wählen Sie Sitemap als Erkennungsmethode
  2. Geben Sie Ihre Sitemap-URL ein (z.B. https://example.com/sitemap.xml)
  3. Klicken Sie auf Sitemap importieren
  4. Überprüfen Sie die geparsten URLs
  5. Speichern Sie die gewünschten Seiten

Ihre Sitemap finden

Häufige Sitemap-Speicherorte:
  • https://ihreseite.com/sitemap.xml
  • https://ihreseite.com/sitemap_index.xml
  • https://ihreseite.com/sitemap/sitemap.xml
Überprüfen Sie die robots.txt-Datei Ihrer Website - sie enthält oft einen Link zu Ihrer Sitemap:
Sitemap: https://ihreseite.com/sitemap.xml

Verschachtelte Sitemaps

Die Plattform verarbeitet automatisch Sitemap-Index-Dateien - Sitemaps, die auf andere Sitemaps verweisen. Wenn Sie einen Sitemap-Index importieren, wird:
  1. Erkannt, dass es sich um eine Index-Datei handelt
  2. Jede verschachtelte Sitemap automatisch abgerufen
  3. Alle URLs in einer einzigen Liste zusammengefasst
  4. Bis zu 3 Verschachtelungsebenen unterstützt
Wenn Ihre Sitemap mehr als 3 Verschachtelungsebenen hat, können einige tiefere Sitemaps übersprungen werden. Dieses Limit hilft, übermäßig lange Importzeiten zu vermeiden.

Manuelle URL-Eingabe

Wenn Sie genau wissen, welche Seiten Sie importieren möchten, ist die manuelle Eingabe die schnellste Option.

Verwendung

  1. Wählen Sie Manuell als Erkennungsmethode
  2. Fügen Sie Ihre URLs in das Textfeld ein (eine pro Zeile)
  3. Klicken Sie auf URLs hinzufügen
  4. Überprüfen und speichern

Unterstützte Formate

Das manuelle Eingabefeld akzeptiert:
  • Einfache URLs (eine pro Zeile)
  • URLs mit oder ohne https://-Präfix
  • Eingefügten HTML-Inhalt (URLs werden automatisch extrahiert)
Beispiel-Eingabe:
https://example.com/seite-1
https://example.com/seite-2
example.com/seite-3
www.example.com/seite-4

URLs aus HTML extrahieren

Wenn Sie HTML-Inhalte kopieren (z.B. aus einem Webseitenquellcode), extrahiert die Plattform automatisch alle gültigen URLs aus Anker-Tags und Klartext.
Verwenden Sie die Schaltfläche Aus Zwischenablage parsen, um URLs aus kopierten Webinhalten mit Links zu extrahieren.

Ausstehende Quellen verwalten

Nach dem Entdecken von URLs mit einer beliebigen Methode erscheinen diese in der Liste Ausstehende Quellen, wo Sie sie vor dem Speichern überprüfen und verwalten können.

Ausstehende Quellen filtern

FilterZweck
SucheURLs finden, die bestimmten Text enthalten
AusschließenURLs entfernen, die Mustern entsprechen (z.B. /admin, .pdf)
TypNach Erkennungsmethode filtern (Schnell-Scan, Tiefen-Scan, Sitemap, Manuell)

Duplikaterkennung

Die Plattform erkennt automatisch Duplikate:
StatusBedeutung
NEUURL nicht in Ihrer Wissensbasis
Duplikat (im Agenten)URL existiert bereits in den Quellen Ihres Agenten
Duplikat (in Ausstehend)Gleiche URL bereits in Ihrer Ausstehend-Liste
Duplikate werden in einem separaten Bereich angezeigt und können mit einem Klick entfernt werden.

Quellen speichern

Nachdem Sie Ihre ausstehenden URLs überprüft haben:
  1. Verwenden Sie Filter, um unerwünschte Seiten auszuschließen
  2. Klicken Sie auf Zum Agenten speichern, um sie Ihrer Wissensbasis hinzuzufügen
  3. Die Quellen werden automatisch verarbeitet

Best Practices

Beginnen Sie mit Ihren wichtigsten Seiten (Produktseiten, Schlüsseldokumentation, FAQs). Testen Sie Ihren Agenten und fügen Sie dann bei Bedarf weitere Inhalte hinzu.
Sitemaps werden von Ihrer Website gepflegt und bieten die genaueste Liste der Seiten. Sie sind auch schneller als Crawling.
Schließen Sie Admin-Seiten, Login-Seiten und irrelevante Bereiche aus. Verwenden Sie Muster wie /admin, /login, /cart im Ausschlussfilter.
Tiefen-Scans großer Websites können mehrere Minuten dauern. Die Fortschrittsanzeige zeigt den Echtzeit-Status an.
Wenn Sie Ihre Website-Inhalte aktualisieren, importieren Sie die betroffenen Seiten erneut, um die Wissensbasis Ihres Agenten aktuell zu halten.

Häufige Probleme

Crawl-Zeitüberschreitung

Wenn Ihr Crawl eine Zeitüberschreitung hat:
  • Reduzieren Sie die Einstellung Maximale Tiefe
  • Erhöhen Sie die Wartezeit zwischen Anfragen
  • Setzen Sie ein niedrigeres URL-Limit
  • Verwenden Sie Unterpfad-Einschränkung, um sich auf bestimmte Bereiche zu konzentrieren

Sitemap lässt sich nicht laden

Wenn der Sitemap-Import fehlschlägt:
  • Überprüfen Sie, ob die Sitemap-URL in Ihrem Browser erreichbar ist
  • Prüfen Sie, ob die Sitemap gültiges XML ist
  • Stellen Sie sicher, dass Ihr Server keine automatisierten Anfragen blockiert
  • Versuchen Sie die direkte Sitemap-URL (nicht die robots.txt-Referenz)

Fehlende Seiten

Wenn erwartete Seiten nicht entdeckt werden:
  • Prüfen Sie, ob die Seiten von Ihrer Start-URL verlinkt sind
  • Erhöhen Sie die Einstellung Maximale Tiefe
  • Überprüfen Sie, ob Seiten nicht durch robots.txt blockiert werden
  • Versuchen Sie die Manuelle Eingabe für bestimmte Seiten

Nächste Schritte