Web-Quellen

Überblick

Web-Quellen ermöglichen es Ihnen, Inhalte direkt von Ihrer Website in die Wissensbasis Ihres Agenten zu importieren. Dies ist die gängigste Methode, um Ihren Agenten mit bestehenden Website-Inhalten wie Produktseiten, Dokumentationen, Blogbeiträgen und Dienstleistungsbeschreibungen zu trainieren.

Beginnen Sie zuerst mit Ihren wichtigsten Seiten. Qualität ist wichtiger als Quantität - eine fokussierte Wissensbasis mit relevanten Inhalten funktioniert besser als eine, die mit irrelevanten Seiten gefüllt ist.

Erkennungsmethoden

Die Plattform bietet vier Methoden zur Erkennung und zum Import von Web-Inhalten:

Schnell-Scan

Schnelle Domain-Zuordnung, die zügig Seiten auf Ihrer Website erkennt.

Tiefen-Scan

Gründliches Crawling mit erweiterten Optionen für präzise Kontrolle über importierte Inhalte.

Sitemap-Import

Importieren Sie URLs direkt aus der sitemap.xml-Datei Ihrer Website.

Manuelle Eingabe

Fügen Sie bestimmte URLs ein, wenn Sie genau wissen, welche Seiten importiert werden sollen.

Schnell-Scan

Der Schnell-Scan ist der schnellste Weg, Seiten auf Ihrer Website zu entdecken. Er verwendet intelligente Domain-Zuordnung, um Seiten zu finden, ohne jede einzelne vollständig zu crawlen.

Verwendung

Wählen Sie Schnell-Scan als Erkennungsmethode
Geben Sie Ihre Website-URL ein (z.B. https://example.com)
Klicken Sie auf Domain scannen
Überprüfen Sie die entdeckten URLs in der Ausstehend-Liste
Speichern Sie die gewünschten Seiten in der Wissensbasis Ihres Agenten

Erweiterte Optionen

URL-Limit

Standardmäßig erkennt der Schnell-Scan unbegrenzt viele Seiten. Sie können ein Limit festlegen, um die Anzahl der entdeckten URLs zu begrenzen:

Unbegrenzt: Alle verfügbaren Seiten entdecken
Benutzerdefiniertes Limit: Eine bestimmte Anzahl festlegen (z.B. 100 Seiten)

Dies ist nützlich, wenn Sie eine große Website haben, aber nur eine Teilmenge der Seiten benötigen.

Tiefen-Scan

Der Tiefen-Scan bietet gründliches Crawling mit feinkörniger Kontrolle über den Crawling-Prozess. Verwenden Sie ihn, wenn Sie präzise Kontrolle darüber benötigen, welche Seiten entdeckt werden.

Verwendung

Wählen Sie Tiefen-Scan als Erkennungsmethode
Geben Sie Ihre Start-URL ein (z.B. https://example.com/docs)
Konfigurieren Sie erweiterte Optionen (optional)
Klicken Sie auf Domain scannen
Überwachen Sie den Crawl-Fortschritt in Echtzeit
Überprüfen und speichern Sie die entdeckten URLs

Erweiterte Optionen

Der Tiefen-Scan bietet mehrere Konfigurationsoptionen:

Maximale Tiefe

Steuert, wie viele Ebenen tief der Crawler Links folgen wird.

Tiefe	Verhalten
0	Nur die Start-URL
1	Start-URL + davon verlinkte Seiten
2	Start-URL + 2 Ebenen verlinkter Seiten
3+	Folgt Links weiter bis zur angegebenen Tiefe

Standard: 2 Ebenen

Höhere Tiefenwerte ergeben mehr Seiten, aber längere Crawl-Zeiten.

Wartezeit

Zeit in Millisekunden, die zwischen Anfragen gewartet wird. Dies hilft, Ihren Server nicht zu überlasten und verhindert Ratenbegrenzung.Standard: 200msErhöhen Sie diesen Wert, wenn Ihr Server Ratenbegrenzung hat oder wenn Zeitüberschreitungsfehler auftreten.

URL-Limit

Maximale Anzahl der URLs, die während des Crawls entdeckt werden sollen.

Unbegrenzt: Keine Begrenzung der entdeckten URLs
Benutzerdefiniertes Limit: Stoppt nach Entdeckung der angegebenen Seitenanzahl

Standard: 100 URLs

Domain-Einschränkung

Steuert, ob der Crawler auf Ihrer Domain bleibt oder externen Links folgt.

Option	Verhalten
Nur gleiche Domain	Crawlt nur Seiten auf derselben Domain wie die Start-URL
Alle Domains	Folgt auch Links zu externen Websites

Standard: Nur gleiche Domain

Die Aktivierung von “Alle Domains” kann die Crawl-Zeit erheblich verlängern und irrelevante Inhalte einschließen.

Unterpfad-Einschränkung

Begrenzen Sie das Crawling auf bestimmte Pfade Ihrer Website. Geben Sie kommagetrennte Pfade ein, um den Crawler einzuschränken.Beispiel: /docs, /blog, /productsDies würde nur URLs crawlen, die /docs, /blog oder /products in ihrem Pfad enthalten.

Filteroptionen

Zusätzliche Filter zum Ausschließen unerwünschter URLs:

Filter	Was ausgeschlossen wird
Social Media überspringen	Links zu Facebook, Twitter, LinkedIn usw.
Datei-URLs überspringen	Links zu PDFs, Bildern, Downloads usw.
Anker-Links überspringen	URLs mit `#`-Fragmenten

Alle Filter sind standardmäßig aktiviert.

Crawl abbrechen

Während eines Tiefen-Scans können Sie jederzeit auf Abbrechen klicken, um den Crawl zu stoppen. Alle bis zu diesem Zeitpunkt entdeckten URLs stehen weiterhin in Ihrer Ausstehend-Liste zur Verfügung.

Sitemap-Import

Wenn Ihre Website eine sitemap.xml-Datei hat, können Sie alle URLs direkt daraus importieren. Dies ist oft die zuverlässigste Methode für gut gepflegte Websites.

Verwendung

Wählen Sie Sitemap als Erkennungsmethode
Geben Sie Ihre Sitemap-URL ein (z.B. https://example.com/sitemap.xml)
Klicken Sie auf Sitemap importieren
Überprüfen Sie die geparsten URLs
Speichern Sie die gewünschten Seiten

Ihre Sitemap finden

Häufige Sitemap-Speicherorte:

https://ihreseite.com/sitemap.xml
https://ihreseite.com/sitemap_index.xml
https://ihreseite.com/sitemap/sitemap.xml

Überprüfen Sie die robots.txt-Datei Ihrer Website - sie enthält oft einen Link zu Ihrer Sitemap:

Sitemap: https://ihreseite.com/sitemap.xml

Verschachtelte Sitemaps

Die Plattform verarbeitet automatisch Sitemap-Index-Dateien - Sitemaps, die auf andere Sitemaps verweisen. Wenn Sie einen Sitemap-Index importieren, wird:

Erkannt, dass es sich um eine Index-Datei handelt
Jede verschachtelte Sitemap automatisch abgerufen
Alle URLs in einer einzigen Liste zusammengefasst
Bis zu 3 Verschachtelungsebenen unterstützt

Wenn Ihre Sitemap mehr als 3 Verschachtelungsebenen hat, können einige tiefere Sitemaps übersprungen werden. Dieses Limit hilft, übermäßig lange Importzeiten zu vermeiden.

Manuelle URL-Eingabe

Wenn Sie genau wissen, welche Seiten Sie importieren möchten, ist die manuelle Eingabe die schnellste Option.

Verwendung

Wählen Sie Manuell als Erkennungsmethode
Fügen Sie Ihre URLs in das Textfeld ein (eine pro Zeile)
Klicken Sie auf URLs hinzufügen
Überprüfen und speichern

Unterstützte Formate

Das manuelle Eingabefeld akzeptiert:

Einfache URLs (eine pro Zeile)
URLs mit oder ohne https://-Präfix
Eingefügten HTML-Inhalt (URLs werden automatisch extrahiert)

Beispiel-Eingabe:

https://example.com/seite-1
https://example.com/seite-2
example.com/seite-3
www.example.com/seite-4

URLs aus HTML extrahieren

Wenn Sie HTML-Inhalte kopieren (z.B. aus einem Webseitenquellcode), extrahiert die Plattform automatisch alle gültigen URLs aus Anker-Tags und Klartext.

Verwenden Sie die Schaltfläche Aus Zwischenablage parsen, um URLs aus kopierten Webinhalten mit Links zu extrahieren.

Ausstehende Quellen verwalten

Nach dem Entdecken von URLs mit einer beliebigen Methode erscheinen diese in der Liste Ausstehende Quellen, wo Sie sie vor dem Speichern überprüfen und verwalten können.

Ausstehende Quellen filtern

Filter	Zweck
Suche	URLs finden, die bestimmten Text enthalten
Ausschließen	URLs entfernen, die Mustern entsprechen (z.B. `/admin`, `.pdf`)
Typ	Nach Erkennungsmethode filtern (Schnell-Scan, Tiefen-Scan, Sitemap, Manuell)

Duplikaterkennung

Die Plattform erkennt automatisch Duplikate:

Status	Bedeutung
NEU	URL nicht in Ihrer Wissensbasis
Duplikat (im Agenten)	URL existiert bereits in den Quellen Ihres Agenten
Duplikat (in Ausstehend)	Gleiche URL bereits in Ihrer Ausstehend-Liste

Duplikate werden in einem separaten Bereich angezeigt und können mit einem Klick entfernt werden.

Quellen speichern

Nachdem Sie Ihre ausstehenden URLs überprüft haben:

Verwenden Sie Filter, um unerwünschte Seiten auszuschließen
Klicken Sie auf Zum Agenten speichern, um sie Ihrer Wissensbasis hinzuzufügen
Die Quellen werden automatisch verarbeitet

Best Practices

Fokussiert beginnen, dann erweitern

Beginnen Sie mit Ihren wichtigsten Seiten (Produktseiten, Schlüsseldokumentation, FAQs). Testen Sie Ihren Agenten und fügen Sie dann bei Bedarf weitere Inhalte hinzu.

Sitemaps verwenden, wenn verfügbar

Sitemaps werden von Ihrer Website gepflegt und bieten die genaueste Liste der Seiten. Sie sind auch schneller als Crawling.

Ausschlussfilter großzügig verwenden

Schließen Sie Admin-Seiten, Login-Seiten und irrelevante Bereiche aus. Verwenden Sie Muster wie /admin, /login, /cart im Ausschlussfilter.

Geduld bei großen Websites

Tiefen-Scans großer Websites können mehrere Minuten dauern. Die Fortschrittsanzeige zeigt den Echtzeit-Status an.

Bei Inhaltsänderungen erneut importieren

Wenn Sie Ihre Website-Inhalte aktualisieren, importieren Sie die betroffenen Seiten erneut, um die Wissensbasis Ihres Agenten aktuell zu halten.

Häufige Probleme

Crawl-Zeitüberschreitung

Wenn Ihr Crawl eine Zeitüberschreitung hat:

Reduzieren Sie die Einstellung Maximale Tiefe
Erhöhen Sie die Wartezeit zwischen Anfragen
Setzen Sie ein niedrigeres URL-Limit
Verwenden Sie Unterpfad-Einschränkung, um sich auf bestimmte Bereiche zu konzentrieren

Sitemap lässt sich nicht laden

Wenn der Sitemap-Import fehlschlägt:

Überprüfen Sie, ob die Sitemap-URL in Ihrem Browser erreichbar ist
Prüfen Sie, ob die Sitemap gültiges XML ist
Stellen Sie sicher, dass Ihr Server keine automatisierten Anfragen blockiert
Versuchen Sie die direkte Sitemap-URL (nicht die robots.txt-Referenz)

Fehlende Seiten

Wenn erwartete Seiten nicht entdeckt werden:

Prüfen Sie, ob die Seiten von Ihrer Start-URL verlinkt sind
Erhöhen Sie die Einstellung Maximale Tiefe
Überprüfen Sie, ob Seiten nicht durch robots.txt blockiert werden
Versuchen Sie die Manuelle Eingabe für bestimmte Seiten

Nächste Schritte

Text-Quellen

Fügen Sie benutzerdefinierten Textinhalt hinzu, der nicht auf Ihrer Website steht.

Q&A-Quellen

Erstellen Sie gezielte Frage-Antwort-Paare.

Agenten testen

Überprüfen Sie Ihre Wissensbasis im Playground.

Quellen-Überblick

Erfahren Sie mehr über alle Quellentypen und Best Practices.

Erste Schritte

Chatbot

Rezeptionist

Überblick

Erkennungsmethoden

Schnell-Scan

Tiefen-Scan

Sitemap-Import

Manuelle Eingabe

Schnell-Scan

Verwendung

Erweiterte Optionen

Tiefen-Scan

Verwendung

Erweiterte Optionen

Crawl abbrechen

Sitemap-Import

Verwendung

Ihre Sitemap finden

Verschachtelte Sitemaps

Manuelle URL-Eingabe

Verwendung

Unterstützte Formate

URLs aus HTML extrahieren

Ausstehende Quellen verwalten

Ausstehende Quellen filtern

Duplikaterkennung

Quellen speichern

Best Practices

Häufige Probleme

Crawl-Zeitüberschreitung

Sitemap lässt sich nicht laden

Fehlende Seiten

Nächste Schritte

Text-Quellen

Q&A-Quellen

Agenten testen

Quellen-Überblick

Erste Schritte

Chatbot

Rezeptionist

​Überblick

​Erkennungsmethoden

Schnell-Scan

Tiefen-Scan

Sitemap-Import

Manuelle Eingabe

​Schnell-Scan

​Verwendung

​Erweiterte Optionen

​Tiefen-Scan

​Verwendung

​Erweiterte Optionen

​Crawl abbrechen

​Sitemap-Import

​Verwendung

​Ihre Sitemap finden

​Verschachtelte Sitemaps

​Manuelle URL-Eingabe

​Verwendung

​Unterstützte Formate

​URLs aus HTML extrahieren

​Ausstehende Quellen verwalten

​Ausstehende Quellen filtern

​Duplikaterkennung

​Quellen speichern

​Best Practices

​Häufige Probleme

​Crawl-Zeitüberschreitung

​Sitemap lässt sich nicht laden

​Fehlende Seiten

​Nächste Schritte

Text-Quellen

Q&A-Quellen

Agenten testen

Quellen-Überblick

Überblick

Erkennungsmethoden

Schnell-Scan

Verwendung

Erweiterte Optionen

Tiefen-Scan

Verwendung

Erweiterte Optionen

Crawl abbrechen

Sitemap-Import

Verwendung

Ihre Sitemap finden

Verschachtelte Sitemaps

Manuelle URL-Eingabe

Verwendung

Unterstützte Formate

URLs aus HTML extrahieren

Ausstehende Quellen verwalten

Ausstehende Quellen filtern

Duplikaterkennung

Quellen speichern

Best Practices

Häufige Probleme

Crawl-Zeitüberschreitung

Sitemap lässt sich nicht laden

Fehlende Seiten

Nächste Schritte