Überblick
Web-Quellen ermöglichen es Ihnen, Inhalte direkt von Ihrer Website in die Wissensbasis Ihres Agenten zu importieren. Dies ist die gängigste Methode, um Ihren Agenten mit bestehenden Website-Inhalten wie Produktseiten, Dokumentationen, Blogbeiträgen und Dienstleistungsbeschreibungen zu trainieren.Erkennungsmethoden
Die Plattform bietet vier Methoden zur Erkennung und zum Import von Web-Inhalten:Schnell-Scan
Schnelle Domain-Zuordnung, die zügig Seiten auf Ihrer Website erkennt.
Tiefen-Scan
Gründliches Crawling mit erweiterten Optionen für präzise Kontrolle über importierte Inhalte.
Sitemap-Import
Importieren Sie URLs direkt aus der sitemap.xml-Datei Ihrer Website.
Manuelle Eingabe
Fügen Sie bestimmte URLs ein, wenn Sie genau wissen, welche Seiten importiert werden sollen.
Schnell-Scan
Der Schnell-Scan ist der schnellste Weg, Seiten auf Ihrer Website zu entdecken. Er verwendet intelligente Domain-Zuordnung, um Seiten zu finden, ohne jede einzelne vollständig zu crawlen.Verwendung
- Wählen Sie Schnell-Scan als Erkennungsmethode
- Geben Sie Ihre Website-URL ein (z.B.
https://example.com) - Klicken Sie auf Domain scannen
- Überprüfen Sie die entdeckten URLs in der Ausstehend-Liste
- Speichern Sie die gewünschten Seiten in der Wissensbasis Ihres Agenten
Erweiterte Optionen
URL-Limit
URL-Limit
Standardmäßig erkennt der Schnell-Scan unbegrenzt viele Seiten. Sie können ein Limit festlegen, um die Anzahl der entdeckten URLs zu begrenzen:
- Unbegrenzt: Alle verfügbaren Seiten entdecken
- Benutzerdefiniertes Limit: Eine bestimmte Anzahl festlegen (z.B. 100 Seiten)
Tiefen-Scan
Der Tiefen-Scan bietet gründliches Crawling mit feinkörniger Kontrolle über den Crawling-Prozess. Verwenden Sie ihn, wenn Sie präzise Kontrolle darüber benötigen, welche Seiten entdeckt werden.Verwendung
- Wählen Sie Tiefen-Scan als Erkennungsmethode
- Geben Sie Ihre Start-URL ein (z.B.
https://example.com/docs) - Konfigurieren Sie erweiterte Optionen (optional)
- Klicken Sie auf Domain scannen
- Überwachen Sie den Crawl-Fortschritt in Echtzeit
- Überprüfen und speichern Sie die entdeckten URLs
Erweiterte Optionen
Der Tiefen-Scan bietet mehrere Konfigurationsoptionen:Maximale Tiefe
Maximale Tiefe
Steuert, wie viele Ebenen tief der Crawler Links folgen wird.
Standard: 2 Ebenen
| Tiefe | Verhalten |
|---|---|
| 0 | Nur die Start-URL |
| 1 | Start-URL + davon verlinkte Seiten |
| 2 | Start-URL + 2 Ebenen verlinkter Seiten |
| 3+ | Folgt Links weiter bis zur angegebenen Tiefe |
Höhere Tiefenwerte ergeben mehr Seiten, aber längere Crawl-Zeiten.
Wartezeit
Wartezeit
Zeit in Millisekunden, die zwischen Anfragen gewartet wird. Dies hilft, Ihren Server nicht zu überlasten und verhindert Ratenbegrenzung.Standard: 200msErhöhen Sie diesen Wert, wenn Ihr Server Ratenbegrenzung hat oder wenn Zeitüberschreitungsfehler auftreten.
URL-Limit
URL-Limit
Maximale Anzahl der URLs, die während des Crawls entdeckt werden sollen.
- Unbegrenzt: Keine Begrenzung der entdeckten URLs
- Benutzerdefiniertes Limit: Stoppt nach Entdeckung der angegebenen Seitenanzahl
Domain-Einschränkung
Domain-Einschränkung
Steuert, ob der Crawler auf Ihrer Domain bleibt oder externen Links folgt.
Standard: Nur gleiche Domain
| Option | Verhalten |
|---|---|
| Nur gleiche Domain | Crawlt nur Seiten auf derselben Domain wie die Start-URL |
| Alle Domains | Folgt auch Links zu externen Websites |
Unterpfad-Einschränkung
Unterpfad-Einschränkung
Begrenzen Sie das Crawling auf bestimmte Pfade Ihrer Website. Geben Sie kommagetrennte Pfade ein, um den Crawler einzuschränken.Beispiel:
/docs, /blog, /productsDies würde nur URLs crawlen, die /docs, /blog oder /products in ihrem Pfad enthalten.Filteroptionen
Filteroptionen
Zusätzliche Filter zum Ausschließen unerwünschter URLs:
Alle Filter sind standardmäßig aktiviert.
| Filter | Was ausgeschlossen wird |
|---|---|
| Social Media überspringen | Links zu Facebook, Twitter, LinkedIn usw. |
| Datei-URLs überspringen | Links zu PDFs, Bildern, Downloads usw. |
| Anker-Links überspringen | URLs mit #-Fragmenten |
Crawl abbrechen
Während eines Tiefen-Scans können Sie jederzeit auf Abbrechen klicken, um den Crawl zu stoppen. Alle bis zu diesem Zeitpunkt entdeckten URLs stehen weiterhin in Ihrer Ausstehend-Liste zur Verfügung.Sitemap-Import
Wenn Ihre Website eine sitemap.xml-Datei hat, können Sie alle URLs direkt daraus importieren. Dies ist oft die zuverlässigste Methode für gut gepflegte Websites.Verwendung
- Wählen Sie Sitemap als Erkennungsmethode
- Geben Sie Ihre Sitemap-URL ein (z.B.
https://example.com/sitemap.xml) - Klicken Sie auf Sitemap importieren
- Überprüfen Sie die geparsten URLs
- Speichern Sie die gewünschten Seiten
Ihre Sitemap finden
Häufige Sitemap-Speicherorte:https://ihreseite.com/sitemap.xmlhttps://ihreseite.com/sitemap_index.xmlhttps://ihreseite.com/sitemap/sitemap.xml
Verschachtelte Sitemaps
Die Plattform verarbeitet automatisch Sitemap-Index-Dateien - Sitemaps, die auf andere Sitemaps verweisen. Wenn Sie einen Sitemap-Index importieren, wird:- Erkannt, dass es sich um eine Index-Datei handelt
- Jede verschachtelte Sitemap automatisch abgerufen
- Alle URLs in einer einzigen Liste zusammengefasst
- Bis zu 3 Verschachtelungsebenen unterstützt
Wenn Ihre Sitemap mehr als 3 Verschachtelungsebenen hat, können einige tiefere Sitemaps übersprungen werden. Dieses Limit hilft, übermäßig lange Importzeiten zu vermeiden.
Manuelle URL-Eingabe
Wenn Sie genau wissen, welche Seiten Sie importieren möchten, ist die manuelle Eingabe die schnellste Option.Verwendung
- Wählen Sie Manuell als Erkennungsmethode
- Fügen Sie Ihre URLs in das Textfeld ein (eine pro Zeile)
- Klicken Sie auf URLs hinzufügen
- Überprüfen und speichern
Unterstützte Formate
Das manuelle Eingabefeld akzeptiert:- Einfache URLs (eine pro Zeile)
- URLs mit oder ohne
https://-Präfix - Eingefügten HTML-Inhalt (URLs werden automatisch extrahiert)
URLs aus HTML extrahieren
Wenn Sie HTML-Inhalte kopieren (z.B. aus einem Webseitenquellcode), extrahiert die Plattform automatisch alle gültigen URLs aus Anker-Tags und Klartext.Ausstehende Quellen verwalten
Nach dem Entdecken von URLs mit einer beliebigen Methode erscheinen diese in der Liste Ausstehende Quellen, wo Sie sie vor dem Speichern überprüfen und verwalten können.Ausstehende Quellen filtern
| Filter | Zweck |
|---|---|
| Suche | URLs finden, die bestimmten Text enthalten |
| Ausschließen | URLs entfernen, die Mustern entsprechen (z.B. /admin, .pdf) |
| Typ | Nach Erkennungsmethode filtern (Schnell-Scan, Tiefen-Scan, Sitemap, Manuell) |
Duplikaterkennung
Die Plattform erkennt automatisch Duplikate:| Status | Bedeutung |
|---|---|
| NEU | URL nicht in Ihrer Wissensbasis |
| Duplikat (im Agenten) | URL existiert bereits in den Quellen Ihres Agenten |
| Duplikat (in Ausstehend) | Gleiche URL bereits in Ihrer Ausstehend-Liste |
Quellen speichern
Nachdem Sie Ihre ausstehenden URLs überprüft haben:- Verwenden Sie Filter, um unerwünschte Seiten auszuschließen
- Klicken Sie auf Zum Agenten speichern, um sie Ihrer Wissensbasis hinzuzufügen
- Die Quellen werden automatisch verarbeitet
Best Practices
Fokussiert beginnen, dann erweitern
Fokussiert beginnen, dann erweitern
Beginnen Sie mit Ihren wichtigsten Seiten (Produktseiten, Schlüsseldokumentation, FAQs). Testen Sie Ihren Agenten und fügen Sie dann bei Bedarf weitere Inhalte hinzu.
Sitemaps verwenden, wenn verfügbar
Sitemaps verwenden, wenn verfügbar
Sitemaps werden von Ihrer Website gepflegt und bieten die genaueste Liste der Seiten. Sie sind auch schneller als Crawling.
Ausschlussfilter großzügig verwenden
Ausschlussfilter großzügig verwenden
Schließen Sie Admin-Seiten, Login-Seiten und irrelevante Bereiche aus. Verwenden Sie Muster wie
/admin, /login, /cart im Ausschlussfilter.Geduld bei großen Websites
Geduld bei großen Websites
Tiefen-Scans großer Websites können mehrere Minuten dauern. Die Fortschrittsanzeige zeigt den Echtzeit-Status an.
Bei Inhaltsänderungen erneut importieren
Bei Inhaltsänderungen erneut importieren
Wenn Sie Ihre Website-Inhalte aktualisieren, importieren Sie die betroffenen Seiten erneut, um die Wissensbasis Ihres Agenten aktuell zu halten.
Häufige Probleme
Crawl-Zeitüberschreitung
Wenn Ihr Crawl eine Zeitüberschreitung hat:- Reduzieren Sie die Einstellung Maximale Tiefe
- Erhöhen Sie die Wartezeit zwischen Anfragen
- Setzen Sie ein niedrigeres URL-Limit
- Verwenden Sie Unterpfad-Einschränkung, um sich auf bestimmte Bereiche zu konzentrieren
Sitemap lässt sich nicht laden
Wenn der Sitemap-Import fehlschlägt:- Überprüfen Sie, ob die Sitemap-URL in Ihrem Browser erreichbar ist
- Prüfen Sie, ob die Sitemap gültiges XML ist
- Stellen Sie sicher, dass Ihr Server keine automatisierten Anfragen blockiert
- Versuchen Sie die direkte Sitemap-URL (nicht die robots.txt-Referenz)
Fehlende Seiten
Wenn erwartete Seiten nicht entdeckt werden:- Prüfen Sie, ob die Seiten von Ihrer Start-URL verlinkt sind
- Erhöhen Sie die Einstellung Maximale Tiefe
- Überprüfen Sie, ob Seiten nicht durch robots.txt blockiert werden
- Versuchen Sie die Manuelle Eingabe für bestimmte Seiten