Schaben von Mitarbeiterdaten von Webseiten

Ich arbeite daran, Mitarbeiterdaten aus verschiedenen Webseiten zu extrahieren. Ich werde nicht wissen, die Liste der Websites, die ich extrahieren Informationen aus dem Vorfeld.

Beispielsweise:

Von dieser Seite würde ich versuchen, die auf dieser Seite aufgeführten Informationen zu extrahieren.

Und von dieser Seite müsste ich die Info von dieser Seite extrahieren.

Da jede Website verschiedene Wörter / Methoden verwendet, um diese Informationen anzuzeigen, würde jemand Rat haben, was ein guter Ansatz für dieses Problem für eine zufällige Liste von Websites sein könnte?

Danke für Ihre Hilfe.

  • Erhalten div-Attribut val und div Text Körper
  • Python - Download Bilder von google Bildsuche?
  • Kann xpath nicht mit scrapy abrufen
  • CSS select mit beautifulsoup4 funktioniert nicht
  • Python3.6 BeautifulSoup funktioniert nicht
  • Kann nicht crawlen und auf ein bestimmtes div in der Textdatei zugreifen
  • Pass Selenium HTML String zu Scrapy, um URLs zu Scrapy Liste der URLs zu kratzen hinzuzufügen
  • Scrapy Ergebnisse wiederholen sich
  • One Solution collect form web for “Schaben von Mitarbeiterdaten von Webseiten”

    Die erste Seite ist statisch, also kannst du einfach den HTML- lxml mit lxml oder einer anderen XML-Parsing-Bibliothek analysieren, aber der Inhalt der zweiten Website wird von einer API dynamisch mit JavaScript geladen. In diesem Fall könntest du den Inhalt direkt aus dem API-Endpunkt ( Es ist öffentlich: https://sqs-hub.s3.amazonaws.com/employee_photos/index.json ) oder wenn du eine generischere Lösung wünschst, dann könntest du ein Werkzeug wie Selen-Webdriver benutzen, um einen echten Benutzer nachzuahmen, die Seite zu scrollen Um den dynamischen Inhalt zu laden und dann die HTML-Quelle der Seite zu bekommen, um es ähnlich wie im ersten Fall zu analysieren.

    Python ist die beste Programmiersprache der Welt.