Wie man die historischen Tweets aus der Twitter-API extrahiert?

Wir brauchen die historischen Tweets für einige Filme. Im Moment haben wir die Streaming-API und Such-API von twitter versucht. Die Streaming-API konnte uns nicht einen Parameter geben, um den Zeitbereich zu wählen, den wir brauchen und die Such-API konnte uns nur ein oder zwei Wochen im Voraus geben. Gibt es eine Möglichkeit für uns, die historischen Tweets von 2014-05-01 bis 2014-07-01 zu extrahieren (zum Beispiel)? Ich habe folgende Möglichkeiten gefunden:

1: Twitter erweiterte Suche https://twitter.com/search-advanced?lang=en Es konnte das Suchergebnis finden, das ich brauche. Aber wie könnte ich das Suchergebnis herunterladen? Gibt es sowieso einen Code zu schreiben und das Suchergebnis zu speichern?

2: Mit der twitter analytischen Website wie topsy. Aber es hat auch die Schwierigkeit, das Ergebnis zu retten.

3: Es scheint, dass einige Pakete wie twitter4J dazu beitragen können: http://twitter4j.org/en/code-examples.html Gibt es irgendwelche Python– oder R-Pakete könnte uns helfen, das zu tun?

4: Wir brauchen diese Daten, um eine Recherche durchzuführen. Es ist keine gute Wahl, lange Zeit für die Extraktion der Daten zu verbringen. Gibt es sowieso diese Daten von einer professionellen Website zu kaufen?

  • Holt Text aus Web mit Angular JS-Tags wie ng-view
  • So erhalten Sie Währungsraten von dieser Website Converter Widget Python
  • Probleme beim Zugriff auf das xpath-Attribut mit scrapy
  • Scrolling Web-Seite mit Selen-Python-Webdriver
  • Das Schaben der zweiten Seite einer Website in Python funktioniert nicht
  • Kann Scrapy durch pyspider ersetzt werden?
  • Wie kann ich den richtigen XPath bestimmen?
  • Django sagt, mein Modell ist nicht definiert
  • 2 Solutions collect form web for “Wie man die historischen Tweets aus der Twitter-API extrahiert?”

    Sie können die folgende Bibliothek https://github.com/Jefferson-Henrique/GetOldTweets-python verwenden , um alte Tweets in Twitter zu bekommen.

    Machen Sie GetOldTweets-python als das aktuelle Verzeichnis in Python mit

    cd GetOldTweets-python 

    Dann mach folgendes

    In Python,

     import got tweetCriteria = got.manager.TweetCriteria().setQuerySearch('search_term').setSince("2014-05-01").setUntil("2014-07-01").setMaxTweets(10000) tweet = got.manager.TweetManager.getTweets(tweetCriteria)[0] print tweet.text 

    Im Terminal,

     python Exporter.py --querysearch 'search_term' --since 2014-05-01 --until 2014-07-01 --maxtweets 10000 

    Ersetzen Sie 'search_term' durch den Suchbegriff.

    Sie können Gnips historisches Powertrack-Produkt verwenden, um dies zu tun, aber das ist ein kommerzielles Produkt, das auf Unternehmen und nicht auf Forscher ausgerichtet ist.

    Das Scraping der Twitter-Website ist gegen die Nutzungsbedingungen und Entwickler-Richtlinien.

    Die öffentliche Such-API unterstützt nur 7-9 Tage Daten, so dass auch mit twitteR oder tweepy (R- und Python-Optionen) nicht ermöglicht es Ihnen, Daten aus dem Zeitraum abzurufen, auf den Sie zugreifen möchten.

    Python ist die beste Programmiersprache der Welt.