Twitter-Daten mit Python extrahieren

Akshay Nagpal2018-04-28 · 12 min read

Twitter ist nicht nur eine erweiterte Nachrichtenquelle, es ist bei Weitem eine der besten Stichproben der Gedanken der Welt. Mit mehr als 330 Millionen aktiven Nutzern ist es eine der Top-Plattformen, auf denen Menschen gerne ihre Gedanken teilen. Twitter-Daten können für eine Vielzahl von Zwecken verwendet werden, wie zum Beispiel Forschung, Verbrauchererkenntnisse, demografische Erkenntnisse, und viele mehr.

Daher ist das Hauptziel dieses Tutorials, Ihnen zu zeigen, wie Sie eine für Ihr Projekt oder Ihr Unternehmen relevante Stichprobe von Twitter-Daten erhalten.

Stellen Sie vor dem Fortfahren sicher, dass Sie alle diese Variablen griffbereit haben:

Consumer Key
Consumer Secret
Access Token
Access Token Secret

Wenn Sie wissen möchten, wie Sie die oben genannten Details erhalten, lesen Sie den Blogbeitrag, der von meinem Kollegen Dattatray Upase geschrieben wurde.

Jetzt geht’s ans Codieren!

Definieren der Eingabevariablen

Zuerst müssen Sie einige der globalen Variablen definieren, die Sie für das Programm benötigen:

import sys

start_date = sys.argv[1] #"2018-01-09" 
end_date = sys.argv[2] #"2018-01-10" 

consumerKey="Geben_Sie_hier_Ihren_Consumer_Key_ein"
consumerSecret="Geben_Sie_hier_Ihren_Consumer_Secret_ein"
accessToken="Geben_Sie_hier_Ihren_Access_Token_ein"
accessTokenSecret="Geben_Sie_hier_Ihren_Access_Token_Secret_ein"

keyword= sys.argv[3] #"tcs"
lang="en" #siehe, was Twitter für die Sprachfilterung anbietet

data={}

import sys

start_date = sys.argv[1] #"2018-01-09"

end_date = sys.argv[2] #"2018-01-10"

consumerKey="Geben_Sie_hier_Ihren_Consumer_Key_ein"

consumerSecret="Geben_Sie_hier_Ihren_Consumer_Secret_ein"

accessToken="Geben_Sie_hier_Ihren_Access_Token_ein"

accessTokenSecret="Geben_Sie_Hier_Ihr_Access_Token_Secret_Ein"

Keyword= sys.argv[3] #"tcs"

lang="en" #Sehen Sie, was Twitter für die Sprachfilterung anbietet

data={}

Ich importiere ‘sys’, um Befehlszeilenargumente abzurufen, da ich möglicherweise Keywords, das Start- oder Enddatum ändern möchte. Für die Sprache habe ich Englisch gewählt, aber Sie möchten vielleicht prüfen, welche anderen Sprachen unterstützt werden. Die Ergebnisse werden am Ende in ‘data’ gespeichert.

Infolgedessen würde eine typische Verwendung des Skripts wie folgt aussehen:

python script.py start_date end_date keyword

Zugriff auf die Twitter-API

import oauth2

req_count = 0

def oauth_req(url, http_method="GET", post_body=b"", http_headers=None):
    global req_count,consumerKey,consumerSecret,accessToken,accessTokenSecret
    req_count += 1
    
    consumer = oauth2.Consumer(key=consumerKey, secret=consumerSecret)
    token = oauth2.Token(key=accessToken, secret=accessTokenSecret)
    client = oauth2.Client(consumer, token)
    resp, content = client.request( url, method=http_method, body=post_body , headers=http_headers )
    return content

import oauth2

req_count = 0

def oauth_req(url, http_method="GET", post_body=b"", http_headers=None):

global req_count,consumerKey,consumerSecret,accessToken,accessTokenSecret

req_count += 1

consumer = oauth2.Consumer(key=consumerKey, secret=consumerSecret)

token = oauth2.Token(key=accessToken, secret=accessTokenSecret)

client = oauth2.Client(consumer, token)

resp, content = client.request( url, method=http_method, body=post_body , headers=http_headers )

return content

Twitter ermöglicht die Nutzung seiner API über ein oauth2-Autorisierungs-Framework. Sie stellen auf ihrer Website die Dokumentation bereit, mit der das Filtern von Tweets durchgeführt werden kann. Der obige Codeausschnitt würde dies für Sie implementieren.

Die req_count-Variable ist die Anzahl der Male, die ich die API bei der Ausführung meines Programms verwendet habe. Ich erhalte den folgenden Fehler mit dem angegebenen Code:

TypeError: Unicode-objects must be encoded before hashing

Um dies zu vermeiden, ändere ich post_body=”” in post_body=b”” und das behebt das Problem.

Twitter-API-Nutzung und -Referenz

Es ist an der Zeit, die API-URL festzulegen, um die Twitter-Daten abzurufen. Ich verwende den Parameter min_faves. Hier ist die Erklärung der URL und einige Optimierungstricks:

‘min_faves’ wird verwendet, um die Mindestanzahl an Favoriten festzulegen, die ein Tweet in den Daten haben sollte. Es ist eine sehr nützliche Funktion, aber sie wird in der Twitter-API-Dokumentation nicht erwähnt.

‘q’ repräsentiert die Suchanfrage oder die Keywords, die Sie eingeben möchten. Hier ist es wichtig, sicherzustellen, dass Sie so wenige Keywords wie möglich angeben. Stellen wir uns beispielsweise vor, ich möchte Tweets über Facebook und Google. Wenn ich beide als Keywords angebe, sagen wir FACEBOOK und GOOGLE, wird es mir maximal nur 100 Tweets zurückgeben, da dies eine Einschränkung ist. Wenn ich die Abfrage jedoch zweimal ausführe – einmal mit Facebook und einmal mit Google, kann ich insgesamt 200 Tweets erhalten. Kurz gesagt: Es ist besser, ein Keyword pro Abfrage zu verwenden.

‘lang’ repräsentiert die Sprache der gefilterten Tweets. Da ich Tweets auf Englisch erhalten möchte, setze ich es auf ‘en’.

‘since’ ist das Startdatum des Zeitraums, aus dem Sie nach Tweets suchen möchten. Dieses Startdatum sollte aus den letzten 7 Tagen stammen. Dies ist eine weitere Funktion, die in der Twitter-API-Dokumentation nicht dokumentiert ist.

‘until’ repräsentiert das Enddatum Ihres gewünschten Zeitraums. Logischerweise sollte es auch aus den letzten 7 Tagen stammen. Es ist auch nicht in der Twitter-API-Dokumentation dokumentiert.

‘result_type’ repräsentiert die Art von Tweets, die Sie möchten. Es hat 3 Werte:

‘recent’ liefert die neuesten Tweets, d. h. die Tweets am Ende des ausgewählten Zeitraums.

‘popular’ liefert die beliebtesten Tweets und lässt daher viele Tweets aus. Sie würden immer die Tweets mit den meisten Favoriten und Retweets erhalten. Das min_faves -Feature wäre hier nutzlos.

‘mixed’ liefert eine Mischung aus aktuellen und beliebten Tweets.

‘count’ stellt die maximale Anzahl von Tweets im Ergebnis dar. Der Standardwert ist auf 15 eingestellt und das Maximum ist 100.

Mit dem gemischten result_type und der Verwendung von min_faves, können wir die maximale Anzahl an Tweets abrufen, indem wir die Abfrage mehrmals ausführen.

def get_tweets(min_faves):
    global keyword, start_date, end_date, lang
    return oauth_req( 'https://api.twitter.com/1.1/search/tweets.json?' + '&amp;amp;q=' + keyword + '&amp;amp;lang=' + lang + '%20since%3A' + start_date + '%20until%3A' + end_date + '%20min_faves%3A' + str(min_faves) +'&amp;amp;result_type=mixed&amp;amp;count=100')

def get_tweets(min_faves):

global keyword, start_date, end_date, lang

return oauth_req( 'https://api.twitter.com/1.1/search/tweets.json?' + '&amp;q=' + keyword + '&amp;lang=' + lang + '%20since%3A' + start_date + '%20until%3A' + end_date + '%20min_faves%3A' + str(min_faves) +'&amp;result_type=mixed&amp;count=100')

Für weitere dokumentierte Funktionen können Sie sich auch die Twitter’s API-Dokumentation.

Speichern/Automatisches Speichern der abgerufenen Tweet-Daten

Als nächsten Schritt müssen Sie eine Methode zum automatischen Speichern/Speichern definieren, die den Parameter ‘saveOverride’ hat. Dieser Schritt ist einfach erforderlich, um die Zeitbeschränkung für das automatische Speichern aufzuheben und die Datei zu speichern. Um dies zu tun, erstelle ich ein t_last um die Startzeit des Programms zu speichern. Dann greife ich im Programm darauf zu und prüfe, ob seit dem t_last (letzte Speicherzeit). Wenn mehr als 5 Minuten vergangen sind, markiere ich den „saveStatus“ als True.

Als Nächstes prüfe ich auf „saveOverride“, was einfach bedeutet, dass ich meinem Programm die Anweisung geben muss, dass die Datei auf jeden Fall jetzt gespeichert werden soll. Hierfür setze ich den saveStatus auf True.

Wenn dann „saveStatus“ True ist, ändert das Skript die t_last auf die aktuelle Zeit. Danach erstellt der Code ein Dictionary-Objekt und gibt “Autosave um [time]” aus, damit Sie wissen, dass die Daten automatisch gespeichert werden.

Als Nächstes prüfe ich, ob die Ausgabedatei bereits existiert. Wenn dies der Fall ist, kombiniere ich die Daten und die Daten aus einer bereits gespeicherten Datei. Nach dem Kombinieren schreibe ich sie in dieselbe Datei. Wenn sie nicht existiert, erstelle ich eine neue Datei und schreibe die Daten dann in diese Datei.

import os
import json
import time
import datetime

t_last = time.time()

def autosave(saveOverride = False):
    global t_last
    saveStatus = (time.time() &amp;amp;gt; t_last + 300)
    if(saveOverride == True):en"
        saveStatus = True
        
    if(saveStatus):
        t_last=time.time()
        tmp = {}
        print("Autosave um " + str(datetime.datetime.now().strftime("%Y-%m-%d_%H:%M:%S")))
        fnamea = keyword + "-st-" + start_date + "-ed-"+ end_date + '.json'
        if os.path.exists(fnamea) == True:
            with open(fnamea,'r+') as f:
                tmp = json.load(f)
        for i in data.keys():
            tmp[i] = data[i]
        with open(fnamea,'w+') as f:
            json.dump(tmp,f)

import os

import json

import time

import datetime

t_last = time.time()

def autosave(saveOverride = False):

global t_last

saveStatus = (time.time() &amp;gt; t_last + 300)

if(saveOverride == True):de"

saveStatus = True

if(saveStatus):

t_last=time.time()

tmp = {}

print("Automatische Speicherung um " + str(datetime.datetime.now().strftime("%Y-%m-%d_%H:%M:%S")))

fnamea = keyword + "-st-" + start_date + "-ed-"+ end_date + '.json'

if os.path.exists(fnamea) == True:

with open(fnamea,'r+') as f:

tmp = json.load(f)

for i in data.keys():

tmp[i] = data[i]

with open(fnamea,'w+') as f:

json.dump(tmp,f)

Als Ergebnis habe ich fast die gesamte Funktionalität programmiert, die ich wollte.

Weitere Optimierung

Schließlich ist es an der Zeit, diese Funktionen zu nutzen. Ich schreibe eine while(1)-Schleife, was while(True) bedeutet. Dies führt im Wesentlichen dazu, dass die Anweisung ewig läuft, bis eine ‘break’-Anweisung aufgerufen oder eine Ausnahme ausgelöst wird.

Zuerst sammle ich die Tweet-Daten im Dictionary ‘d’ mit json.loads das die Daten in ein Dictionary-Format umwandelt. Dann führe ich ein try-catch/except auf dem Codeblock, der Statusmeldungen aus den Daten extrahiert. Ich verwende try-catch, weil die Twitter-API manchmal keine Daten zurückgibt, sondern ein JSON, das den Fehler meldet. Ich möchte nicht, dass mein Programm in solchen Fällen stoppt. Außerdem möchte ich, dass es abruft, bei welcher Anforderungsnummer das passiert, und meine Twitter-Daten mit dem autosave-Befehl speichert. Twitter erlaubt es uns, 180 Anfragen pro 15 Minuten zu stellen. Das sind etwa 12 Anfragen pro Minute oder eine Anfrage alle fünf Sekunden. Um auf Nummer sicher zu gehen, füge ich einen sleep-Befehl hinzu, damit mein Programm nach der Ausführung einer Iteration 5 Sekunden lang pausiert.

Danach zeigt der Code die Anzahl der Tweets an, die das Skript bisher gesammelt hat.

Schließlich ist es Zeit für den großen Optimierungstrick. Ich habe dieses Skript fast eine Woche lang getestet und die folgende Anzahl von Tweets für jeden min_faves-Wert erhalten. Ich kann maximal 100 Tweets pro Anfrage abrufen und möchte so viele wie möglich erhalten. Derzeit gibt es nicht viele Tweets mit höheren Werten von min_faves, aber wir wollen die Zeiten berücksichtigen, in denen das Unternehmen oder das Keyword vielleicht im Trend liegt. Der Maximalwert von min_faves kann 999999 sein.

min_faves-Wert	Anzahl der Tweets
100,000	1
90,000	1
80,000	1
70,000	2
60,000	3
50,000	6
40,000	6
30,000	12
25,000	12

Daher verwende ich eine Logik, die Tweets von einem min_faves-Wert von 60000 abruft und diesen dann jedes Mal um 10000 verringert, bis er 10000 erreicht. Aber wenn wir beispielsweise annehmen, dass das Keyword im Trend liegt und ich 100 Tweets erhalte, wenn ich mit dem Wert von min_faves auf 30000 arbeite, wird es den min_faves auf 35000 erhöhen und dann die Ergebnisse erneut abrufen. Die neue Logik ist nun also 5000 statt 10000. Wenn sich die Änderung jedoch auf weniger als 1000 verringert, weise ich sie an, dies zu ignorieren und mit dem Abziehen von 1000 fortzufahren.

Ich lege ein festes Intervall von 1000 fest, um das min_faves verringert werden soll, wenn min_faves ist kleiner oder gleich 10000.

Am Ende des Programms teilt Ihnen das Programm mit, dass die Arbeit erledigt ist, indem es ‘End’ anzeigt.

min_faves=60000
change=10000 #starke Reduzierung von min_faves zur Datenextraktion
interval = 500 #normale Reduzierung von min_faves zur Datenextraktion
          
while(1): 
    d = json.loads(get_tweets(min_faves))
    try:
        for i in d['statuses']:
            data[i['id']] = i
        c = len(d['statuses'])
    except Exception as e:
        print("Fehler bei Anfrage: " + str(req_count))
        autosave(True)
      
        
    
    print("Bei Anfrage: " + str(req_count) + "  Gesamte gesammelte Tweets: " + str(len(data)) + " mit Min Faves: " + str(min_faves) )
    if c==100 and min_faves&amp;gt;10000:
        if (change&amp;gt;1000):
            change /= 2
            min_faves += change
        else:
            min_faves -= change
        
    elif min_faves&amp;gt;10000:
        min_faves -= change
    
    else:
        min_faves -= interval
        if(min_faves &amp;lt; 0):
            fnamea = keyword + '.json'
            autosave(True)
            break
    autosave()
    time.sleep(5)
    
print("Ende")

min_faves=60000

change=10000 #starke Reduzierung von min_faves, um Daten zu extrahieren

interval = 500 #normale Reduzierung von min_faves, um Daten zu extrahieren

while(1):

d = json.loads(get_tweets(min_faves))

try:

for i in d['statuses']:

data[i['id']] = i

c = len(d['statuses'])

except Exception as e:

print("Fehler bei Anfrage : " + str(req_count))

autosave(True)

print("Auf Anfrage: " + str(req_count) + " Gesammelte Tweets insgesamt: " + str(len(data)) + " mit minimalen Faves: " + str(min_faves) )

if c==100 and min_faves&gt;10000:

if (change&gt;1000):

change /= 2

min_faves += change

else:

min_faves -= change

elif min_faves&gt;10000:

min_faves -= change

else:

min_faves -= interval

if(min_faves &lt; 0):

fnamea = keyword + '.json'

autosave(True)

break

autosave()

time.sleep(5)

print("Ende")

Den gesamten Code findest du auf GitHub.

Das war’s. Im nächsten Twitter-Daten-Tutorial werde ich dir zeigen, wie du Echtzeit-Tweets mit dem Big-Data-Tool ‘Flume’ abrufst. Bleib dran!

Akshay Nagpal

Autor · CloudSigma

Preslav Dobrev ist ein kreativer Designer bei CloudSigma und konzentriert sich auf eine konsistente Unternehmensidentität durch traditionelle und innovative Marketingkanäle. Er versteht es meisterhaft, künstlerische Vision mit strategischem Marketing zu verbinden, um wirkungsvolle Markengeschichten zu schaffen.