Tag: pandas

Multiindexed Pandas groupby, ignoriere ein Level?

Ich groupby eine groupby Operation auf einem multiindexed DataFrame ähnlich diesem: 0 1 … categories features subfeatures cat1 feature1 subfeature1 -0.224487 -0.227524 subfeature2 -0.591399 -0.799228 feature2 subfeature1 1.190110 -1.365895 … subfeature2 0.720956 -1.325562 cat2 feature1 subfeature1 1.856932 NaN subfeature2 -1.354258 -0.740473 feature2 subfeature1 0.234075 -1.362235 … subfeature2 0.013875 1.309564 cat3 feature1 subfeature1 NaN NaN subfeature2 […]

Berechnen von Zauberlängen von Daten auf der Grundlage der Gleichheit in Pandas

Ich möchte die Zauberlängen auf der Grundlage der Gleichheit der angrenzenden Spalte in einem Pandas-Dataframe berechnen. Was ist der beste Weg, dies zu tun? Ein Beispiel: import pandas as pd d1 = pd.DataFrame([['4', '4', '4', '5'], ['23', '23', '24', '24'], ['112', '112', '112', '112']], index=['c1', 'c2', 'c3'], columns=[1962, 1963, 1964, 1965]) Produziert ein Dataframe, das […]

Kombinieren Sie aufeinanderfolgende Zeilen mit den gleichen Spaltenwerten

Ich habe etwas, das so aussieht. Wie gehe ich davon? 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 , , 4 based VBN 5 in IN 6 Silicon LOCATION 7 Valley LOCATION Dazu: 0 d 0 The DT 1 Skoll Foundation ORGANIZATION 3 , , 4 based VBN 5 in IN […]

Pandas DataFrame Matrix basierte Berechnung

Ich habe einen Pandas DataFrame wie folgt. Es zeigt an, wie Benutzer in jeder Sitzung auf die Seiten p1 bis p4 zugegriffen haben. df = pd.DataFrame([[1,1,1,0,1],[2,1,1,0,1],[3,1,1,1,1],[4,0,1,0,1]]) df.columns = ['session','p1','p2','p3','p4'] Im Folgenden ist die Matrix, die den Schnittpunkt von Seiten zeigt, auf die gemeinsam zugegriffen wird. In [20]: df.dot(df.T) Out[20]: session 1 2 3 4 session […]

Pandas dataframe string formatierung (Zugriff auf eine gegebene Spalte)

Ich versuche, neue Formatierung zu verwenden, um den Eintrag an einer bestimmten / angegebenen Spalte anzuzeigen: np.random.seed(1234) df = pd.DataFrame(np.random.randint(7, size=(2, 2)), columns=['a', 'b']) c = df.iloc[0, :] # get row number 0 print("Here is {one[0]} and {two}".format(one=c, two=c['b'])) # Ok Aber ich möchte es wie folgt machen: print("Here is {one['a']} and {two}".format(one=c, two=c['b'])) ## […]

Python-Pandas standardisieren die Säule für die Regression

Ich habe folgendes df: Date Event_Counts Category_A Category_B 20170401 982457 0 1 20170402 982754 1 0 20170402 875786 0 1 Ich bereite die Daten für eine Regressionsanalyse vor und möchte die Spalte Event_Counts standardisieren, so dass es in einer ähnlichen Skala wie die Kategorien ist. Ich benutze den folgenden Code: from sklearn import preprocessing df['scaled_event_counts'] […]

Wie importiere ich unbeschriftete und fehlende Spalten in ein Pandas-Dataframe?

Ich habe einen tabulatorgetrennten Satz von Daten mit einigen Spalten nicht in der richtigen Reihenfolge und fehlt. Einige Zeilen haben 12 Spalten, andere haben 13 oder 14 oder 15 Spalten. Wenn ich mir die Daten anschaue, finde ich die folgenden Arten von Zeilen …. Col_10: 25 Col_11: 23432 Col12: 639142 …. Col_10: 25 Col_12: 25134 […]

Hinzufügen von 2 Datenrahmen in Python-Pandas

Ich möchte 2 separaten Datenrahmen der folgenden Form in Python Pandas kombinieren: Df1= AB 1 1 2 2 3 4 3 5 6 Df2 = CD 1 ab 2 cd 3 ef Ich möchte folgendes haben: df = ABCD 1 1 2 ab 2 3 4 cd 3 5 6 ef Ich benutze den folgenden […]

Holen Sie sich nicht-Null-Elemente in einem Pandas DataFrame

Ich habe ein DataFrame und ich möchte einige Nicht-Null-Elemente als Liste erhalten. Speziell bei df : df = pd.DataFrame({"a":["A",None,"B"],"b":[None,"C","D"],"c":["E","F",None]}) abc 0 A None E 1 None CF 2 BD None Und die interessanten Spaltenliste ["a","c"] , möchte ich die Liste von Nicht-Nicht-Element der angegebenen Spalten extrahieren, dh, ["A","B","E","F"] Ich glaube, ich kann tun [value for […]

Holen Sie sich Listen von Unique String-Werten pro Spalte in einem Dataframe mit Python

Hier gehe ich mit einer anderen frage Ich habe ein großes Dataframe ca. 20 Spalten von 400.000 Zeilen. In diesem Datensatz kann ich keinen String haben, da die Software, die die Daten verarbeiten wird, nur numerische und nulls akzeptiert. Also so, wie ich denke, es würde funktionieren. 1. Gehen Sie durch jede Spalte 2. Holen […]

Python ist die beste Programmiersprache der Welt.