Wie kann ich einen Stringsatz in NLTK kommentieren?

Ich benutze nltk, also möchte ich meine eigenen benutzerdefinierten Texte wie die Standard-auf nltk.books erstellen. Allerdings bin ich gerade auf die Methode gestoßen

my_text = ['This', 'is', 'my', 'text'] 

Ich würde gerne irgendeinen Weg entdecken, meinen "Text" als:

 my_text = "This is my text, this is a nice way to input text." 

Welche Methode, python's oder von nltk erlaubt mir das zu tun. Und wichtiger, wie kann ich Interpunktionszeichen unterschätzen?

  • Wie bekomme ich die Interpunktion mit NLTK Tokenizer los?
  • Tokenisierung von arabischen Wörtern mit NLTK
  • 2 Solutions collect form web for “Wie kann ich einen Stringsatz in NLTK kommentieren?”

    Dies ist eigentlich auf der Hauptseite von nltk.org :

     >>> import nltk >>> sentence = """At eight o'clock on Thursday morning ... Arthur didn't feel very good.""" >>> tokens = nltk.word_tokenize(sentence) >>> tokens ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.'] 

    Als @PavelAnossov beantwortet, die kanonische Antwort, verwenden Sie die word_tokenize Funktion in nltk:

     from nltk import word_tokenize sent = "This is my text, this is a nice way to input text." word_tokenize(sent) 

    Wenn dein Satz wirklich einfach genug ist:

    Verwenden Sie den string.punctuation Satz, entfernen Sie die Interpunktion und teilen Sie sie mit dem Whitespace-Trennzeichen auf:

     import string x = "This is my text, this is a nice way to input text." y = "".join([i for i in x if not in string.punctuation]).split(" ") print y 
    Python ist die beste Programmiersprache der Welt.