#!/usr/bin/env python # coding: utf-8 # In[1]: import spacy # In[2]: spacy.en.STOP_WORDS # In[3]: spacy.ja.STOP_WORDS # In[4]: def print_token(token): print("==========================") print("value:",token.orth_) print("lemma:",token.lemma_) # lemma is the root of a word print("shape:",token.shape_) # shape is capitalization and punctuation def print_sents(sents): for sent in sents: print("Sentence:") print(sent) print() def parse(text): tokens = parser(text) print_sents(tokens.sents) tokens_orth = [token.orth_ for token in tokens] print(tokens_orth) for token in tokens: print_token(token) # 英語モデルをダウンロード。 # # ``` # $ python -m spacy download en # # Downloading en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz # # Collecting https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz # Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz (52.2MB) # 100% |████████████████████████████████| 52.2MB 411kB/s # ``` # In[5]: parser = spacy.en.English() parse("I'm Mr. Cong. Dr. Duc is coming. Ph.D. Viet is the man overthere.") # 日本語モデルはあるのかな # # ``` # $ python -m spacy download ja # # Compatibility error # # No compatible model found for 'ja' (spaCy v1.8.2). # ``` # # まだないですね。 # In[6]: parser = spacy.ja.Japanese() parse("こんいちは。私はコンといいます。ベト博士はあちらにいます。") # つまり、日本語モデルがないため、spaCyではドキュメントを文ごとに切ることができないのね。 # 言語モデルを追加する方法: # https://spacy.io/docs/usage/adding-languages # In[ ]: