#!/usr/bin/env python
# coding: utf-8

# In[1]:


import spacy


# In[2]:


spacy.en.STOP_WORDS


# In[3]:


spacy.ja.STOP_WORDS


# In[4]:


def print_token(token):
    print("==========================")
    print("value:",token.orth_)
    print("lemma:",token.lemma_) # lemma is the root of a word
    print("shape:",token.shape_) # shape is capitalization and punctuation

def print_sents(sents):
    for sent in sents:
        print("Sentence:")
        print(sent)
        print()

def parse(text):
    tokens = parser(text)
    print_sents(tokens.sents)
    tokens_orth = [token.orth_ for token in tokens]
    print(tokens_orth)
    for token in tokens:
        print_token(token)


# 英語モデルをダウンロード。
# 
# ```
# $ python -m spacy download en
# 
#     Downloading en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz
# 
# Collecting https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz
#   Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz (52.2MB)
#     100% |████████████████████████████████| 52.2MB 411kB/s 
# ```

# In[5]:


parser = spacy.en.English()
parse("I'm Mr. Cong. Dr. Duc is coming. Ph.D. Viet is the man overthere.")


# 日本語モデルはあるのかな
# 
# ```
# $ python -m spacy download ja
# 
#     Compatibility error
# 
#     No compatible model found for 'ja' (spaCy v1.8.2).
# ```
# 
# まだないですね。

# In[6]:


parser = spacy.ja.Japanese()
parse("こんいちは。私はコンといいます。ベト博士はあちらにいます。")


# つまり、日本語モデルがないため、spaCyではドキュメントを文ごとに切ることができないのね。
# 言語モデルを追加する方法：
# https://spacy.io/docs/usage/adding-languages

# In[ ]: