# ! pip3 install nltk
# import nltk
# nltk.download('punkt')
text = """오늘 금요일, 오후.
오늘 조금만 버티면 주말입니다. 조금만 힘내세요"""
from nltk import sent_tokenize
sent_tokenize(text)
from nltk import word_tokenize
text = word_tokenize(text)
text
from nltk import FreqDist
dict(FreqDist(text))
text = """Park 010-1234-1234 Kim 010-8888-9999
Lee 010-2123-1299 홍길동 010-222-9999 신사임당 010-555-2345"""
from nltk.tokenize import RegexpTokenizer
re_capt = RegexpTokenizer(r'\d+')
re_capt.tokenize(text)
from nltk.tokenize import RegexpTokenizer
re_capt = RegexpTokenizer(r'[A-z]\w+')
re_capt.tokenize(text)
from nltk.tokenize import RegexpTokenizer
re_capt = RegexpTokenizer(r'[가-힣]\w+')
re_capt.tokenize(text)
# 한글/영문 이름만 추출하기
# Quiz1 : 한글과 영어를 함께 추출한다
# QUiz2 : 전화번호만 추출한다
# 한글/영문이름 추출하기
from nltk.tokenize import RegexpTokenizer
re_capt = RegexpTokenizer(r'[ =Quiz!= ]\w+')
re_capt.tokenize(text)
# cf) 전화번호만 추출해보기
re_capt = RegexpTokenizer('\d{ =Quiz!= }-\d{ =Quiz!= }-\d{ =Quiz!= }')
re_capt.tokenize(text)
text = "갤럭시(GalaxyNote9)노트9은 2018년 08월 폭발적인 인기를 이끌고 있습니다"
import re
tokenizer = re.compile(r'[가-힣]+')
tokenizer.findall(text)
# 한글과 공백을 제외한 나머지 선택후 제거
tokenizer = re.compile(r'[^ 가-힣]+')
tokenizer.sub("", text)