#!/usr/bin/env python # coding: utf-8 # # Token 을 벡터로 임베딩 # - [pypi kss](https://github.com/hyunwoongko/kss) # - [FastText 단어 유사도 구현하기](https://sunghee2.tistory.com/entry/FastText-%EB%8B%A8%EC%96%B4-%EC%9C%A0%EC%82%AC%EB%8F%84-%EA%B5%AC%ED%98%84%ED%95%98%EA%B8%B0) # - [FastText model을 이용한 감정 분석 모델(pytorch)](https://happy-jihye.github.io/nlp/nlp-3/) # - [Bag of Word with Bag 한글해설](https://m.blog.naver.com/antler07/221476398640) # - [Word2vec from Scratch with NumPy](https://nathanrooy.github.io/posts/2018-03-22/word2vec-from-scratch-with-python-and-numpy/) # - [AwesomeKorean Data](https://github.com/songys/AwesomeKorean_Data) # ```bash # ! pip install python-mecab-ko -U # ``` # In[3]: get_ipython().run_line_magic('reset', '-f') # In[7]: import kss import mecab text = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습." kss.split_morphemes(text, backend="mecab", num_workers=8) # kss.split_sentences(text, backend="mecab", num_workers=8, ignores=[]) # In[5]: from mecab import MeCab mecab = MeCab() mecab.pos('자연주의 쇼핑몰은 어떤 곳인가?') # In[28]: mecab.parse('즐거운 하루 보내세요!') # In[15]: from gensim.models import FastText FastText.load_fasttext_format( # In[1]: get_ipython().system('curl -c ./cookie -s -L "https://drive.google.com/uc?export=download&id=1CQT4Sear6NKxGiZIW3WpAGkTanO0azrl" > /dev/null') get_ipython().system('curl -Lb ./cookie \\"https://drive.google.com/uc?export=download&confirm=`awk \'/download/ {print $NF}\' ./cookie`&id=1CQT4Sear6NKxGiZIW3WpAGkTanO0azrl\\" -o wiki_20190620_small.txt') # In[2]: get_ipython().system('curl -c ./cookie -s -L \\"https://drive.google.com/uc?export=download&id=1CQT4Sear6NKxGiZIW3WpAGkTanO0azrl\\" > /dev/null') # In[12]: from mecab import MeCab mecab = MeCab() mecab.morphs('영등포구청역에 있는 맛집 좀 알려주세요.') # In[ ]: