#!/usr/bin/env python # coding: utf-8 # # 朴素贝叶斯 # ## 【关键词】 # # - 朴素:独立性假设 # - 贝叶斯公式 # 优点: # - 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率; # - 对小规模的数据表现很好; # - 能处理多分类任务,适合增量式训练; # - 对缺失数据不太敏感,算法也比较简单,常用于文本分类 # # 缺点: # - 只能用于分类问题 # - 需要计算先验概率; # - 分类决策存在错误率; # - 对输入数据的表达形式很敏感 # In[ ]: 另一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球, 在容器 B 里有 1 个红球和 9 个白球, get_ipython().run_line_magic('pinfo', '的概率是多少') 假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10, 按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875 # In[ ]: #选中A容器 P(A) = 1/2 #选中B容器 P(B) = 1/2 #选中红球的概率 P(C) = 8/20 #A容器中选中红球的概率 P(C|A) = 7/10 #B容器中选中红球的概率 P(C|B) = 1/10 #选中了A容器同时是红球概率 P(A)*P(C|A) = 1/2 * 7/10 #选中了B容器同时是红球概率 P(B)*P(C|B) = 1/2 * 1/10 #选中了红球的概率 P(A)*P(C|A) + P(B)*P(C|B) = 8/20 get_ipython().run_line_magic('pinfo', '的概率是多少') P(A)*P(C|A) / (8/20) # In[ ]: # ## 一、朴素贝叶斯原理 # 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: # # ![1.jpg](attachment:1.jpg) # # 这个公式虽然看上去简单,但它却能总结历史,预知未来: # - 公式的右边是总结历史 # - 公式的左边是预知未来 # # 如果把Y看成类别,X看成特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。 # # 举个例子,大学的时候,某男生经常去图书室晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,图书馆又不开空调,如果那个女生没有去自修室,该男生也就不去,每次男生鼓足勇气说:“嘿,你明天还来不?”,“啊,不知道,看情况”。 # # 然后该男生每天就把她去自习室与否以及一些其他情况做一下记录,用Y表示该女生是否去自习室,即Y={去,不去},X是跟去自修室有关联的一系列条件,比如当天上了哪门主课,蹲点统计了一段时间后,该男生打算今天不再蹲点,而是先预测一下她会不会去,现在已经知道了今天上了常微分方法这么主课,于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程),看哪个概率大,如果P(Y=去|常微分方程) >P(Y=不去|常微分方程),那这个男生不管多热都屁颠屁颠去自习室了,否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下,那天主课是常微分的概率P(常微分方程|Y=去),注意公式右边的分母对每个类别(去/不去)都是一样的,所以计算的时候忽略掉分母,这样虽然得到的概率值已经不再是0~1之间,但是通过比较大小还是能选择类别。 # # 后来他发现还有一些其他条件可以挖,比如当天星期几、当天的天气,以及上一次与她在自修室的气氛,统计了一段时间后,该男子一计算,发现不好算了,因为总结历史的公式: # # ![2.jpg](attachment:2.jpg) # # 这里n=3,x(1)表示主课,x(2)表示天气,x(3)表示星期几,x(4)表示气氛,Y仍然是{去,不去},现在主课有8门,天气有晴、雨、阴三种、气氛有A+,A,B+,B,C五种,那么总共需要估计的参数有8×3×7×5×2=1680个,每天只能收集到一条数据,那么等凑齐1680条数据,大学都毕业了,男生大呼不妙,于是做了一个独立性假设,假设这些影响她去自习室的原因是独立互不相关的,于是: # # ![3.jpg](attachment:3.jpg) # # 有了这个独立假设后,需要估计的参数就变为,(8+3+7+5)×2 = 46个了,而且每天收集的一条数据,可以提供4个参数,这样该男生就预测越来越准了。 # # 朴素的概念:独立性假设,假设各个特征之间是独立不相关的。 # ### 朴素贝叶斯分类器 # 讲了上面的小故事,我们来朴素贝叶斯分类器的表示形式: # # ![4.jpg](attachment:4.jpg) # # 当特征为为x时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即 # # ![5.jpg](attachment:5.jpg) # # 朴素贝叶斯的朴素体现在其对各个条件的独立性假设上,加上独立假设后,大大减少了参数假设空间。 # ### 在文本分类上的应用 # 文本分类的应用很多,比如垃圾邮件和垃圾短信的过滤就是一个2分类问题,新闻分类、文本情感分析等都可以看成是文本分类问题,分类问题由两步组成:训练和预测,要建立一个分类模型,至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上:现在有一篇文档d(Document),判断它属于哪个类别ck,只需要计算文档d属于哪一个类别的概率最大: # # ![6.jpg](attachment:6.jpg) # # 在分类问题中,我们并不是把所有的特征都用上,对一篇文档d,我们只用其中的部分特征词项t1,t2,...,tnd(nd表示d中的总词条数目),因为很多词项对分类是没有价值的,比如一些停用词“的,是,在”在每个类别中都会出现,这个词项还会模糊分类的决策面,关于特征词的选取,我的这篇文章有介绍。用特征词项表示文档后,计算文档d的类别转化为: # # ![7.jpg](attachment:7.jpg) # # 注意P(Ck|d)只是正比于后面那部分公式,完整的计算还有一个分母,但我们前面讨论了,对每个类别而已分母都是一样的,于是在我们只需要计算分子就能够进行分类了。实际的计算过程中,多个概率值P(tj|ck)的连乘很容易下溢出为0,因此转化为对数计算,连乘就变成了累加: # # ![8.jpg](attachment:8.jpg) # # 我们只需要从训练数据集中,计算每一个类别的出现概率P(ck)和每一个类别中各个特征词项的概率P(tj|ck),而这些概率值的计算都采用最大似然估计,说到底*就是统计每个词在各个类别中出现的次数和各个类别的文档的数目*: # # ![9.jpg](attachment:9.jpg) # ![10.jpg](attachment:10.jpg) # ## 二、3种贝叶斯模型 # ### 1、高斯分布朴素贝叶斯 # 高斯分布就是正态分布 # # 【用途】用于一般分类问题 # # 使用自带的鸢尾花数据 # In[1]: from sklearn.naive_bayes import GaussianNB # In[4]: import sklearn.datasets as datasets iris = datasets.load_iris() x_data = iris.data y_target = iris.target # In[6]: from sklearn.model_selection import train_test_split X_train,x_test,y_train,y_test = train_test_split(x_data,y_target,test_size = 0.1) # In[7]: #Naive Bayes 朴素贝叶斯 g_NB = GaussianNB() g_NB.fit(X_train,y_train) g_NB.score(x_test,y_test) # ### 2、多项式分布朴素贝叶斯 # 多项式分布: # # ![12.jpg](attachment:12.jpg) # # 【用途】适用于文本数据(特征表示的是次数,例如某个词语的出现次数) # #### 例:延续上面,使用鸢尾花数据 # In[9]: from sklearn.naive_bayes import MultinomialNB m_NB = MultinomialNB() m_NB.fit(X_train,y_train) # In[10]: m_NB.score(x_test,y_test) # ### 3、伯努利分布朴素贝叶斯 # 伯努利分布: # # ![11.png](attachment:11.png) # # 【用途】适用于伯努利分布,也适用于文本数据(此时特征表示的是是否出现,例如某个词语的出现为1,不出现为0) # # 绝大多数情况下表现不如多项式分布,但有的时候伯努利分布表现得要比多项式分布要好,尤其是对于小数量级的文本数据 # #### 例:继续使用鸢尾花数据集 # In[11]: from sklearn.naive_bayes import BernoulliNB b_NB = BernoulliNB() b_NB.fit(X_train,y_train) # In[12]: b_NB.score(x_test,y_test) # In[ ]: # ## 三、文本分类实战 # 对短信进行二分类,数据为SMSSpamCollection # 导包 # 导入sklearn.feature_extraction.text.TfidfVectorizer用于转换字符串 # 读取短信数据 # In[17]: from sklearn.feature_extraction.text import TfidfVectorizer # In[14]: import pandas as pd sms = pd.read_table('../data/SMSSpamCollection',header=None) display(sms.shape,sms.head()) # In[15]: x_train = sms[1] y_train = sms[0] # In[16]: g_NB = GaussianNB() # could not convert string to float: 'Rofl. Its true to its name' g_NB.fit(x_train,y_train) # #### tf.fit_transform() # # - 参数必须是字符串的一维数组(比如列表或者Series) # - 返回的是一个稀疏矩阵类型的对象,行数为样本数,列数为所有出现的单词统计个数。 # # 这里输入data[1]是Series类型,返回的是一个5572x8713 sparse matrix # 其中5572是data[1] # In[ ]: #Knn 声明对象,对象调用方法 # In[23]: #TfidfVectorizer 类----> 实例化 tf = TfidfVectorizer() #对文本数据进行训练 tf.fit(x_train) #对文本数据进行转换---->稀疏矩阵对象 # 5572x8713 # 5572 条短信 # 8713 个不同单词 8713列 # columns : Go until jurong point , crazy Ok lar... Joking wif u oni... # 0 1 1 1 1 1 1 0 0 0 0 0 # 1 0 0 0 0 0 0 1 1 1 1 1 X_train = tf.transform(x_train) # In[27]: y_train # 训练数据 # In[49]: g_NB = GaussianNB() # A sparse matrix was passed, but dense data is required. # Use X.toarray() to convert to a dense numpy array. # 【用途】用于一般分类问题 g_NB.fit(X_train.toarray(),y_train) # In[38]: X_train.toarray() # In[33]: #对短信数据进行预测 message = 'click here>> http://wap. xxxmobilemovieclub.com?n=QJKGIGHJJGCBL' #进行转化 x_test = tf.transform([message]) x_test # In[34]: g_NB.predict(x_test.toarray()) # In[35]: m_NB = MultinomialNB() #【用途】适用于文本数据(特征表示的是次数,例如某个词语的出现次数) m_NB.fit(X_train,y_train) # In[44]: message = "Please call our customer service representative on 0800 169 6031 between 10am-9pm as you have WON a guaranteed $1000 cash or $5000 prize!" x_test = tf.transform([message]) m_NB.predict(x_test) # In[45]: g_NB.predict(x_test.toarray()) # In[ ]: # 预测数据,使用tf.transform(['xx'])进行转换生成测试数据 # In[47]: b_NB = BernoulliNB() b_NB.fit(X_train,y_train) # In[48]: b_NB.predict(x_test) # ## 四、作业 # #### 对email进行二分类,两种邮件分别在ham和spam目录下 # In[51]: ham = '../data/email/ham/' spam = '../data/email/spam/' # In[53]: def read_data(path,label): #声明列表 msg = [] for i in range(1,26): with open(path+str(i)+'.txt',errors= 'ignore') as file: data = file.read() msg.append([data,label]) #msg 转换成DataFrame df_msg = pd.DataFrame(msg) return df_msg # In[55]: ham_msg = read_data(ham,'ham') spam_msg = read_data(spam,'spam') # In[56]: #使用pandas方法将这两个DataFrame email = pd.concat([ham_msg,spam_msg],ignore_index=True) email.shape # In[57]: X_train = email[0] y_train = email[1] # In[58]: #对文本数据进行转化 tf = TfidfVectorizer() #重新进行训练 tf.fit(X_train) X_train_tf = tf.transform(X_train) # In[59]: X_train_tf # In[60]: m_Nb = MultinomialNB() m_NB.fit(X_train_tf,y_train) # In[ ]: # In[65]: #进行预测 msg = '''Percocet 10/625 mg - $225! Percocet, used to treat moderate to EXPRESS Shipping, 100% Safe & Discreet & Private. Buy Cheap''' x_test = tf.transform([msg]) # In[66]: m_NB.predict(x_test) # In[69]: msg = '''Jay Stepp commented on your status. To see the comment thread, follow the link below:''' x_test = tf.transform([msg]) # In[70]: m_NB.predict(x_test)