sklearn学习--文本分类多分类应用

strayly

浏览: 97473 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘
python

#!/usr/bin/env python
# coding=utf-8
import sys
import jieba
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import MultiLabelBinarizer
import MySQLdb
import pandas as pd
import re 
import numpy as np

def jieba_tokenizer(x): return jieba.cut(x,cut_all=True)
def partition(x): return x  
def filter_html(s):  
    d = re.compile(r'<[^>]+>',re.S)  
    s = d.sub('',s)
    return s  
def gbk_utf8(s):
    s = s.decode('gbk',"ignore").encode('utf8')
    return s
#链接mysql数据库  
conn=MySQLdb.connect(host='localhost',user='root',passwd='',db='mydb',port=3306,charset="gbk",use_unicode=False)  
cursor =conn.cursor()  
cursor.execute("SET NAMES GBK")  


#训练数据样本  
data_ret = pd.DataFrame()  

sql = "SELECT ID, title,classid, content FROM t_reprint article WHERE ID<1000 ORDER BY a.ID ASC LIMIT 0,1000"  
#print sql  
cursor.execute(sql)

txt_ret =  []  
class_ret = []
id_ret = [] 
for row in cursor.fetchall():  
    content = filter_html(gbk_utf8(row[3]))   
    txt_ret.append(content) 
    class_s = gbk_utf8(row[2])
    class_l = class_s.split(",")
    class_ret.append(class_l) 
    id_ret.append(row[0])
    
txt_ret = txt_ret

  
X_train = txt_ret 
Y_train = class_ret


classifier = Pipeline([
    ('counter', CountVectorizer(tokenizer=jieba_tokenizer)),
    ('tfidf', TfidfTransformer()),
    ('clf', OneVsRestClassifier(LinearSVC())),
])
mlb = MultiLabelBinarizer()
Y_train = mlb.fit_transform(Y_train)


classifier.fit(X_train, Y_train)



#target_names=['100','102','103','104','105','106','107','108','109','110','111','112','113','114','115','116','117','118','119','120','121','122','123','124','125','126','127','128','129','130','131', '132','133','134']
#测试数据
test_txt_set = []  
sql = "SELECT ID, title,classid, content FROM article  WHERE ID>1000 ORDER BY ID DESC LIMIT 10 "
cursor.execute(sql)
test_id_ret = [] 

for row in cursor.fetchall():  
    test_txt_set.append(filter_html(gbk_utf8(row[3]))) 
    test_id_ret.append(row[0])
X_test = test_txt_set


prediction = classifier.predict(X_test)

result = mlb.inverse_transform(prediction)
#展示结果
for i, label1 in enumerate(result):
    classstr = ''
    for j, label2 in enumerate(label1):
        classstr+=str(label2)+","
    print "ID:"+str(test_id_ret[i])+" =>class:"+classstr

分享到：

php与python之间通信 | scikit-learn选择正确的分类器

2016-08-29 12:27
浏览 6269
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

sklearn学习--文本分类多分类应用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

sklearn学习--文本分类多分类应用

评论

发表评论

相关推荐

sklearn聚类之kmeans以及增量聚类

spark进行svd降维和kmeans聚类

spark 的 itemcf推荐

卡方检验提取特征来对文本分类

计算文本词频进行聚类

sklearn文本聚类

spark之word2vec使用(python)

spark2.3聚类算法lda代码(python)

linux 编译安装 Python3.6 （保留自带Python2）

TensorFlow 的SSE avx fma安装

(转载)Seq2SeqModel参数

(转载)基于CRF的中文分词

(转载)jieba全应用入门

(转载)汉语词性对照表[北大标准/中科院标准]

(转)python的nltk中文使用和学习资料汇总帮你入门提高

windows下python中运用libsvm的配置(转载)

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

在eclipse上搭建spark的java开发环境

用Spark ALS通过预测推荐电影(python)

Spark ALS推荐系统简单例子(python)

最近访客更多访客>>