`
xianbin
  • 浏览: 215579 次
  • 来自: ...
社区版块
存档分类
最新评论

Python使用AI人工智能技术对内容自动分类

阅读更多
2017年下半年有一段时间因为工作涉及AI人工智能,曾经短时间研究过,本文只是初步的研究成果,纯粹是抛砖引玉。

之前文章介绍了网络爬虫,实际上,也会AI有密切关系,因为AI在进行智能分析的之前,需要对数据进行建模,因此通过爬虫技术,在网络上获取建模数据可以提升AI处理的效率和准确性。

下面先对业务需求进行描述:假设需要对用户提问的疾病问题进行自动分类,比如呼吸科、心内科、消化内科等,自动归集起来。

处理步骤为:
1、先爬取部分医药网站的归类问题
2、使用AI对这些问题进行训练
3、通过输入某类疾病问题,验证识别效果

一、数据爬取
本示例使用的是“问医生”(https://www.jiankang.com)网站的数据,会将每个问题内容爬取到单独的文件中。




二、数据处理代码
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from nerutils import *
from sklearn.linear_model import SGDClassifier

# 选取参与分析的文本类别
categories = ['呼吸内科', '心内科', '消化内科']

train_path='category/train'

# 从硬盘获取原始数据
twenty_train=load_files(train_path,
        categories=categories,
        load_content = True,
        encoding='utf-8',
        decode_error='strict',
        shuffle=True, random_state=42)
# 统计词语出现次数
count_vect = CountVectorizer()

for index in range(len(twenty_train.data)):
        twenty_train.data[index] = ' '.join(ner( twenty_train.data[index]))

from sklearn.pipeline import Pipeline
# 建立Pipeline
text_clf = Pipeline([('vect', CountVectorizer()),
                     ('tfidf', TfidfTransformer()),
                     ('clf', SGDClassifier(loss='hinge',
                                            penalty='l2',
                                            alpha=1e-3,
                                            n_iter=5,
                                            random_state=42)),
])

# 训练分类器
text_clf = text_clf.fit(twenty_train.data, twenty_train.target)
# 打印分类器信息
print(text_clf)

# 读取测试数据
categories = ['呼吸内科']

test_path = 'category/test'

test_train=load_files(test_path,
        categories=categories,
        load_content = True,
        encoding='utf-8',
        decode_error='strict',
        shuffle=True, random_state=42)

for index in range(len(test_train.data)):
        test_train.data[index] = ' '.join(ner( test_train.data[index]))

test_train.target = [0]*len(test_train.target)

docs_test = test_train.data

# 使用测试数据进行分类预测
predicted = text_clf.predict(docs_test)
print("分类数据:" + str(predicted))
score = text_clf.score

# 计算预测结果的准确率
import numpy as np
print("准确率为:")
print(np.mean(predicted == test_train.target) * 100)


下面是测试输出的结果,准确率100%,很意外!
分类数据:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0]
准确率为:
100.0



因为该工作只持续了一个月左右,所以后续没有更深层的应用,不过就个人行业经验来看,AI对于很多方面确实有非常大的补充,单就这个分类来说,可以使用的业务范围非常多,比如一个汽车调研项目,需要从各类网站收集汽车信息,然后进行归类,可以按照排量、质量、发动机等等,通过AI预先将信息进行分类,然后再进行BI处理。

其他更多应用,欢迎各位朋友参与讨论。
  • 大小: 29.4 KB
0
0
分享到:
评论

相关推荐

    flare_zhao老师的python3入门人工智能

    《flare_zhao老师的python3入门人工智能》课程是针对初学者设计的一套全面的Python编程与人工智能技术教程。本课程的重点在于引导学员掌握Python 3的基础,并深入理解机器学习和深度学习的基本概念与实践技巧。 ...

    Python在人工智能中的作用

    人工智能,作为一种前沿技术,近年来取得了显著的进步,包括自动驾驶汽车的长距离无事故行驶、IBM Watson在Jeopardy游戏中的胜利,以及通过统计学习技术对大规模图像数据的模式识别。这些成就激发了更多科学家和...

    python AI人工智能,机器学习,深度学习,数据挖掘包含的内容.zip

    Python在AI人工智能、机器学习、深度学习和数据挖掘中的应用 Python编程语言因其简洁明了的语法和丰富的库支持,在IT领域尤其是人工智能(AI)、机器学习(Machine Learning, ML)、深度学习(Deep Learning, DL)...

    基于Python的人工智能美颜系统

    总结来说,基于Python的人工智能美颜系统融合了Python的图像处理库和深度学习技术,通过训练模型学习美颜规则,实现对人像照片的智能化美化。开发这样的系统需要理解图像处理原理、深度学习框架、数据处理技巧以及...

    在 Python 中使用 OpenAI 生成图像

    我们目前生活在人工智能时代。用于自动化流程的图像,包括徽标、广告、库存图像等的图像生成。因此,这里我们将使用OpenAI 通过 Python [ChatGPT API] 生成图像。DALL – E 模型有多种用途,今天我们将讨论如何使用...

    pysnake-master_ai贪吃蛇python_python_ai_

    【标题】"pysnake-master_ai贪吃蛇python_python_ai_" 暗示这是一个使用Python编程语言实现的贪吃蛇游戏项目,并且融入了人工智能(AI)元素。这个项目可能包含了一个AI算法,用于控制蛇的行为,增加了游戏的挑战性...

    使用 Python 实现人工智能.pdf

    ### 使用Python实现人工智能 #### 一、人工智能简介 在《使用 Python 实现人工智能.pdf》这...通过学习文档中的内容,读者不仅可以了解人工智能的历史背景和技术细节,还可以掌握使用Python进行实际项目开发的方法。

    AI 斗地主辅助 欢乐斗地主无限连胜 Python

    标题中的“AI 斗地主辅助 欢乐斗地主无限连胜 Python”指的是一个使用人工智能技术,特别是Python编程语言,来辅助玩家在斗地主游戏中实现无限连胜的项目。这个辅助工具通过图像智能识别技术,能够分析游戏窗口中的...

    “Python与人工智能”课程报告.docx

    Python 与人工智能的紧密联系在于其作为编程语言的特性,以及在人工智能领域的广泛应用。Python,由Guido van Rossum创造,以其简洁清晰的语法和强调可读性而著名,这使得它成为初学者和专业人士的理想选择。在人工...

    基于yolov5实现的AI自动瞄准python源码+模型.zip

    基于yolov5实现的AI自动瞄准python源码+模型.zip基于yolov5实现的AI自动瞄准python源码+模型.zip基于yolov5实现的AI自动瞄准python源码+模型.zip基于yolov5实现的AI自动瞄准python源码+模型.zip基于yolov5实现的AI...

    Python实现王者荣耀AI脚本,训练模型

    通过结合人工智能技术,我们可以构建出一个能够自动进行游戏的智能脚本。 首先,我们需要了解Python在人工智能领域的基础库。在开发王者荣耀AI时,主要会用到以下几个库: 1. **NumPy**:用于处理多维数据,是...

    基于Python的人工智能美颜系统(附源代码).zip

    在本项目中,我们探讨的是一个基于Python的人工智能美颜系统,该系统利用了现代计算机视觉和机器学习技术来实现图像美化功能。这个系统的主要目标是为用户提供一种方法,可以自动增强和优化人脸图像,使其看起来更加...

    基于Python的四国军棋AI智能裁判

    这样的裁判系统利用了Python的强大功能和灵活性,结合人工智能技术,实现了对棋局的自动判断和管理。 首先,我们要理解Python在这个项目中的核心作用。Python是一种高级编程语言,它的语法简洁明了,适合快速开发和...

    PythonPython驱动的AI大模型全自动视频生成源码

    MoneyPrinterTurbo是一款基于Python的全自动AI生成视频源码工具。 它运用先进的AI大模型技术,用户只需输入一个视频主题或关键词,便能一键生成高清短视频。 该工具能够全自动地为用户创作视频文案、搜集视频素材...

    Python人工智能课程 AI算法课程 Python机器学习与深度学习 11.卷积神经网络 共76页.pdf

    ### Python人工智能课程知识点详解 #### 1. 卷积神经网络(Convolutional Neural Networks, CNN) ##### 知识点概述: 卷积神经网络是一种深度学习模型,特别适用于图像识别和计算机视觉等领域。通过卷积层、池化...

    Python人工智能识别系统源码合集16套源码(含指纹、语音、车牌、人脸、图形、证件等等).zip

    Python作为一门广泛应用于科学计算、数据分析以及人工智能领域的编程语言,其在识别系统开发中的应用日益凸显。本资源包集合了16套不同类型的Python源码,涵盖了指纹识别、语音识别、车牌识别、人脸识别、图形识别及...

    python实现人工智能Ai抠图功能.pdf

    在Python编程语言中,人工智能(AI)应用广泛,其中之一就是图像处理,比如抠图功能。在本案例中,我们看到如何使用Python实现基于人工智能的自动抠图,这尤其适合那些不熟悉图形编辑软件如Photoshop(PS)的用户。...

    python识别花卉种类并自动整理分类

    在本项目中,"python识别花卉种类并自动整理分类"是一项使用Python编程语言结合百度AI接口来实现的任务。这个任务的主要目标是通过读取花卉照片,利用机器学习或深度学习模型进行图像识别,然后根据识别结果对照片...

Global site tag (gtag.js) - Google Analytics