Classification(2)NLP and Classifier Implementation

sillycat

浏览: 2578709 次
性别:
来自: 成都

最近访客更多访客>>

huageng520

learnmore

u012363178

ymgjava

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Summary

Classification(2)NLP and Classifier Implementation

1. Generate the FeatureMap
NLP - Natural Language Processing
remove the noise, remove the html tag, remove the stop word(for example, of, a in English, 的，啊in Chinese)
stem(change the stopped to stop),

NLP for Chinese
https://github.com/xpqiu/fnlp/

NLP for English
Stanford
http://nlp.stanford.edu/software/index.shtml
http://nlp.stanford.edu/software/corenlp.shtml
http://nlp.stanford.edu/software/segmenter.shtml
http://nlp.stanford.edu/software/tagger.shtml
http://nlp.stanford.edu/software/CRF-NER.shtml
http://nlp.stanford.edu/software/lex-parser.shtml
http://nlp.stanford.edu/software/classifier.shtml

apache NLP
http://opennlp.apache.org/

Remove Stop Word
One source for Stop Workd
https://raw.githubusercontent.com/muhammad-ahsan/WebSentiment/master/mit-Stopwords.txt

PorterStemmer
convert the ‘ate’ -> ‘eat’ and etc.

coalesce function in Spark
decrease the number of partitions in the RDD to numParitions.

TF-IDF
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf
Term Frequency- Inverse Document Frequency

Denote a term by t, a document by d, and the corpus by D. Term frequency TF(t,d) is the number of times that term t appears in document d.

The document frequency DF(t,D) is the number of documents that contains term t.

Inverse document frequency is a numerical measure of how much information a term provides:
IDF(t,D) = log ((|D| + 1) / (DF(t, D) + 1))
|D| is the total number of documents in the corpus.

DF = String / Int
IDF = String, Double = LogValue
IDFSwithIndex = String —> ( Double, Index)

2. Generate Training Data

It seems to me that zeppelin can load the jar from remote
z.load("com.amazonaws:aws-java-sdk:1.10.4.1")

Amazon S3 Operation
import com.amazonaws.services.s3._
import com.amazonaws.services.s3.model._
import com.amazonaws.services.s3.transfer.TransferManager
import com.amazonaws.services.s3.transfer.Upload

/**
* Upload a file to S3
*/
def uploadToS3(client: AmazonS3Client, bucket: String, key: String, file: File): Unit = {
    val tm = new TransferManager()
    val upload = tm.upload(bucket, key, file)
    upload.waitForCompletion()
}

/**
* Read a file's contents from S3
*/
def readFileContentsFromS3(client: AmazonS3Client, bucket: String, key: String): String = {
    val getObjectRequest = new GetObjectRequest(bucket, key)
    val responseHeaders = new ResponseHeaderOverrides()
    responseHeaders.setCacheControl("No-cache")
    getObjectRequest.setResponseHeaders(responseHeaders)

    val objectStream = client.getObject(getObjectRequest).getObjectContent()
    scala.io.Source.fromInputStream(objectStream).getLines().mkString("\n")
}

FeatureMap and Job
FeatureMap will read the features files.
Job will parse the raw data from xml to object. GetFeatures.

BinaryFeatureExtractor
Local Vector
Vectors.sparse(size, sortedElems)
Calculate and upload the binary label to the S3

TFFeatureExtractor

TFIDFFeatureExtractor
TFIDF(t,d,D) = TF(t,d)*IDF(t,D)

3. Classifier

UniformFoldingMechanism
validation codes blog
    val msg = (positive, negative) match {
      case _ if folds <= 0 =>
        s"Invalid number of folds ($folds); Must be a positive integer."
      case _ if negative.isEmpty || positive.isEmpty =>
        "Insufficient number of samples " +
        s"(# positive: ${positive.size}, # negative: ${negative.size})!"
      case _ if positive.size < folds =>
        s"Insufficient number of positive samples (${positive.size}); " +
        s"Must be >= number of folds ($folds)!"
      case _ if negative.size < folds =>
        s"Insufficient number of negative samples (${negative.size}); " +
        s"Must be >= number of folds ($folds)!"
      case _ =>
        ""
    }

    isNullOrEmpty(msg) match {
      case false =>
        logger.error("Fold validation failed!")
        Some(new RuntimeException(msg))
      case true =>
        logger.info("Fold validation succeeded!")
        None
    }

Merge the data and format them.

KFoldCrossValidator
Generate the TrainableSVM ——> TrainedSVM
Validate —> ModelMetrics

Scala Tips:
1. String Tail and Init
scala> val s = "123456"
s: String = 123456

scala> val s1 = s.tail
s1: String = 23456

scala> val s2 = s.init
s2: String = 12345

2. Tuple2
scala> val stuff = (42, "fish")
stuff: (Int, String) = (42,fish)

scala> stuff.getClass
res2: Class[_ <: (Int, String)] = class scala.Tuple2

scala>

scala> stuff._1
res3: Int = 42

scala> stuff._2
res4: String = fish

3. Scala Shuffle
scala> util.Random.shuffle(List(1, 2, 3, 4, 5, 6, 7, 8, 9))
res8: List[Int] = List(7, 1, 3, 9, 5, 8, 2, 6, 4)

scala> util.Random.shuffle(List(1, 2, 3, 4, 5, 6, 7, 8, 9))
res9: List[Int] = List(5, 1, 2, 6, 9, 4, 8, 7, 3)

4. Scala Grouped
scala> List(1,2,3,4,5,6,7,8,9,10,11,12,13).grouped(4).toList
res11: List[List[Int]] = List(List(1, 2, 3, 4), List(5, 6, 7,

, List(9, 10, 11, 12), List(13))

5. Scala List Zip
scala> List(1,2,3).zip(List("one","two","three"))
res12: List[(Int, String)] = List((1,one), (2,two), (3,three))
scala> List(1,2,3).zip(List("one","two","three", "four"))
res13: List[(Int, String)] = List((1,one), (2,two), (3,three))

6. List Operation
scala> val s1 = List(1, 2, 3, 4, 5, 6, 7).splitAt(3)
s1: (List[Int], List[Int]) = (List(1, 2, 3),List(4, 5, 6, 7))

scala> val t1 = s1._1.last
t1: Int = 3

scala> val t2 = s1._1.init
t2: List[Int] = List(1, 2)

scala> val t2 = s1._2
t2: List[Int] = List(4, 5, 6, 7)

References:
http://www.fnlp.org/archives/4231

example
http://www.cnblogs.com/linlu1142/p/3292982.html
http://fuhao-987.iteye.com/blog/891697

分享到：

AMAZON SQS(1)PHP Producer | Hybrid(2)meteor Running Android and iOS

2015-07-30 00:14
浏览 709
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

A Corpus Reader and POS-Tagger for MULTEXT-East in NLTK.: Several machine learning-based POS taggers were implemented using scikit-learn, including Multinomial Naive Bayes, Perceptron, and Linear Support Vector Classifier (SVC). These taggers were evaluated ...

基于三菱PLC和触摸屏的停车场智能管理系统设计与实现: 内容概要：本文详细介绍了基于三菱PLC和三菱触摸屏构建的停车场智能管理系统。系统分为入口、出口和管理中心三大部分，分别负责车辆身份识别、车位检测、道闸控制、缴费结算等功能。三菱PLC作为核心控制器，通过梯形图编程实现了车辆检测、道闸控制等关键逻辑；三菱触摸屏提供人机交互界面，支持参数设置、状态监控等功能。文中还讨论了PLC与触摸屏之间的通信配置，以及如何通过物联网技术将系统接入云端。适合人群：从事智能交通系统开发的技术人员，尤其是熟悉三菱PLC编程和触摸屏应用的工程师。使用场景及目标：适用于新建或改造停车场项目，旨在提高停车场管理效率和服务质量，减少人工干预，实现智能化运营。其他说明：文中提供了具体的硬件配置建议、PLC编程实例、触摸屏界面设计指南及通信协议解析，有助于读者快速理解和实施类似项目。

自动化生产领域：汇川AM系列PLC在全自动N95口罩机中的高级编程与控制应用: 内容概要：本文深入探讨了基于汇川AM401/AM403系列PLC和CODESYS高级编程模式构建的全自动N95口罩机控制系统。该系统涵盖了多个关键技术，包括轴控制（如绝对定位、相对定位）、凸轮同步控制、超声波焊接机控制、放卷张力控制、封边轴焊耳轴随动跟随控制、高速低速切换控制、步进电机精细控制等。此外，还介绍了IT7070系列触摸屏提供的友好交互界面及其产量统计功能。文章详细解析了各部分的具体实现方式，如通过ST语言编写复杂的控制逻辑，利用CAM_Profile生成器动态调整凸轮曲线，以及通过PID算法实现张力控制等。同时，强调了程序的模块化设计和详细的注释，便于维护和扩展。适合人群：从事自动化生产设备开发的技术人员，尤其是熟悉PLC编程和CODESYS平台的工程师。使用场景及目标：适用于希望深入了解全自动N95口罩机控制系统设计和实现的专业人士。主要目标是展示如何通过先进的编程技术和控制策略提升口罩生产的效率和质量。其他说明：文中提到的实际案例和技术细节有助于读者更好地理解和应用相关技术，同时也为类似项目的开发提供了宝贵的参考资料。

【嵌入式开发】Linux内核移植全流程解析：从准备工作到问题解决的详细指南: 内容概要：本文详细介绍了Linux内核移植在嵌入式开发中的重要性及其具体实施步骤。首先，强调了Linux内核移植作为连接硬件与软件桥梁的重要性，特别是在智能穿戴设备、工业自动化控制系统等广泛应用中的角色。文章随后解析了Linux内核移植的主要步骤，包括准备阶段（选择合适的内核版本、获取源码、配置交叉编译环境）、内核源码修改（硬件平台支持、时钟调整、机器码适配）、内核配置（通过make config、make menuconfig或make xconfig进行配置）、内核编译与安装。此外，还探讨了常见的移植问题及其解决方案，如串口打印异常、文件系统挂载故障和驱动适配难题。最后，通过一个具体的ARM架构开发板移植案例，展示了整个移植流程的实际操作，并展望了Linux内核移植技术的发展趋势。适合人群：具备一定嵌入式开发基础，特别是对Linux内核有一定了解的研发人员和技术爱好者。使用场景及目标：①帮助开发者理解Linux内核移植的基本概念和流程；②指导开发者在实际项目中进行Linux内核移植，解决常见问题；③为从事嵌入式系统开发的人员提供理论支持和技术参考。其他说明：Linux内核移植是一项复杂但极具价值的任务，不仅需要扎实的理论知识，还需要丰富的实践经验。随着技术的进步，Linux内核移植技术也在不断发展，未来的方向将更加注重自动化和智能化，以提高移植效率和成功率。建议读者在学习过程中结合实际案例进行练习，逐步积累经验，掌握这一关键技术。

识别多项式模型：项生成、结构检测、参数估计和动态验证: 实现全面的系统表征，包括候选项生成、结构检测、参数估计以及动态和静态模型验证。该软件包特别适用于分析具有固有噪声和误差的流动工厂系统，这些系统被建模为受白噪声破坏的二次多项式。主要特点：动态数据分析：处理输入和输出的时间序列数据，并验证数据集以进行识别和验证。结构检测：删除不合适的聚类，并应用AIC和ERR等优化算法来细化模型结构。参数估计：使用扩展最小二乘（ELS）或受限扩展最小二乘（RELS）计算模型参数。模型验证：通过残差分析和相关系数评估模型性能。静态模型仿真：生成静态响应并模拟各种输入条件下的系统行为。方法概述：该类包括支持识别过程的几种方法： generateCandidateTerms：构造一个用于系统特征描述的候选术语矩阵。 detectStructure：应用算法精确识别模型结构。 estimateParameters ELS：使用扩展最小二乘法估计动态模型参数。 estimateParameters RELS：使用受限扩展最小二乘法计算参数。 validateModel：分析模型准确性并验证残差行为。 buildStaticResponse：模拟静态模型对不同输入的响应。 displayModel：以文本和面板格式显示已识别的动态模型。 displayStaticModel：展示静态模型及其仿真结果。

COMSOL变压器模型：时域与频域分析及磁致伸缩、噪声和洛伦兹力的多物理场仿真: 内容概要：本文详细介绍了如何使用 COMSOL Multiphysics 对变压器进行时域和频域分析，探讨了磁致伸缩、噪声和洛伦兹力的影响。文中通过具体的代码示例展示了如何设置时域和频域的边界条件，定义磁致伸缩系数，计算洛伦兹力，并通过多物理场耦合模拟变压器的振动和噪声。此外，还讨论了一些常见的仿真技巧和注意事项，如相位对齐、材料非线性特性和边界条件设置等。适合人群：从事电力系统研究、变压器设计和仿真的工程师和技术人员。使用场景及目标：适用于希望深入了解变压器内部物理机制及其对外界因素响应的专业人士。通过掌握这些方法，可以优化变压器设计，减少噪声，提升电力系统的稳定性和可靠性。其他说明：文章不仅提供了理论背景，还给出了实用的代码片段和仿真技巧，帮助读者更好地理解和应用 COMSOL 进行变压器建模。

linux系统~~~~~~~: linux系统~~~~~~~~~~~~~

TheIntroductionOfApache: TheIntroductionOfApache（Apache的有关介绍）

校园疫情防控管理平台 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

电气仿真中Matlab/Simulink的应用：电力电子、电机控制、新能源发电及电力系统的模型定制与优化: 内容概要：本文详细介绍了Matlab/Simulink在电气仿真领域的应用，涵盖多个方面。首先讨论了三相逆变器建模的关键参数设置，如载波频率和死区时间。接着探讨了电机控制中PI参数整定的方法，特别是永磁同步电机的矢量控制。对于新能源发电，着重讲解了光伏阵列的MPPT算法及其优化策略。此外，还涉及电力系统仿真的技巧，如自定义变压器模型和故障穿越功能的实现。文中提供了大量实用的代码片段，帮助读者更好地理解和应用这些技术。适合人群：从事电力电子、电机控制、新能源发电以及电力系统仿真的工程师和技术人员。使用场景及目标：①快速搭建和优化电力电子设备的仿真模型；②提高电机控制系统的设计效率和性能；③优化新能源发电系统的MPPT算法；④增强电力系统仿真的准确性和可靠性。其他说明：文章强调了仿真过程中常见的问题及解决方案，提供了丰富的实战经验和技巧，有助于读者在实际工作中少走弯路。同时，鼓励读者利用Simulink自带的案例库进行学习和参考。

MATLAB统计工具箱中的回归分析命令.pptx: MATLAB统计工具箱中的回归分析命令.pptx

NSAC全国重点标准化考试联盟认证试题计算机辅助设计AutoCAD.doc: NSAC全国重点标准化考试联盟认证试题计算机辅助设计AutoCAD.doc

精灵传信系统精灵通讯技术自定义对接易支付支持网站+小程序双端源码.zip: 精灵传信支持在线提交发送短信，查看回复短信，在线购买额度，自定义对接易支付，设置违禁词，支持网站+小程序双端。环境要求: PHP >= 73 MySQL>=5.6 Nginx>=1.6 系统安装教程 1.导入安装包里的数据库 2.打开.env文件填写数据库信息 3.设置运行目录public 4.设置伪静态thinkphp 后台账号密码分别是admin,123456

自动化压测重启Android手机设备: 1. 插上手机后会自动检测手机是否连接，连接成功后会自动重启； 2. 电脑上有adb 环境； 3. 电脑上装有grep 程序

Matlab-第七讲：编程基础II(-函数-).pptx: Matlab-第七讲：编程基础II(-函数-).pptx

基于遗传算法与免疫算法的物流配送中心选址优化及VRP路径规划(MATLAB实现): 内容概要：本文详细介绍了利用遗传算法和免疫算法解决物流配送中心选址问题的方法，并提供了完整的MATLAB源码及注释。文章首先阐述了物流配送中心选址的重要性和挑战，然后重点讲解了适应度函数的设计，包括处理容量约束和超载惩罚。接着介绍了种群初始化、交叉操作、变异操作的具体实现细节，以及如何通过动态调整变异率来避免早熟收敛。此外，还探讨了免疫算法的应用，通过引入抗体浓度机制防止算法陷入局部最优。最后展示了算法的实际效果，包括运输成本的显著降低和车辆满载率的提升。文中提供的代码具有良好的扩展性，能够适应不同的物流网络规模和需求。适合人群：从事物流管理、运筹优化领域的研究人员和技术人员，特别是对遗传算法、免疫算法感兴趣的开发者。使用场景及目标：适用于需要优化物流配送中心选址的企业和个人。主要目标是通过合理的数学建模和智能算法，降低运输成本，提高运营效率，实现资源的最佳配置。其他说明：本文不仅提供理论解释，还包括详细的代码实现和调优建议，帮助读者更好地理解和应用相关算法。同时，代码中预留了多种扩展接口，方便进一步研究和改进。

S7-200 PLC实现六位密码锁系统的详细解析及应用场景: 内容概要：本文详细介绍了一套基于西门子S7-200 PLC的六位密码锁系统的设计与实现。首先介绍了系统的硬件配置，包括六个数字输入点、四个功能键以及三个状态指示灯。接着深入讲解了密码锁的关键代码，如输入检测、密码比对、错误处理和防破解机制。文中还分享了许多实际调试的经验和技术细节，如按键防抖、移位寄存器的应用、指针寻址和循环比较等。此外，作者还讨论了如何优化程序性能，提高系统的稳定性和安全性。适合人群：具备一定PLC编程基础的技术人员，尤其是从事工业自动化领域的工程师。使用场景及目标：适用于需要高安全性和可靠性的门禁控制系统，如工厂车间、仓库等场所的安全门管理。主要目标是通过PLC实现一个稳定的六位密码锁系统，防止未经授权的访问。其他说明：文中提供了详细的代码示例和调试技巧，帮助读者更好地理解和实现该系统。同时，作者还提到未来可能加入指纹识别等高级功能，进一步提升系统的安全性。

JSP重点技术基础习题.doc: JSP重点技术基础习题.doc

家居项目，前端技术栈vue: 家居项目，前端技术栈vue

基于MATLAB/Simulink的光伏发电系统MPPT扰动观察法仿真与优化: 内容概要：本文详细介绍了光伏发电系统中最大功率点跟踪(MPPT)技术的经典实现方法——扰动观察法(Perturb and Observe)，并通过MATLAB/Simulink搭建了一个完整的仿真模型。文章首先解释了扰动观察法的基本原理，即通过不断施加小扰动并监测功率变化来逐步逼近最大功率点。随后展示了具体的Simulink模型构建步骤，包括光伏阵列、Boost电路和控制器的设计。文中特别强调了几个关键参数的选择，如步长(step size)、采样周期(sample time)以及电容值(capacitance value)，并对常见错误进行了提示。此外，作者分享了一些实用技巧，如采用动态步长策略以提高响应速度和平滑度，以及在PV模块输出端并联大电容以抑制功率波动。最后，通过实测波形验证了该方法的有效性和可行性。适合人群：对光伏发电系统及其控制算法感兴趣的工程技术人员，尤其是希望深入了解MPPT原理及其实现方式的研究者和技术爱好者。使用场景及目标：适用于需要进行光伏发电系统性能优化的研究项目或工业应用场合。主要目标是帮助读者掌握如何利用MATLAB/Simulink平台快速建立可靠的MPPT仿真模型，从而为实际系统的开发提供理论依据和技术支持。其他说明：文章不仅提供了详细的理论讲解，还包括了大量实践经验的分享，有助于读者更好地理解和应用所学知识。同时，文中提到的所有代码片段和配置建议均经过实际测试，确保其可行性和可靠性。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论