(转载)基于CRF的中文分词

博客分类：

数据挖掘
python

CRF简介 Conditional Random Field：条件随机场，一种机器学习技术（模型） CRF由John Lafferty最早用于NLP技术领域，其在NLP技术领域中主要用于文本标注，并有多种应用场景，例如：分词（标注字的词位信息，由字构词）词性标注（标� ...

2017-04-28 17:27
浏览 1063
评论(0)
分类:编程语言

(转载)汉语词性对照表[北大标准/中科院标准]

博客分类：

数据挖掘

词性编码词性名称注解 Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。 a 形容词取英语形容词 adjective的第1个字母。 ad 副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。 an 名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。 b 区别词取汉字“别”的声母。 c

2017-03-22 09:15
浏览 492
评论(0)
分类:编程语言

(转载)jieba全应用入门

博客分类：

python
数据挖掘

# coding: utf-8 # ###jieba特性介绍 # 支持三种分词模式： # 精确模式，试图将句子最精确地切开，适合文本分析； # 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； # 搜索引擎模式，在精确模� ...

2017-03-22 09:14
浏览 562
评论(0)
分类:编程语言

(转)python的nltk中文使用和学习资料汇总帮你入门提高

博客分类：

数据挖掘
python

转自:http://blog.csdn.net/huyoo/article/details/12188573 nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装资料1.1: 黄聪：Python+NLTK自然语言处理学习（一）� ...

2017-03-06 10:19
浏览 644
评论(0)
分类:编程语言

windows下python中运用libsvm的配置(转载)

博客分类：

数据挖掘
python

转载 http://blog.sina.com.cn/s/blog_132a9d5010102wsov.html 先说明一下我的各个版本，电脑win7 64位，Python 2.7版本32位，已安装的各种python库都是32位。所以我这篇文章针对的是以上配置的情况，如果你是64位系统，64位python，请参考 http://blo ...

2016-12-13 14:03
浏览 684
评论(0)
分类:编程语言

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

博客分类：

数据挖掘
python
spark
java

pyspark在windows加载数据集训练模型出现以下错误 java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113) 在stackoverflow.com上找到的解决办法修改spark/python/pyspar ...

2016-12-05 16:12
浏览 2220
评论(0)
分类:编程语言

在eclipse上搭建spark的java开发环境

博客分类：

数据挖掘
java
spark

首先安装好spark后设置环境变量SPARK_HOME=d:\spark，在环境变量path后面添加%SPARK_HOME%bin; 启动Eclipse建立Java项目，建立一个测试的类比如WordCount 用来统计文件中的字数添加需要的jar库,选择菜单project=>properties, 然后在左侧选择java build path 右侧选择libraries, 然后选择add external jars 选择spark目录下jars目录下所有文件 WordCount.java代码 package test.spark; import scala.Tupl ...

2016-12-05 09:52
浏览 924
评论(0)
分类:编程语言

用Spark ALS通过预测推荐电影(python)

博客分类：

数据挖掘
python
spark

#!/usr/bin/env python # coding=utf-8 ''' 运行命令/yourpath/spark/bin/spark-submit --driver-memory 1g MovieLensALS.py movieLensDataDir personalRatingsFile movieLensDataDir 电影评分数据集目录比如 ml-1m/ personalRatingsFile 需要推荐的某用户的评价数据格式参考ratings.dat ''' import sys import itertools from math import sq ...

2016-12-02 11:34
浏览 3644
评论(0)
分类:编程语言

Spark ALS推荐系统简单例子(python)

博客分类：

python
数据挖掘
spark

采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip # -*- coding: utf-8 -*- # spark-submit movie_rec.py from pyspark import SparkConf, SparkContext from pyspark.mllib.recommendation import ALS, Rating # 获取所有movie名称和id对应集合 def movie_dict(file): dict = {} ...

2016-11-30 10:55
浏览 5236
评论(0)
分类:编程语言

spark web ui 开启history server

博客分类：

数据挖掘
spark

在/tmp下建立目录 spark-events ./sbin/start-history-server.sh 修改配置文件./conf/spark-defaults.conf 添加这一行：spark.eventLog.enabled true 运行脚本 ./sbin/start-history-server.sh 查看地址http://localhost:18080

2016-11-29 17:22
浏览 908
评论(0)
分类:编程语言

Ubuntu下spark安装

博客分类：

数据挖掘
spark

先安装jdk: sudo apt-get update sudo apt-get install default-jre sudo apt-get install openjdk-7-jdk 然后运行java -version 查看是否安装成功下载spark: 最新版本为spark-2.0.2-bin-hadoop2.7.tgz 然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz 移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt 设置环境变量 echo "export PATH=/opt/spark-2.0 ...

2016-11-22 10:26
浏览 451
评论(0)
分类:编程语言

Mysql 配置参数详解以及优化配置(转载)

博客分类：

数据库

mysql有以下几种日志：错误日志： log-err 查询日志： log 慢查询日志: log-slow-queries 更新日志: log-update 二进制日志： log-bin 要把日志生成在 /var/log 目录下(是系统日志存放的地方，只有 root 账号有写权限)，需要 MySQL进程对这个目录有读写权限，一般是不这么做的，也考虑到安全问题，包括 MySQL 本身的数据安全，因为对 MySQL 的所有操作，都会记录到常规查询日志。MySQL的日志就不要用 /var/log/ 目录下。 -------------------------- ...

2016-11-21 10:08
浏览 401
评论(0)
分类:数据库

xss过滤

博客分类：

php

1.使用htmlentities: htmlentities($str, ENT_QUOTES,"UTF-8"); 2.过滤特殊字符 preg_replace("/\"|'|$|$|<|>|CONTENT-TRANSFER-ENCODING/i"," ",$str);

2016-11-17 17:36
浏览 400
评论(0)
分类:编程语言

mysql分组汇总查询sql

博客分类：

数据库

SELECT class, SUM( status=A ) AS result_a, SUM( status=B ) AS result_b FROM table GROUP BY class

2016-11-08 15:49
浏览 519
评论(0)
分类:编程语言

jsonp 跨域

博客分类：

javascript

前端 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Insert title here</ ...

2016-11-04 11:37
浏览 367
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

(转载)基于CRF的中文分词

(转载)汉语词性对照表[北大标准/中科院标准]

(转载)jieba全应用入门

(转)python的nltk中文使用和学习资料汇总帮你入门提高

windows下python中运用libsvm的配置(转载)

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

在eclipse上搭建spark的java开发环境

用Spark ALS通过预测推荐电影(python)

Spark ALS推荐系统简单例子(python)

spark web ui 开启history server

Ubuntu下spark安装

Mysql 配置参数详解以及优化配置(转载)

xss过滤

mysql分组汇总查询sql

jsonp 跨域

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>