- 浏览: 98861 次
- 性别:
- 来自: 上海
-
最新评论
-
jyjsjd:
请教博主这个ChineseTokenizer()你是怎么写的, ...
使用WVTool进行文本分类 -
superclay:
能不能发个indexwriter indexsearch ...
结合ehcache缓存对lucene使用单例模式搜索 -
strayly:
我采用和ehcache缓存结合使用单例模式
使用ehcache ...
lucene搜索优化(转)
文章列表
CRF简介
Conditional Random Field:条件随机场,一种机器学习技术(模型)
CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:
分词(标注字的词位信息,由字构词)
词性标注(标 ...
(转载)汉语词性对照表[北大标准/中科院标准]
- 博客分类:
- 数据挖掘
词性编码
词性名称
注 解
Ag
形语素
形容词性语素。形容词代码为 a,语素代码g前面置以A。
a
形容词
取英语形容词 adjective的第1个字母。
ad
副形词
直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an
名形词
具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b
区别词
取汉字“别”的声母。
c
# coding: utf-8
# ###jieba特性介绍
# 支持三种分词模式:
# 精确模式,试图将句子最精确地切开,适合文本分析;
# 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
# 搜索引擎模式,在精确模 ...
转自:http://blog.csdn.net/huyoo/article/details/12188573
nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.
1. nltk的安装
资料1.1: 黄聪:Python+NLTK自然语言处理学习(一) ...
转载 http://blog.sina.com.cn/s/blog_132a9d5010102wsov.html
先说明一下我的各个版本,电脑win7 64位,Python 2.7版本32位,已安装的各种python库都是32位。
所以我这篇文章针对的是以上配置的情况,如果你是64位系统,64位python,请参考 http://blo ...
pyspark在windows加载数据集 训练模型出现 以下错误
java.net.SocketException: Connection reset by peer: socket write error
at java.net.SocketOutputStream.socketWrite0(Native Method)
at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
在stackoverflow.com上找到的解决办法
修改spark/python/pyspar ...
首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin;
启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件
WordCount.java代码
package test.spark;
import scala.Tupl ...
#!/usr/bin/env python
# coding=utf-8
'''
运行命令/yourpath/spark/bin/spark-submit --driver-memory 1g MovieLensALS.py movieLensDataDir personalRatingsFile
movieLensDataDir 电影评分数据集目录 比如 ml-1m/
personalRatingsFile 需要推荐的某用户的评价数据 格式参考ratings.dat
'''
import sys
import itertools
from math import sq ...
采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip
# -*- coding: utf-8 -*-
# spark-submit movie_rec.py
from pyspark import SparkConf, SparkContext
from pyspark.mllib.recommendation import ALS, Rating
# 获取所有movie名称和id对应集合
def movie_dict(file):
dict = {}
...
在/tmp下建立目录 spark-events
./sbin/start-history-server.sh
修改配置文件./conf/spark-defaults.conf
添加这一行:spark.eventLog.enabled true
运行脚本 ./sbin/start-history-server.sh
查看地址http://localhost:18080
先安装jdk:
sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install openjdk-7-jdk
然后运行java -version 查看是否安装成功
下载spark:
最新版本为spark-2.0.2-bin-hadoop2.7.tgz
然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz
移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt
设置环境变量
echo "export PATH=/opt/spark-2.0 ...
Mysql 配置参数详解以及优化配置(转载)
- 博客分类:
- 数据库
mysql有以下几种日志:
错误日志: log-err
查询日志: log
慢查询日志: log-slow-queries
更新日志: log-update
二进制日志: log-bin
要把日志生成在 /var/log 目录下(是系统日志存放的地方,只有 root 账号有写权限),需要 MySQL进程对这个目录有读写权限,一般是不这么做的,也考虑到安全问题,包括 MySQL 本身的数据安全,因为对 MySQL 的所有操作,都会记录到常规查询日志。MySQL的日志就不要用 /var/log/ 目录下。
-------------------------- ...
1.使用htmlentities:
htmlentities($str, ENT_QUOTES,"UTF-8");
2.过滤特殊字符
preg_replace("/\"|'|\(|\)|<|>|CONTENT-TRANSFER-ENCODING/i"," ",$str);
mysql分组汇总查询sql
- 博客分类:
- 数据库
SELECT class, SUM( status=A ) AS result_a, SUM( status=B ) AS result_b FROM table GROUP BY class
jsonp 跨域
- 博客分类:
- javascript
前端
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Insert title here</ ...