`
l_mai
  • 浏览: 70518 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22

2012-2-20 新学期除草

 
阅读更多
上学期知识回顾:
1.贝叶斯文本分类算法
原理:将一段文字通过分词,形成一个词的组合,假设这些词语是相互独立的。在分类语料库中是不同分类的文本集合。在不同的分类集合中计算每个词出现的后验概率,每个词的概率相乘得到这一段文字出现在这个分类的后验概率。概率最大的那个分类即为这段文字的所属分类。
提高程序运行速度:在计算后验概率的过程中,原有的方法每次都要遍历语料库中的文本,通过string的contain函数获得包含该词的文本数,从而计算概率。改进的方法是,事先将词语在语料库中的后验概率计算出来,序列化到硬盘。在以后的计算中,直接读取序列化的变量,不需要遍历语料库。
   在选取特征词的过程中使用的是chi-square值来获得参与计算的词,而其余的词不参与计算概率。
2.git的基本使用
基本命令:
git init 在硬盘某一位置初始化git
git add . 将目录中文件添加到git版本库中
git commit -m “description” 添加更新的说明
git push 远程git库 -f -master 强制覆盖远程git版本库
3.linux常用命令
ssh 远程登录
sudo apt-get install 软件名
sudo apt-get update 更新source-list
su 进入root账户
isof -i 端口 查看占用端口的进程
kill 9 进程号 强制停止某进程
jobs 正在运行的进程
chmod a+x 755 目录 更改目录的权限
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics