- 浏览: 77819 次
- 性别:
- 来自: 南京
最新评论
-
john2007:
mark lxml and beautifulsoup
基于python的crawler -
ray_linn:
有什么难的?
ref的值在方法内部可能被使用,因此可能需要被 ...
Why does C# have both 'ref' and 'out'? -
小龟爬爬:
ref使用之前必须初始化,而 out 只需要定义,不用初始化, ...
Why does C# have both 'ref' and 'out'? -
john2007:
http://www.ebookee.com.cn/Compu ...
文本/Web挖掘推荐书目 -
john2007:
Computational Intelligence in M ...
文本/Web挖掘推荐书目
文章列表
Indulge your passion for science, says Nature, but let your science be
human, and such as may have a direct reference to action and society.
Abstruse thought and profound researches I prohibit, and will severely
punish, by the pensive melancholy which they introduce, by the endless
uncertainty in whi ...
- 2008-11-01 11:23
- 浏览 1131
- 评论(3)
本文试图总结架设Wikipedia镜像的过程。
准备工作
首先需要安装Mediawiki软件,以及Mediawiki所依赖的软件,Apache,Php5,Mysql等,这里就不详细讲解了。对于懒人,有两个选择:
第一是安装Debian[1],这样apt-get install mediawiki就可以完成软件的安装。
第二是下载VMWare Player[2]和一个预安装Mediawiki的虚拟机[3]。
其次需要安装Java[4],因为导入数据的工具[5]是用Java实现的。
然后是硬盘,如果是英文wikipedia[6],需要准备大概10G的 ...
wikipedia提供了api可以供我们对其内容进行操作。其API文档地址为:
http://en.wikipedia.org/w/api.php
列举一些常见用法:
1、全文搜索
http://en.wikipedia.org/w/api.php?action=query&list=search&srsearch=fluoxetine
srsearch为要检索的内容
结果:
<?xml version="1.0"?>
<api>
<query>
<searchinfo to ...
做HTML解析工作也有好多次了,每次总是面临着选择不同工具的困惑。刚刚开始时正则表达式,之后用beautifulsoup,还用过python自带的htmlparser,sgmlparser。在前几篇博客中还提到了其自身的一些bug.
http://john2007.iteye.com/blog/559840
做数据提取的时候,越来越感觉到美丽的汤功能的有限,最终还是选择了Xpath。在用xpath做HTML解析的库,也是比较多的。
现在回首总结一下,推荐用lxml, elementtree,libxml2.
Both lxml and Scrapy Selectors are ...
药物设计是随着药物化学学科的诞生相应出现的。早在20世纪20年代以前,就开始进行天然有效成分的结构改造。而目前药物设计的方向主要集中在小分子方面,尤其是在里宾斯基五原则、RO3原则等药物设计的经典原则出现后,人们对化合物的选择方向也发生了变化。目前市场热点主要集中在:小分子杂环化合物、天然产物、肽类、糖类等等。世界上也随之出现了很多商业公司专门为药物设计和发现提供各类用于筛选的化合物以提高工作效率(算是一种社会劳动分工)。现在随着计算机辅助设计和化合物推广的需要,几乎所有的这类公司都推出自己的SDF,DB等格式的筛选化合物电子库。而且还有一些专业网站收集这些产品库做成一个更大的库。下面就一一详细 ...
文献报道过的或者没报道过的分子对接软件有很多,很多最初都是由实验室开发,免费发布。当软件很完善,没有什么缺陷时,可能会被专门的商业软件公司购买,就变成了某个大型软件包中的模块。其实不止分子对接软件,其他还有药效团软件、定量构效关系软件、数据库筛选软件等,都是这样的发展历程。不过,其中还是有一些实验室,在商品化大潮的影响下屹立不倒,依旧免费给我们提供免费的强大的软件,甚至是源代码(source code)。很多软件我手中都有,如果那位朋友想要,可以给我发邮件。当然,要在版权要求的范围内使用。1、这里首先提到的是AutoDock,据官方数据显示,autodock是引用文献最多的软件(Sousa, F ...
考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。
考察垂直爬虫的几个原则:
性能较高:较好支持多线程并发处理;支持异步、非阻塞socket;支持分布式爬取;爬取调度算法性能较高;内存使用效率较高,不要老是出现out of memory问题;
架构优美:组件式设计式架构,扩展方便;架构设计精巧。至少值得花时间去学习架构设计思想。
扩展 ...
当我们在gae的数据存储中存储了数据后,可以利用SDK提供的 sdk console (http://localhost:8081/_ah/admin/datastore)方便的进行数据的浏览和修改。
但是如果字段中有中文数据记录,就会出错。一个stack就猜到是中文编码的问题。(部署在服务器上好像没有此现象。)
具体更正方法就是对字符进行正确的编码。
1、所有的py文件用utf8编码;
2、对
D:\Program Files\G-o-o-g-l-e\g-o-o-g-l-e_appengine\g-o-o-g-l-e\appengine\ext\admin\__in ...
对于抓取的网页处理时,我们往往要判断它的字符编码,今天发现了python的一个自动判断编码的lib,特与众分享.
名称:chardet
介绍:Character encoding auto-detection in Python 2 and 3. As smart as your browser. Open source.
下载地址:
http://pypi.python.org/pypi/chardet/1.0.1
文档地址:
http://chardet.feedparser.org/docs/index.html
文档目录:
Fr ...
http://blog.minidx.com/2008/10/22/1570.html
http://blog.minidx.com/2008/11/06/1607.html
http://blog.minidx.com/2008/12/06/1689.html
http://blog.minidx.com/2008/12/09/1700.html
摘录1:
GBK范围:1st byte | 2nd byte0×81~0xfe | 0×40~0×7e and 0×80~0xfeBIG5范围:1st byte | 2nd byte0×81~0xfe | 0×40~ ...
bug:
利用HTMLParser解析 带有中文属性的标签,例如:"<img alt=周润发 src="/html"/>"
会出现如下错误:
raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: junk characters in start tag: u'\u5468\u6da6\u53d1 src="/html"/>', at line 1, column 1
错误原因还是正则表达式惹的祸。 ...
上一次发现了SGMLParser的bug,(见Python sgmlparser bug)于是就想到了利用HTMLParser,于是对其利用同样的HTML代码做了测试:
测试代码如下:
class postparser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.pieces=[]
def handle_starttag(self, tag, attrs):
print "start t ...
无法正确解析<br/><img src=""/>等单个标签:
测试代码如下:
class TestSGMLParser(SGMLParser):
def __init__(self, verbose=0):
self.testdata = ""
SGMLParser.__init__(self, verbose)
def handle_data(self, data):
self.testdata = self.testdata + d ...
Introduction
This article lists of some of the best Open Source projects written in VC++/MFC.
Background
CodeProject has the best source code repository for VC++ developers. But another site Sourceforge.net also has some of the best quality projects available for VC++. Here I list some of the bes ...
- 2009-10-11 11:11
- 浏览 1322
- 评论(0)
1、fatal error C1010: unexpected end of file while looking for precompiled header directive。 寻找预编译头文件路径时遇到了不该遇到的文件尾。(一般是没有#include "stdafx.h") 2、fatal error C1083: Cannot open include file: 'R…….h': No such file or directory 不能打开包含文件“R…….h”:没有这样的文件或目录。 3、error C2011: 'C……': 'class' ...
- 2009-04-06 09:26
- 浏览 1479
- 评论(0)