浏览 3598 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-12-30
由于宿舍上网昂贵,加上csdn广告奇多,看着不爽. 另外自己有个200元的2手pda,哈哈:) 于是随手写了这个脚本,代码有些凌乱,大家不看也罢. 功能为 可以从csdn抓取新闻,并以纯文本和html两种格式分别保存,对于html格式,同时会抓取其中的图片. 没有多线程,没有异步I/O,没有索引生成,没有更新判断.........:) 不过自己用用,把文本抓到pda上看看还是不错的. 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-01-02
其实抓新闻很简单的。关键就是监控抓取新闻的模板什么时候变化了,下次抓的时候能从这个地方继续抓取。
|
|
返回顶楼 | |
发表时间:2008-01-02
正在写一个抓新闻的网站,规划中:)
|
|
返回顶楼 | |
发表时间:2008-01-11
请问一下,兄弟有没有,抓取过用javascript实现的分页显示的那部分啊,
就是抓取脚本啊, (我的描述能力很烂啊!见笑了!) |
|
返回顶楼 | |
发表时间:2008-01-11
这个比较麻烦
我记得有一款java的javascript引擎 还有一款就是firefox的 可以拿来试试 |
|
返回顶楼 | |
发表时间:2008-01-12
RUBY的Watir可以帮忙。
|
|
返回顶楼 | |
发表时间:2008-01-12
我现在也正在看那部分呢!
我郁闷是javascript中的对象怎末传递到script里面, 平常用put,get之类传一些简单的对象,稍复杂点的对象就挂了, 类似于这种 /*******************************************************************/ function dwScript(o){ o.id = o.id || ""; o.charset = o.charset || "utf-8"; if (o.script && o.script != ""){ document.write("<script id='" + o.id + "'>" + o.script + "<\/script>"); } else if (o.url && o.url != ""){ document.write("<script id='" + o.id + "' src='" + o.url + "' charset='" + o.charset + "'><\/script>"); } else throw new Error("no script content or url specified"); } /***************************************************************/ 这段时间郁闷坏了! |
|
返回顶楼 | |
发表时间:2008-01-12
不错,我的几个网站也可以自动去取点数据。
每天人工更新,累啊 |
|
返回顶楼 | |