本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- wallimn
- benladeng5225
- ranbuijj
- javashop
- robotmen
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- gdpglc
- tanling8334
- gaojingsong
- arpenker
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- jbosscn
- lemonhandsome
- nychen2000
- zxq_2017
- wjianwei666
- lzyfn123
- ajinn
- forestqqqq
- siemens800
- 大家都说我很棒
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
最新文章列表
用HtmlParser 写个简单的 news爬虫(转)
有一段时间没写博客了,这几天回到学校我同学要赶着交毕业设计,让我帮他写个爬虫,专门抓搜狐的新闻,我用过爬虫,但是从来没有自己写过爬虫,于是Google了一下,找到了一篇不错的文章:使用 HttpClient 和 HtmlParser 实现简易爬虫 . 参考里面的代码,自己写了个简易的搜狐新闻爬虫。
爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻,然后将新闻添加到数据库中。
代码其实很简单 ...