本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- 龙儿筝
- arpenker
- tanling8334
- kaizi1992
- gaojingsong
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- lemonhandsome
- luxurioust
- jbosscn
- mengjichen
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- kingwell.leng
- mwhgJava
最新文章列表
jira通过scriptrunner整合日志与confluence上周报并输出pdf
背景是为了整合在jira的Tempo中记录的工时,与在confluence上记录的周报,并自动合成pdf周报。
开始寻找导出工具,考虑输出excel,word等方式,最后选择了jira的插件Better PDF Exporter for Jira来输出pdf。这个插件能定制化格式,并引入jira中多种类型数据,比较好用。使用vm模板issue-fo就包含了多种数据类型,包括Tempo日志 ...
一种解决HTTP抓取网页超时设置无效的方法
今天发现superword在获取单词定义的时候,对于不常见单词,网页打开很慢,超过10秒,经检查,发现是利用Jsoup来抓取单词定义的时候,设置的超时3秒无效,_getContent方法的执行时间超过10秒,代码如下:
public static String getContent(String url) {
String html = _getContent(u ...
WebCollector学习笔记(二)jsoup的小记
一、jsoup
抽取信息的时候用到了jsoup。下面简单记录下jsoup的使用心得
http://www.open-open.com/jsoup/selector-syntax.htm
1.1 jsoup选择器
标签指定id
<div class="list_left">
<div id="content">
正 ...
Java使用Jsoup简单解析页面
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性 ...
jsoup + json 解析网页
package com.teamdev.jxbrowser.chromium.demo_lingshui.baidunuomi.goods;
import java.awt.BorderLayout;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.concurrent.CountD ...
用Scala打造精悍爬虫(一)游记篇
分享一下前段学习Scala做的一个爬虫程序。
【关于爬虫】
接触爬虫的时间并不长,发现python在这个领域有很大的份额。虽然也用过python,但是始终觉得动态语言做这种“严谨“工作还是不如Java,当然更没法和Scala比。
总结一下爬虫的主要困难:
痛点1:网断,大量爬取时,各种超时错是司空见惯,需要有良好的重试机制防止被打断。
痛点2:验证码,一般大网站都有反爬机制,当一 ...
(比较 tika 和正则 ,我更喜欢jsoup ) jsoup 抓取 iteye 网站
jsoup 效果
qq新闻 内容抓取 正则表达 (正则)
http://knight-black-bob.iteye.com/blog/2312411
比较 tika 和正则 ,我更喜欢jsoup
正则 比较难写 ,, ,,,,
下面有jar 包下载
<dependency>
<groupId>org.jsoup</gro ...