- 浏览: 812104 次
- 性别:
- 来自: 武汉
最新评论
-
107x:
不错,谢谢!
log4j.properties配置详解 -
gzklyzf:
为啥我解析的PDF文档没有作者、文章题目等信息啊,下面是我的代 ...
Apache Lucene Tika 文件内容提取工具 -
mervyn1024:
解压密码是啥
ictclas4j调整 -
百卉含英:
如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解 -
lxhxklyy:
mark……
log4j.properties配置详解
文章列表
JAVA调用VB6.0爬取网页
- 博客分类:
- 研发技术综合
用VB6.0解决网页获取问题,在一些情况下可以省点事。
比如百度链接现在直接访问都302了,VB调用浏览器控件,可以绕开此类问题。
对于怼着一个网站爬,中间必须休眠的应用,干脆上VB。
核心代码如下。
'全局变量
Public counter As Integer
Private Sub Form_Load()
'获取外部传入的参数
Dim para
If Command <> "" Then
para = Command
End If
WebBrowser1.Sil ...
Private Sub Form_Load()
'Form1.Height = 0
'Form1.Width = 0
'Form1.Visible = False
Dim href
'href = "bbs.whnet.edu.cn"
href = Mid(Command, 2, Len(Command) - 2)
WebBrowser1.Silent = True
WebBrowser1.Navigate href
...
解决方案1:
窗体里加入下面代码即可:
Private Sub WebBrowser1_DownloadBegin()
WebBrowser1.Silent = True
End Sub
Private Sub WebBrowser1_DownloadComplete()
WebBrowser1.Silent = True
End Sub
解决方案2:
选中“禁止脚本调试”复选框启动IE,选择“高级”选项卡,执行“工具→Internet选项”菜单
所谓算法工程师,大致的工作范围是算法研究+工程实现两部分,不同的人在不同的环境下各有侧重。
第一部分,在目前国内互联网公司的环境里,说算法研究,其实更多的工作是调研、比较、挑选、适配、评估和决策等等,与其他技术领域的技术选型和规划并无本质差别。从学术意义上来看,很难说是创新或设计新算法;但从实际的效果来看,这种做法是经济而高效的,一切围绕场景需求和实际的使用效果出发,利用有限的资源取得最大收益。并且,虽然每一个环节的创新性不强,但综合各个环节的效果,未必就不是真正的创新。
专利领域还有发明专利和实用新型两种呢,恰到好处的解决实际问题,可以称得上是创新。另外,如果你发现面 ...
中心语为谓词
subj -- 主语
nsubj -- 名词性主语(nominal subject) (同步,建设)
top -- 主题(topic) (是,建筑)
npsubj -- 被动型主语(nominal passive subject),专指由“被”引导的被动句中的主语,一般是谓词语义上的受事 (称作,镍)
csubj -- 从句主语(clausal subject),中文不存在
xsubj -- x主语,一般是一个主语下面含多个从句 (完善,有些)
中心语为谓词或介词
发现庖丁分词器的一个小问题
- 博客分类:
- Lucene&切分词
”深圳市集银科技有限公司“
会被切分成:
”深圳 深圳市 市集 银 科技 有限 公司 “
需加以调整。
java正则判断字符串是否包含中文
- 博客分类:
- 研发技术综合
java正则判断字符串是否包含中文
Java代码
1.String s="大牛这孩";
2.Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]");
字符集编码的识别(zz)
- 博客分类:
- 研发技术综合
字符集编码的识别(zz)
读取文本文件或者接收字节流时需要搞清字符编码才能正确处理,编码识别错误是出现乱码的主要原因。理解编码识别方法之前建议阅读:常用字符集编码的概要特性(一)和常用字符集编码的概要特性(二)。
通过约定识别
为了接收字节流时能正确识别编码,很多情况下发送字节流的同时会把字节流对应的编码发送给接收方,这种情况可以理解为发送和接收双方的约定。HTTP协议就有这样的约定,浏览器就是通过约定来识别网页的编码。HTTP协议的响应头会有这样的约定:
Content-Type: text/html;charset=utf-8
Unicode字碼分佈表(zz)
- 博客分类:
- 研发技术综合
Unicode字碼分佈表(zz)
0000-007F C0 Control and Basic Latin, 標準ANSI字元
0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文
0100-024F Latin Extended, 拉丁文
0250-02AF IPA Extensions, 拉丁文
02B0-02FF Spacing Modifier
Unicode语系字碼分佈表(zz)
- 博客分类:
- 研发技术综合
Unicode语系字碼分佈表(zz)
英文 0041-005A, 0061-007A
中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF
日文 3040-30FF, 31F0-31FF
韓文 1100-11FF, 3130-318F, AC00-D7AF
泰文 0E00-0E7F
寮文 0E80-0EFF
各種語系的unicode對應以及local編碼方式(zz)
另:或参见:
http://jrgraphix.net/research/unicode_blocks.php?block=87
另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0
不久之前,其实有一个可以说是在移动设备安全系统上的breaking news。一个叫ElcomSoft的俄罗斯(ps:“K机哔”)公司更新了他们的手机密码破解软件,并宣称寻找到破解黑莓手机密码的方式。在这个“K机哔”公司大胆宣称之前,所有人都认为根本不可能破解黑莓手机或PlayBook平板电脑的密码。
由于黑莓手机的内部设定,只要连续10次输入开锁密码
MemSQL
- 博客分类:
- Web Server & DB
前Facebook工程师创办的MemSQL公司获500万美元投资。号称世界上最快的分布式关系型数据库,兼容MySQL但快30倍,能实现每秒150万次事务。原理是仅用内存并将SQL预编译为C++。
Wibbitz:根据网页文字生成在线视频(转)
- 博客分类:
- 资讯及其他
Wibbitz:根据网页文字生成在线视频
在互联网信息爆炸的时代,如何让自己发表的文字抓住别人的眼球?或许你可以给文字配上几张
图片,或是一段视频,但这显然需要花费更多时间和精力去搜索、编辑和发布。一家名为Wibbitz的
网站正试图解决这一难题。
简单地说,Wibbitz能够将网页上的文字转化为一段视频。它是怎么做到这一点的呢?
在用户输入网址后,Wibbitz首先会对网页文字进行语义分析,挑选出一些常见关键词。例如,
网页内容是:
“巴萨曾在2009年击败曼联夺冠。而在温布利球场,佩德罗的进球让巴萨在上半时取得领先,但
鲁尼为曼联扳平。但到了下半场,梅西和 ...