ITeye问答频道

票

回答

1760 浏览

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？[已解决]0

公司准备做一个关于搜索引擎方面的东西，但是本人对这块不是熟悉，都需要配备什么样的资源，比如人才，软件(开源或商业的，开源优先)，硬件，网络等，请大家不吝赐教。大致的要求是能有一个爬虫去一些网站爬数据抓取回来，然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理，方便用户使用。我们只是要求搜索某一行业的数据，而不是像百度这样可以搜索全网的数据。

搜索引擎网络爬虫 lucence 开源爬虫

2014年7月20日 19:54

gq2010
3
0 0 13

票

回答

4839 浏览

java网络爬虫获取跳转后的URL[已解决]5

Java网络爬虫，爬取Bai**du的搜索结果，例如访问的URL是http://www.baidu.com/link?url=U3WEcAaa55vMH_mnafZHZyCoofvQ7IdiFW6WOSwL3PCBtaeDKKqHnretlAa-uzQ4，其对应原始的URL是：http://data.tiexue.net/mil/j202110/，在Java中如何得到这个原始的URL？

Java 爬虫网络爬虫 Java网络爬虫

2013年10月27日 10:50

area_51
25
0 0 2

我的问答 FAQ | 勋章

排行榜

查看全部排名>>

本周活跃投票用户

最新评论

才看到你的提问，这个依赖的google翻译服务不可用了，应该没法用了
oznyang 评论了关于oznyang发布的i18nTool工具的使用
问题解决了吗？有源码学习下吧
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
除了去掉字段的title，还能修改MyBatis的设置：<setting name="useColumnLabel" value="false" />，哥只能帮你到这了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
因为TD有title这个鬼东西，会导致查出来的全是中文字段名，去掉title就好了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
session ID就是登陆的KEY，所有持有session ID，一般不会串号，除非你作死，把session作为全局的类变量，或者静态变量来玩。作为局部变量的情况下，session id正确，就不可能串号。另外，如果是小程序、APP，特别要注意，登陆的之前，要有一个专属接口，去拿到session id，不要用登陆的接口持有session，这里很容易出现串号。很难理解吗？将APP和小程序视为浏览器的登陆过程，就很好理解了。浏览器登陆，首先是打开登陆页面，这个时候，session id就产生了，而不是登陆的接口产生的。我们团队x-teamer刚解决这个问题，所以分享一下可以加我VX， 26762685
26762685 评论了 SOS!session串号现象
请教下，java监听打印机状态是如何解决的？
elbert 评论了 Java怎么实现打印机监控
能用字符串拼接解决的优先用字符串拼接解决。比如time=2359转成时间, 用字符串拼接time/60+":"+time%60我笔记本耗时0ms, String.format("%02d:%02d", time/60, time%60) 耗时43ms. 具体情况具体分析
sandy8508 评论了 Java String.format性能如何
去除 return；
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
这么久了，问题有结果了吗，也是遇到此问题（因为pdfbox加载的内容与原文不一致才想修改实现方式）查了一下aspose这个插件，功能很多，示例太少，没找到怎么指定打印机及纸张大小
xiaojunjava 评论了 JAVA 连接打印机打印作业属性设置无效果问题
jdk有两个jar替换一下
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？[已解决]0

java网络爬虫获取跳转后的URL[已解决]5

问答分类

移动开发技术

Web前端技术

Java企业应用

编程语言技术

综合技术

入门技术

招聘求职

海阔天空

最新问题

排行榜

本周活跃投票用户

最新评论