apache服务器查看网络爬虫记录的方法说明 - muyoufang001 - ITeye博客

`

muyoufang001

浏览: 58394 次
性别:
来自: 北京

最近访客更多访客>>

shifanlovejava

wdc8866

soulmate008

406971727

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

apache服务器查看网络爬虫记录的方法说明

博客分类：

job 总结

阅读更多

问：使用Apache服务器，如何查看哪些网站的蜘蛛来爬过自己的网站或者哪些IP访问过我们的网站呢？

答：通过Apache服务器的访问日志记录！

Apache服务器的访问日志名称在linux下默认叫做access_log，在windows 下是access.log文件

如何配置：在httpd.conf文件中配置这么两句话：

LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog /home/admin/work/hz-jean/com.jean.deploy/logs/access_log common

第一句话的意思是定义日志的格式；第二句话是定义日志的存放地点

旧版本的(2.0以前的)Apache可能不用CustomerLog 而用transferLog

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""

TransferLog logs/access_log

如何查看访问日志：

在IP地址查询中输入前面的IP ，查询器就可以帮你查到它的HOSTNAME了，比如百度蜘蛛，或者浙江省电信等

分享到：

ReentrantLock与synchronized的区别 | java的concurrent/java.util.concurrent. ...

2012-10-22 11:34
浏览 761
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网络爬虫~源码: 【网络爬虫源码解析】网络爬虫是一种自动获取网页信息的程序，它通过模拟人类浏览器的行为，遍历互联网上的信息。在Java编程语言中，实现网络爬虫涉及到多个技术领域，包括HTTP协议理解、HTML解析、数据提取、并发...

网络爬虫JAVA扩展包: 错误处理是为了确保在遇到网络问题或服务器返回异常时，爬虫能继续执行或适当地记录错误。反反爬虫策略涉及到模拟用户行为、更换User-Agent、设置请求间隔等，以避免被目标网站封锁。数据存储则根据需求选择合适的...

Java网络爬虫源码: Java网络爬虫是一种用于自动化地抓取互联网信息的程序，它是通过模拟浏览器行为，发送HTTP请求到服务器并接收响应来工作的。在这个“Java网络爬虫源码”中，我们可以深入理解网络爬虫的工作原理和实现方式。源码是...

Java网络爬虫源码.rar: 6. **异常处理与重试机制**：网络爬虫在运行过程中可能会遇到各种问题，如超时、网络中断、服务器错误等。良好的异常处理和重试机制能保证爬虫的健壮性。 7. **IP代理与反反爬策略**：为了避免被目标网站封禁，爬虫...

网络爬虫Heritrix1.14.4可直接用: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本，但依然具有广泛的适用性，尤其对于学习和研究网络爬虫技术...

Java网络爬虫程序: Java网络爬虫程序是一种利用Java编程语言开发的自动化工具，用于从互联网上抓取大量信息...开发者可以通过研究这个项目，学习如何构造一个完整的网络爬虫系统，包括网络交互、数据解析、错误处理和日志记录等核心环节。

一个用java语言编写的网络爬虫程序: Java编程语言在网络爬虫开发中占据着重要地位，它的强大功能和灵活性使得开发者能够构建复杂的爬虫系统。本文将深入探讨使用Java编写网络爬虫的相关知识点。首先，我们需要理解网络爬虫的基本概念。网络爬虫，又...

清华大学基于Java语言的《自己动手写网络爬虫》全部源码共10个章节.rar: 《自己动手写网络爬虫》是清华大学推出的一门课程，主要教授如何使用Java语言来构建网络爬虫。网络爬虫是一种自动抓取互联网信息的程序，对于数据分析、搜索引擎优化、市场研究等领域都有着重要的应用。本课程的源码...

网络爬虫用堆栈队列贮存url: 网络爬虫是自动抓取网页信息的程序，它在互联网上遍历网页，收集所需数据。...配合其他的辅助库，如日志记录、编码解码和测试工具，构建了一个完整的爬虫系统，适用于初学者学习和实践网络爬虫技术。

网络爬虫教程: ### 网络爬虫教程知识点详析 #### 一、引言随着互联网的快速发展，数据成为企业和个人的重要资产。网络爬虫作为一种强大的数据抓取工具，在数据收集与分析中发挥着重要作用。本教程旨在帮助读者理解网络爬虫的工作...

java网络爬虫实例: 11. **日志记录和监控**：为了跟踪爬虫状态和调试，需要记录爬虫运行日志，并可能使用监控工具，如Prometheus和Grafana，实时查看爬虫性能和异常情况。总的来说，编写Java网络爬虫涉及网络编程、HTML解析、数据...

java网络爬虫,用java做的一个简单的网络爬虫项目: 1. **HTTP协议**：网络爬虫的基础是通过HTTP或HTTPS协议与服务器进行交互。理解HTTP请求（GET、POST等）和响应的结构至关重要。在Java中，可以使用`HttpURLConnection`或第三方库如`Apache HttpClient`、`OkHttp`来...

java 网络爬虫爬去别人的网页: Java网络爬虫是一种用于自动化获取网页内容的程序。在Java中实现网络爬虫涉及多个核心概念和技术，包括网络连接、HTML解析、数据存储以及多线程等。以下是对标题和描述中提到的知识点的详细说明： 1. **网络连接**...

Java网络爬虫jar包: Java网络爬虫首先需要与服务器进行通信，发送HTTP请求并接收HTTP响应。这通常通过`java.net.URL`，`java.net.HttpURLConnection`或第三方库如Apache HttpClient或OkHttp来实现。这些库提供了设置请求头、处理重定向...

网络爬虫页面检索器(java代码): 网络爬虫，也被称为网页抓取器或网络蜘蛛，是一种自动遍历互联网并抓取网页信息的程序。在Java编程语言中实现一个网络爬虫，需要掌握一系列技术和库，包括HTTP请求、HTML解析、数据存储等。下面我们将深入探讨网络...

自己动手写网络爬虫用到的jar包: 网络爬虫是自动抓取网页信息的程序，它可以帮助我们高效地收集大量数据，用于数据分析、网站监控或搜索引擎构建等目的。在这个主题中，我们关注的是编写网络爬虫时可能会用到的一些关键Java库，这些库包含在提供的...

网络爬虫 Java Websphinx: 7. **异常处理和重试机制**：网络爬虫会遇到各种异常，如网络中断、服务器错误等。Java的try-catch语句和RetryTemplate（Spring框架）可以帮助处理这些问题，确保爬虫的稳定性。 8. **IP代理**：为了避免被目标网站...

java网络爬虫小项目: 本项目“java网络爬虫小项目”是使用Java编程语言实现的一个小型爬虫应用，旨在帮助初学者理解网络爬虫的基本原理和实现方法。下面将详细介绍网络爬虫的相关知识点。首先，我们要了解网络爬虫的基本结构。一个简单...

Java网络爬虫源代码: 9. **错误处理与重试机制**：网络爬虫在运行过程中可能会遇到各种异常，如网络中断、服务器错误等，合理的错误处理和重试机制是必要的。 10. **日志记录**：为了便于调试和监控，爬虫程序应该记录详细的执行日志，...

Global site tag (gtag.js) - Google Analytics