`

apache服务器查看网络爬虫记录的方法说明

阅读更多

问 :使用Apache服务器,如何查看哪些网站的蜘蛛来爬过自己的网站或者哪些IP访问过我们的网站呢?

答 :通过Apache服务器的访问日志记录!
    
      Apache服务器的访问日志名称在linux下默认叫做access_log,在windows 下是access.log文件

如何配置 :在httpd.conf文件中配置这么两句话:
             
LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog /home/admin/work/hz-jean/com.jean.deploy/logs/access_log common

第一句话的意思是定义日志的格式;第二句话是定义日志的存放地点

旧版本的(2.0以前的)Apache可能不用CustomerLog 而用transferLog

 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""

TransferLog logs/access_log

如何查看访问日志 :

 

 
在IP地址查询中输入前面的IP ,查询器就可以帮你查到它的HOSTNAME了,比如百度蜘蛛,或者浙江省电信等

分享到:
评论

相关推荐

    网络爬虫~源码

    【网络爬虫源码解析】 网络爬虫是一种自动获取网页信息的程序,它通过模拟人类浏览器的行为,遍历互联网上的信息。在Java编程语言中,实现网络爬虫涉及到多个技术领域,包括HTTP协议理解、HTML解析、数据提取、并发...

    网络爬虫JAVA扩展包

    错误处理是为了确保在遇到网络问题或服务器返回异常时,爬虫能继续执行或适当地记录错误。反反爬虫策略涉及到模拟用户行为、更换User-Agent、设置请求间隔等,以避免被目标网站封锁。数据存储则根据需求选择合适的...

    Java网络爬虫源码

    Java网络爬虫是一种用于自动化地抓取互联网信息的程序,它是通过模拟浏览器行为,发送HTTP请求到服务器并接收响应来工作的。在这个“Java网络爬虫源码”中,我们可以深入理解网络爬虫的工作原理和实现方式。源码是...

    Java网络爬虫源码.rar

    6. **异常处理与重试机制**:网络爬虫在运行过程中可能会遇到各种问题,如超时、网络中断、服务器错误等。良好的异常处理和重试机制能保证爬虫的健壮性。 7. **IP代理与反反爬策略**:为了避免被目标网站封禁,爬虫...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    Java网络爬虫程序

    Java网络爬虫程序是一种利用Java编程语言开发的自动化工具,用于从互联网上抓取大量信息...开发者可以通过研究这个项目,学习如何构造一个完整的网络爬虫系统,包括网络交互、数据解析、错误处理和日志记录等核心环节。

    一个用java语言编写的网络爬虫程序

    Java编程语言在网络爬虫开发中占据着重要地位,它的强大功能和灵活性使得开发者能够构建复杂的爬虫系统。本文将深入探讨使用Java编写网络爬虫的相关知识点。 首先,我们需要理解网络爬虫的基本概念。网络爬虫,又...

    清华大学基于Java语言的《自己动手写网络爬虫》 全部源码 共10个章节.rar

    《自己动手写网络爬虫》是清华大学推出的一门课程,主要教授如何使用Java语言来构建网络爬虫。网络爬虫是一种自动抓取互联网信息的程序,对于数据分析、搜索引擎优化、市场研究等领域都有着重要的应用。本课程的源码...

    网络爬虫用堆栈队列贮存url

    网络爬虫是自动抓取网页信息的程序,它在互联网上遍历网页,收集所需数据。...配合其他的辅助库,如日志记录、编码解码和测试工具,构建了一个完整的爬虫系统,适用于初学者学习和实践网络爬虫技术。

    网络爬虫教程

    ### 网络爬虫教程知识点详析 #### 一、引言 随着互联网的快速发展,数据成为企业和个人的重要资产。网络爬虫作为一种强大的数据抓取工具,在数据收集与分析中发挥着重要作用。本教程旨在帮助读者理解网络爬虫的工作...

    java网络爬虫实例

    11. **日志记录和监控**:为了跟踪爬虫状态和调试,需要记录爬虫运行日志,并可能使用监控工具,如Prometheus和Grafana,实时查看爬虫性能和异常情况。 总的来说,编写Java网络爬虫涉及网络编程、HTML解析、数据...

    java网络爬虫,用java做的一个简单的网络爬虫项目

    1. **HTTP协议**:网络爬虫的基础是通过HTTP或HTTPS协议与服务器进行交互。理解HTTP请求(GET、POST等)和响应的结构至关重要。在Java中,可以使用`HttpURLConnection`或第三方库如`Apache HttpClient`、`OkHttp`来...

    java 网络爬虫 爬去别人的网页

    Java网络爬虫是一种用于自动化获取网页内容的程序。在Java中实现网络爬虫涉及多个核心概念和技术,包括网络连接、HTML解析、数据存储以及多线程等。以下是对标题和描述中提到的知识点的详细说明: 1. **网络连接**...

    Java网络爬虫jar包

    Java网络爬虫首先需要与服务器进行通信,发送HTTP请求并接收HTTP响应。这通常通过`java.net.URL`,`java.net.HttpURLConnection`或第三方库如Apache HttpClient或OkHttp来实现。这些库提供了设置请求头、处理重定向...

    网络爬虫页面检索器(java代码)

    网络爬虫,也被称为网页抓取器或网络蜘蛛,是一种自动遍历互联网并抓取网页信息的程序。在Java编程语言中实现一个网络爬虫,需要掌握一系列技术和库,包括HTTP请求、HTML解析、数据存储等。下面我们将深入探讨网络...

    自己动手写网络爬虫用到的jar包

    网络爬虫是自动抓取网页信息的程序,它可以帮助我们高效地收集大量数据,用于数据分析、网站监控或搜索引擎构建等目的。在这个主题中,我们关注的是编写网络爬虫时可能会用到的一些关键Java库,这些库包含在提供的...

    网络爬虫 Java Websphinx

    7. **异常处理和重试机制**:网络爬虫会遇到各种异常,如网络中断、服务器错误等。Java的try-catch语句和RetryTemplate(Spring框架)可以帮助处理这些问题,确保爬虫的稳定性。 8. **IP代理**:为了避免被目标网站...

    java网络爬虫小项目

    本项目“java网络爬虫小项目”是使用Java编程语言实现的一个小型爬虫应用,旨在帮助初学者理解网络爬虫的基本原理和实现方法。下面将详细介绍网络爬虫的相关知识点。 首先,我们要了解网络爬虫的基本结构。一个简单...

    Java网络爬虫源代码

    9. **错误处理与重试机制**:网络爬虫在运行过程中可能会遇到各种异常,如网络中断、服务器错误等,合理的错误处理和重试机制是必要的。 10. **日志记录**:为了便于调试和监控,爬虫程序应该记录详细的执行日志,...

Global site tag (gtag.js) - Google Analytics