`

文本文件中获取http链接

 
阅读更多
#!/usr/bin/python2.7  
#coding=utf-8


import sys
import MySQLdb
import time
import hashlib
import datetime
import json
import urllib2
import httplib,urllib
import zim

reload(sys)
sys.setdefaultencoding('utf-8')
del sys.setdefaultencoding
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))

listtags = []
for i in range(97,123):

   listtags.append(chr(i))
   listtags.append(str(chr(i)).upper())

for i in range(0,10):

   listtags.append(str(i))

listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));


def visit_oapi(purl):


    response = urllib2.urlopen(purl)
    html = response.read()
    #print html

conn = MySQLdb.connect(host='10.13.81.11', user='portal',passwd='portal@sohu', db='smc_user', port=3306, charset='utf8')
cur =conn.cursor()
sql = "select passport from tbl_passport_bind_status WHERE  app_id =1 ORDER BY id DESC LIMIT 3000"
cur.execute(sql)
uids = cur.fetchall()

url = "http://internal.passport.sohu.com/openlogin/api/timeline/home";
appkey = 'f@JclHjuQ`DORG<f0,OqS/Q(Lpp4&G'
appid = '1106'

for id in uids:
    #print id[0]
        userid = str(id[0])
        ct = str(str(time.time()).split('.')[0])
        code = hashlib.md5(userid+appid+appkey+ct).hexdigest()   
        dicts={}
   
        dicts['userid'] = userid
        dicts['openid'] = userid
        dicts['ct'] = ct

        dicts['code'] = code
        dicts['appid'] = appid

  
        sjson = json.dumps(dicts)
        print sjson
        purl = url +'?json='+ sjson
        visit_oapi(url)
        req = urllib2.Request(url, sjson)
        response = urllib2.urlopen(req)
        the_page = response.read()   
        zim.getHttp(the_page,userid)
        #print the_page

--------------------------------------------------

#!/usr/bin/python
#coding=utf-8


import string

listtags = []
for i in range(97,123):

   listtags.append(chr(i))
   listtags.append(str(chr(i)).upper())

for i in range(0,10):

   listtags.append(str(i))

listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));
def writeFile(userid, listlink):
        fileWriteObj = open("output.txt", 'w')
        for i in listlink:
            fileWriteObj.write(userid+'\t'+i+'\n')
        fileWriteObj.close() 
           
def getHttp(content,userid):
        
        listlinks = []
        content =  string.lower(content)
        inx = string.find(content,'http',0,len(content))
        while inx>0:
                links =""
                hindex = inx+len('http')
                content = content[hindex:]
                i=0
                while i < len(content):
                     chars  =  str(content[i])
                     if chars in listtags:
                           links+=chars
                           i+=1
                     else:
                          print links
                          inx = string.find(content,'http',0,len(content))
                          if string.find(links,'www') < 0:
                                if(isHttpLink('http'+links)):
                                      listlinks.append('http'+links)
                          break
        writeFile(userid,listlinks)
import urllib2
import httplib,urllib
def isHttpLink(url):
  try:
    response = urllib2.urlopen(url)
    html = response.read()
    i = string.find(html,'<title>搜狐新闻客户端-首页</title>')
    j = string.find(html,'你访问的页面地址有误')
    if i > 0 or j >0:
          print ' you are is bad ...........',url
          return True
  except Exception, e:
          print ' you are is error! ...........',url
  return False

if __name__ == '__main__':

      stra = 'sssgsdgdfhttp://w353.5345中哦噶诺..http://sfjsdlfkjs77888)i'
      getHttp(stra,'werw')
分享到:
评论

相关推荐

    去掉html中的链接后写到文本文件中 (41KB)

    标题和描述中提到的任务是将HTML文件中的链接去掉,然后将处理后的文本保存到新的文本文件中。这个过程涉及到HTML解析、字符串处理以及文件操作等技术。以下是对这些知识点的详细说明: 1. **HTML解析**:HTML...

    文本文件转换音频文件

    - **读取文本文件**:使用`ifstream`打开并读取指定路径的文本文件。 - **文本转语音**:通过调用`CoCreateInstance`创建`ISpVoice`对象,并使用`Speak`方法将字符串转换为语音。 - **输出音频文件**:将生成的语音...

    linux-vl在文本文档中的URL链接检查器CLI

    VL通过读取文本文件,使用正则表达式提取URL,然后发送HTTP请求来验证链接的有效性。根据服务器的响应,它判断链接是否可以成功访问。 应用场景: 1. **内容审核**:在发布博客文章、报告或电子书前,确保其中的...

    易语言源码提取文件中的超级链接.rar

    6. 输出展示:提取出的链接可能需要展示在控制台、日志文件或者用户界面中,这就涉及到输出函数的使用,如“窗口控件文本设置”等。 通过学习和理解这个源码示例,你将能够掌握从文件中提取超级链接的基本步骤和...

    C++逐行读取文本文件

    在C++编程中,逐行读取文本文件是一项常见的任务,尤其在处理大量数据或进行数据分析时。这里我们将深入探讨如何使用C++实现这个功能,以及涉及到的相关知识点。 首先,我们要知道C++提供了多种方法来读取文本文件...

    提取文件中的超级链接.rar

    4. **文本文件**:简单的文本文件中可能包含URL,需要使用正则表达式来识别和提取。 5. **电子邮件**:电子邮件文件(如.eml格式)可能含有超链接。可以使用email库(Python)来解析邮件内容并找到链接。 6. **源...

    .NET生成PDF 读取PDF文本内容 获取PDF内图片

    在.NET开发环境中,生成PDF、读取PDF文本内容以及获取PDF内的图片是常见的需求,尤其在文档处理和报告生成的应用中。本文将详细介绍如何利用C#进行这些操作,并提供相关库和技术的概述。 首先,生成PDF文件在.NET中...

    文本文件解析对象

    文本文件解析对象是编程中处理文本数据的重要工具,主要用于读取、分析和操作文本文件中的内容。在不同的编程环境中,有各种不同的库和模块来支持这样的功能。在本例中,我们提到了与文本文件解析相关的几个文件,...

    超大文本查看器,可以打开txt、log等大文件

    6. **资源链接**:压缩包内的"超大txt文本文件查看编辑器ltfviewr下载 V5.2绿色版_ - pc6下载站.url"可能是一个下载链接,用户可以通过这个链接获取软件的最新版本或者获取更多的使用教程和帮助信息。 在实际应用中...

    codesys读取文件txt 百分百好使

    博客链接提供了具体的示例代码和详细步骤,可以参考该博客深入学习如何在CODESYS环境中实现TXT文件的读取。对于初学者来说,理解并实践这些步骤是掌握CODESYS文件操作的关键。 总的来说,理解并熟练运用CODESYS的...

    去掉html中的链接后写到文本文件中 (41KB)...

    标题和描述中提到的任务是将HTML文件中的链接去掉,然后将处理后的文本保存到一个新的文本文件中。这个过程涉及到HTML解析、字符串处理和文件操作等技术。以下是对这些知识点的详细解释: 1. **HTML解析**:HTML...

    文本批量插入链接

    【标题】:“文本批量插入链接”这一主题主要涉及的是在大量文本内容中自动化地添加超链接,这在网站管理、内容发布或者SEO优化等场景中非常常见。批量处理文本能够大大提高工作效率,尤其对于那些需要对文章库进行...

    易语言提取文件中的超级链接

    易语言提供了“打开文件”和“读取文件”等命令,可以用来读取文本文件的内容。对于不同类型的文件,如HTML、PDF、Word文档等,可能需要使用不同的读取方式和库支持。 2. 文本解析:获取文件内容后,你需要解析文本...

    LabVIEW以电子表格形式快速读取文本最后一行.zip

    2. **文本读取**:在LabVIEW中,读取文本文件通常涉及使用“打开文件”函数,然后使用“读取文件”函数来获取文件内容。在这个特定的案例中,程序可能首先打开文本文件,然后逐行读取,直到到达文件末尾。 3. **...

    【更新代码】将源文件读入matlab后二进制输出到文本文件

    这个【更新代码】涉及的正是如何将源文件读入MATLAB,然后以二进制格式输出到文本文件。以下是对这个过程的详细解释: 首先,我们需要理解二进制文件和文本文件的区别。二进制文件是以机器可读的格式存储数据,每个...

    提取文件中百度云链接与提取码的java源码

    4. **提取数据**:遍历选取的元素,使用`.text()`方法获取文本内容,即链接和提取码。 5. **处理链接**:对于每个链接,可能需要进一步解析,例如,链接可能是加密的短链接,需要通过HTTP请求解密成实际的下载地址。...

    从XPS文件中获取文字或图片

    图片在XPS文件中通常作为单独的资源存储,链接到pages.xml中。要获取图片,我们需要查找图片的URI,然后读取对应的包部分。以下是一个提取图片的C#代码片段: ```csharp // 获取图片元素 foreach (var image in ...

    mapreduce案例文本文件.zip

    在标题“mapreduce案例文本文件.zip”中,我们可以推测这是一个包含MapReduce实际操作案例的压缩包。通常,这样的案例会包含一系列的文本文件,这些文件可能用于演示如何使用MapReduce处理和分析数据。例如,这些...

    python标记文本文件为html文件

    1. **打开和读取文本文件**:使用Python内置的`open()`函数以读取模式打开文本文件,然后使用`read()`或`readlines()`方法获取文件内容。例如: ```python with open('input.txt', 'r') as f: text = f.read() `...

Global site tag (gtag.js) - Google Analytics