- 浏览: 154074 次
- 性别:
- 来自: 深圳
文章分类
最新评论
-
lyaqys:
lz实现的OptimisticExclusiveLock有点问 ...
java park/unpark 【java并发】基于JUC CAS原理,自己实现简单独占锁
#!/usr/bin/python2.7
#coding=utf-8
import sys
import MySQLdb
import time
import hashlib
import datetime
import json
import urllib2
import httplib,urllib
import zim
reload(sys)
sys.setdefaultencoding('utf-8')
del sys.setdefaultencoding
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
listtags = []
for i in range(97,123):
listtags.append(chr(i))
listtags.append(str(chr(i)).upper())
for i in range(0,10):
listtags.append(str(i))
listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));
def visit_oapi(purl):
response = urllib2.urlopen(purl)
html = response.read()
#print html
conn = MySQLdb.connect(host='10.13.81.11', user='portal',passwd='portal@sohu', db='smc_user', port=3306, charset='utf8')
cur =conn.cursor()
sql = "select passport from tbl_passport_bind_status WHERE app_id =1 ORDER BY id DESC LIMIT 3000"
cur.execute(sql)
uids = cur.fetchall()
url = "http://internal.passport.sohu.com/openlogin/api/timeline/home";
appkey = 'f@JclHjuQ`DORG<f0,OqS/Q(Lpp4&G'
appid = '1106'
for id in uids:
#print id[0]
userid = str(id[0])
ct = str(str(time.time()).split('.')[0])
code = hashlib.md5(userid+appid+appkey+ct).hexdigest()
dicts={}
dicts['userid'] = userid
dicts['openid'] = userid
dicts['ct'] = ct
dicts['code'] = code
dicts['appid'] = appid
sjson = json.dumps(dicts)
print sjson
purl = url +'?json='+ sjson
visit_oapi(url)
req = urllib2.Request(url, sjson)
response = urllib2.urlopen(req)
the_page = response.read()
zim.getHttp(the_page,userid)
#print the_page
--------------------------------------------------
#!/usr/bin/python
#coding=utf-8
import string
listtags = []
for i in range(97,123):
listtags.append(chr(i))
listtags.append(str(chr(i)).upper())
for i in range(0,10):
listtags.append(str(i))
listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));
def writeFile(userid, listlink):
fileWriteObj = open("output.txt", 'w')
for i in listlink:
fileWriteObj.write(userid+'\t'+i+'\n')
fileWriteObj.close()
def getHttp(content,userid):
listlinks = []
content = string.lower(content)
inx = string.find(content,'http',0,len(content))
while inx>0:
links =""
hindex = inx+len('http')
content = content[hindex:]
i=0
while i < len(content):
chars = str(content[i])
if chars in listtags:
links+=chars
i+=1
else:
print links
inx = string.find(content,'http',0,len(content))
if string.find(links,'www') < 0:
if(isHttpLink('http'+links)):
listlinks.append('http'+links)
break
writeFile(userid,listlinks)
import urllib2
import httplib,urllib
def isHttpLink(url):
try:
response = urllib2.urlopen(url)
html = response.read()
i = string.find(html,'<title>搜狐新闻客户端-首页</title>')
j = string.find(html,'你访问的页面地址有误')
if i > 0 or j >0:
print ' you are is bad ...........',url
return True
except Exception, e:
print ' you are is error! ...........',url
return False
if __name__ == '__main__':
stra = 'sssgsdgdfhttp://w353.5345中哦噶诺..http://sfjsdlfkjs77888)i'
getHttp(stra,'werw')
#coding=utf-8
import sys
import MySQLdb
import time
import hashlib
import datetime
import json
import urllib2
import httplib,urllib
import zim
reload(sys)
sys.setdefaultencoding('utf-8')
del sys.setdefaultencoding
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
listtags = []
for i in range(97,123):
listtags.append(chr(i))
listtags.append(str(chr(i)).upper())
for i in range(0,10):
listtags.append(str(i))
listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));
def visit_oapi(purl):
response = urllib2.urlopen(purl)
html = response.read()
#print html
conn = MySQLdb.connect(host='10.13.81.11', user='portal',passwd='portal@sohu', db='smc_user', port=3306, charset='utf8')
cur =conn.cursor()
sql = "select passport from tbl_passport_bind_status WHERE app_id =1 ORDER BY id DESC LIMIT 3000"
cur.execute(sql)
uids = cur.fetchall()
url = "http://internal.passport.sohu.com/openlogin/api/timeline/home";
appkey = 'f@JclHjuQ`DORG<f0,OqS/Q(Lpp4&G'
appid = '1106'
for id in uids:
#print id[0]
userid = str(id[0])
ct = str(str(time.time()).split('.')[0])
code = hashlib.md5(userid+appid+appkey+ct).hexdigest()
dicts={}
dicts['userid'] = userid
dicts['openid'] = userid
dicts['ct'] = ct
dicts['code'] = code
dicts['appid'] = appid
sjson = json.dumps(dicts)
print sjson
purl = url +'?json='+ sjson
visit_oapi(url)
req = urllib2.Request(url, sjson)
response = urllib2.urlopen(req)
the_page = response.read()
zim.getHttp(the_page,userid)
#print the_page
--------------------------------------------------
#!/usr/bin/python
#coding=utf-8
import string
listtags = []
for i in range(97,123):
listtags.append(chr(i))
listtags.append(str(chr(i)).upper())
for i in range(0,10):
listtags.append(str(i))
listtags.append(str('/'));
listtags.append(str('.'));
listtags.append(str(':'));
def writeFile(userid, listlink):
fileWriteObj = open("output.txt", 'w')
for i in listlink:
fileWriteObj.write(userid+'\t'+i+'\n')
fileWriteObj.close()
def getHttp(content,userid):
listlinks = []
content = string.lower(content)
inx = string.find(content,'http',0,len(content))
while inx>0:
links =""
hindex = inx+len('http')
content = content[hindex:]
i=0
while i < len(content):
chars = str(content[i])
if chars in listtags:
links+=chars
i+=1
else:
print links
inx = string.find(content,'http',0,len(content))
if string.find(links,'www') < 0:
if(isHttpLink('http'+links)):
listlinks.append('http'+links)
break
writeFile(userid,listlinks)
import urllib2
import httplib,urllib
def isHttpLink(url):
try:
response = urllib2.urlopen(url)
html = response.read()
i = string.find(html,'<title>搜狐新闻客户端-首页</title>')
j = string.find(html,'你访问的页面地址有误')
if i > 0 or j >0:
print ' you are is bad ...........',url
return True
except Exception, e:
print ' you are is error! ...........',url
return False
if __name__ == '__main__':
stra = 'sssgsdgdfhttp://w353.5345中哦噶诺..http://sfjsdlfkjs77888)i'
getHttp(stra,'werw')
发表评论
-
python 安装 pip beautifulsoup4
2013-10-25 17:50 1253pip 安装: yum install python-setu ... -
探索 Pexpect,第 2 部分:Pexpect 的实例分析
2013-08-19 11:08 1721原文: http://www.ibm.com/develope ... -
CentOS升级Python到2.7版本
2013-04-23 15:24 945[root@localhost ~] python -V ... -
Scrapy 基础(1)
2013-04-07 18:26 894Python开源抓取框架简单 ... -
安装Python-PIP,MySQL-python
2013-04-07 18:22 1504sudo yum install MySQL-python ... -
redis-python
2013-04-05 03:04 799#!/usr/bin/env python #coding=u ... -
python http客户端
2013-03-18 16:01 743''' Created on 2013-3-18 @auth ... -
python crontab 传送文件
2013-03-11 17:19 72610 9,12,18 * * * /usr/local/bin ... -
crontab中运行python程序出错,提示ImportError: No module named解决全过程
2013-03-11 16:18 1241原文地址:http://blog.csdn.net/langl ... -
python 使用本地时区
2013-03-06 18:11 759def getEpubInfo(self): ... -
python修改文件
2013-02-20 14:08 6801 #!/usr/bin/env python 2 # ... -
shutil 复制,移除,数据的model
2012-12-10 16:40 8331 #!/usr/bin/env python 2 i ... -
简单的文件出来
2012-12-05 21:24 7131 #!/usr/bin/env python 2 # ... -
shelve python 的一个简易数据库包和hashlib生产md5加密的包
2012-12-05 21:00 1121#!/usr/bin/python #coding=utf-8 ... -
获取文件大小,用户名,平台
2012-11-20 14:10 690#coding=utf-8 ''' Created on ...
相关推荐
标题和描述中提到的任务是将HTML文件中的链接去掉,然后将处理后的文本保存到新的文本文件中。这个过程涉及到HTML解析、字符串处理以及文件操作等技术。以下是对这些知识点的详细说明: 1. **HTML解析**:HTML...
- **读取文本文件**:使用`ifstream`打开并读取指定路径的文本文件。 - **文本转语音**:通过调用`CoCreateInstance`创建`ISpVoice`对象,并使用`Speak`方法将字符串转换为语音。 - **输出音频文件**:将生成的语音...
VL通过读取文本文件,使用正则表达式提取URL,然后发送HTTP请求来验证链接的有效性。根据服务器的响应,它判断链接是否可以成功访问。 应用场景: 1. **内容审核**:在发布博客文章、报告或电子书前,确保其中的...
6. 输出展示:提取出的链接可能需要展示在控制台、日志文件或者用户界面中,这就涉及到输出函数的使用,如“窗口控件文本设置”等。 通过学习和理解这个源码示例,你将能够掌握从文件中提取超级链接的基本步骤和...
在C++编程中,逐行读取文本文件是一项常见的任务,尤其在处理大量数据或进行数据分析时。这里我们将深入探讨如何使用C++实现这个功能,以及涉及到的相关知识点。 首先,我们要知道C++提供了多种方法来读取文本文件...
4. **文本文件**:简单的文本文件中可能包含URL,需要使用正则表达式来识别和提取。 5. **电子邮件**:电子邮件文件(如.eml格式)可能含有超链接。可以使用email库(Python)来解析邮件内容并找到链接。 6. **源...
文本文件解析对象是编程中处理文本数据的重要工具,主要用于读取、分析和操作文本文件中的内容。在不同的编程环境中,有各种不同的库和模块来支持这样的功能。在本例中,我们提到了与文本文件解析相关的几个文件,...
在.NET开发环境中,生成PDF、读取PDF文本内容以及获取PDF内的图片是常见的需求,尤其在文档处理和报告生成的应用中。本文将详细介绍如何利用C#进行这些操作,并提供相关库和技术的概述。 首先,生成PDF文件在.NET中...
博客链接提供了具体的示例代码和详细步骤,可以参考该博客深入学习如何在CODESYS环境中实现TXT文件的读取。对于初学者来说,理解并实践这些步骤是掌握CODESYS文件操作的关键。 总的来说,理解并熟练运用CODESYS的...
标题和描述中提到的任务是将HTML文件中的链接去掉,然后将处理后的文本保存到一个新的文本文件中。这个过程涉及到HTML解析、字符串处理和文件操作等技术。以下是对这些知识点的详细解释: 1. **HTML解析**:HTML...
6. **资源链接**:压缩包内的"超大txt文本文件查看编辑器ltfviewr下载 V5.2绿色版_ - pc6下载站.url"可能是一个下载链接,用户可以通过这个链接获取软件的最新版本或者获取更多的使用教程和帮助信息。 在实际应用中...
【标题】:“文本批量插入链接”这一主题主要涉及的是在大量文本内容中自动化地添加超链接,这在网站管理、内容发布或者SEO优化等场景中非常常见。批量处理文本能够大大提高工作效率,尤其对于那些需要对文章库进行...
易语言提供了“打开文件”和“读取文件”等命令,可以用来读取文本文件的内容。对于不同类型的文件,如HTML、PDF、Word文档等,可能需要使用不同的读取方式和库支持。 2. 文本解析:获取文件内容后,你需要解析文本...
2. **文本读取**:在LabVIEW中,读取文本文件通常涉及使用“打开文件”函数,然后使用“读取文件”函数来获取文件内容。在这个特定的案例中,程序可能首先打开文本文件,然后逐行读取,直到到达文件末尾。 3. **...
这个【更新代码】涉及的正是如何将源文件读入MATLAB,然后以二进制格式输出到文本文件。以下是对这个过程的详细解释: 首先,我们需要理解二进制文件和文本文件的区别。二进制文件是以机器可读的格式存储数据,每个...
4. **提取数据**:遍历选取的元素,使用`.text()`方法获取文本内容,即链接和提取码。 5. **处理链接**:对于每个链接,可能需要进一步解析,例如,链接可能是加密的短链接,需要通过HTTP请求解密成实际的下载地址。...
图片在XPS文件中通常作为单独的资源存储,链接到pages.xml中。要获取图片,我们需要查找图片的URI,然后读取对应的包部分。以下是一个提取图片的C#代码片段: ```csharp // 获取图片元素 foreach (var image in ...
在标题“mapreduce案例文本文件.zip”中,我们可以推测这是一个包含MapReduce实际操作案例的压缩包。通常,这样的案例会包含一系列的文本文件,这些文件可能用于演示如何使用MapReduce处理和分析数据。例如,这些...
1. **打开和读取文本文件**:使用Python内置的`open()`函数以读取模式打开文本文件,然后使用`read()`或`readlines()`方法获取文件内容。例如: ```python with open('input.txt', 'r') as f: text = f.read() `...