python网络数据采集,pdf,百度云

|学习资料   |

【www.yin56.com--学习资料】

用python编写网络爬虫
篇一:python网络数据采集,pdf,百度云

刚刚开了一个《计算机网络》的课,觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序,正好能用上课上的知识了。为了想作一个效率不差的,而下载网页的性能瓶颈是在网络上,所有决定用Python编写代码。刚学python没几天,学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫,并用py2exe生成了一个exe,自身觉得py2exe不太好,又不会更好的,只能......

这是我这些天的成果。希望有人能提出好的建议,先谢谢了!一共两个文件,一个是toolbox_insight.py,是一个工具文件另一个是test.py,是一个用到toolbox_insight.py中工具的测试文件

#FileName: toolbox_insight.py

from sgmllib import SGMLParser

import threading

import time

import urllib2

import StringIO

import gzip

import string

import os

#rewrite SGMLParser for start_a

class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url中。

def reset(self):

self.url = []

SGMLParser.reset(self)

def start_a(self, attrs):

href = [v for k, v in attrs if k == 'href']

if href:

self.url.extend(href)

#for quickly finding

class Newlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中,返回True,当不在LIST中,返回False并把num按二分法插入LIST中

def find(self, num):

l = len(self)

first = 0

end = l - 1

mid = 0

if l == 0:

self.insert(0,num)

return False

while first < end:

mid = (first + end)/2

if num > self[mid]:

first = mid + 1

elif num < self[mid]:

end = mid - 1

else:

break

if first == end:

if self[first] > num:

self.insert(first, num)

return Falsepython网络数据采集,pdf,百度云。

elif self[first] < num:

self.insert(first + 1, num)

return False

else:

return True

elif first > end:

self.insert(first, num)

return False

else:

return True

#下面的reptile顾名思义是一个爬虫

class reptile(threading.Thread):

#Name: 是爬虫是名字,queue是任务队列,所有的爬虫共用同一个任务队列 #从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL

#result: 也是一个队列,将下载的网页中包含的URL放入该队列中

#inittime: 在本程序中没有用,只是一个为了以后扩展用的 #downloadway:是下载的网页存放的路径 #configfile: 是配置文件,存放网页的URL和下载下后的路径 #maxnum: 每个爬虫有个最大下载量,当下载了这么多网页后,爬虫dead

def __init__(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = 'D:\\bbs\\',configfile = 'D:\\bbs\\conf.txt', maxnum = 10000):

threading.Thread.__init__(self, name = Name)

python网络数据采集,pdf,百度云。

self.queue = queue

self.result = result

self.Flcok = Flcok

self.inittime = inittime

self.mainway = downloadway

self.configfile = configfile

self.num = 0 #已下载的网页个数

self.maxnum = maxnum

os.makedirs(downloadway + self.getName()) #系统调用:在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹

self.way = downloadway + self.getName() + '\\'python网络数据采集,pdf,百度云。

def run(self):

opener = urllib2.build_opener() #创建一个开启器

while True:

url = self.queue.get() #从队列中取一个URL

if url == None: #当取得一个None后表示爬虫结束工作,用

于外部方便控制爬虫的生命期

break

parser = Basegeturls() #创建一个网页分析器

request = urllib2.Request(url) #网页请求

request.add_header('Accept-encoding', 'gzip')#下载的方式是gzip压缩后的网页,gzip是大多数服务器支持的一种格式

try: #这样可以减轻网络压力 page = opener.open(request)#发送请求报文

if page.code == 200: #当请求成功

predata = page.read() #下载gzip格式的网页

pdata = StringIO.StringIO(predata)#下面6行是实现解压缩

gzipper = gzip.GzipFile(fileobj = pdata)

try:

data = gzipper.read()

except(IOError):

print 'unused gzip'

data = predata#当有的服务器不支持gzip格式,那么下载的就是网页本身

try:

parser.feed(data)#分析网页

except:

print 'I am here'#有的网页分析不了,如整个网页就是一个图片 for item in parser.url:

self.result.put(item)#分析后的URL放入队列中

way = self.way + str(self.num) + '.html'#下面的是网页的保存,不多说了

self.num += 1

file = open(way, 'w')

file.write(data)

file.close()

self.Flcok.acquire()

confile = open(self.configfile, 'a')

confile.write( way + ' ' + url + '\n')

confile.close()

self.Flcok.release()

page.close()

if self.num >= self.maxnum:#达到最大量后退出

break

except:

print 'end error'

#和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页

class proinsight(threading.Thread):

def __init__(self, queue, list, homepage, inqueue):

threading.Thread.__init__(self)

self.queue = queue#和爬虫中的result队列是同一个

self.list = list#是上面Newlist的对象

self.homepage = homepage#主页

self.inqueue = inqueue#处理完后的URL的去处

def run(self):

length = len(self.homepage)

while True:

item = self.queue.get()

if item == None:

break

if item[0:4] == '\r\n':

item = item[4:]

if item[-1] == '/':

item = item[:-1]

if len(item) >= len('and item[0:7] == '

if len(item) >= length and item[0:length] == self.homepage: if self.list.find(item) == False:

self.inqueue.put(item)

elif item[0:5] == '/java' or item[0:4] == 'java':

pass

else:

if item[0] != '/':

item = '/' + item

item = self.homepage + item

if self.list.find(item) == False:python网络数据采集,pdf,百度云。

self.inqueue.put(item)

下面的是一个主函数过程

我下载的网站是

开始网页是

#FileName:test

from toolbox_insight import *

from Queue import Queue

import threading

import sys

num = int(raw_input('Enter the number of thread:'))

pnum = int(raw_input('Enter the number of download pages:'))

mainpage = str(raw_input('The mainpage:'))

startpage = str(raw_input('Start page:'))

queue = Queue()

key = Queue()

inqueue = Queue()

list = Newlist()

thlist = []

Flock = threading.RLock()

for i in range(num):

th = reptile('th' + str(i), queue, key, Flock)

thlist.append(th)

pro = proinsight(key, list, mainpage, inqueue)

pro.start()

for i in thlist:

i.start()

queue.put(startpage)

for i in range(pnum):

queue.put(inqueue.get())

for i in range(num):

queue.put(None)

个人觉得用wxpython来实现用户界面和用数据库知识查找URL是更好的扩展方向 原文地址:


传智播客python百度云

本文来源:http://www.yin56.com/zhuanti/89259/

    热门推荐
    • 四史专题学习资料(合集4篇)

      历史是最好的教科书,党史就是一部生动的爱国主义教材,中国共产党的奋斗中形成的伟大革命精神及民族精神,正是中华民族生命力和凝聚力的重要体现,鼓舞和激励着中华儿女实现中华民族伟大复兴的道路上坚持走下去,共同经历非凡奋斗,共同创造美好未来。以下是小编为大家收集的四史专题学习资料(合集4篇),仅供参考,欢迎

    • 学思践悟新思想砥砺奋进新征程主题党日学习资料范文(精选四篇)

      《征程》是由网青春梦网信息科技有限公司进行运营的网络游戏,以架空的西方奇幻世界为故事背景,是一款3D的即时战斗MMORPG。下面是小编为大家整理的学思践悟新思想砥砺奋进新征程主题党日学习资料范文(精选四篇),欢迎大家借鉴与参考,希望对大家有所帮助。

    • 党员学习资料精选五篇

      党员,即政党的成员,是赞同某党的纲领和政策、遵守党章、自愿加入该党的成员。党员是构成政党的基石和细胞。以下是小编为大家收集的党员学习资料精选五篇,仅供参考,欢迎大家阅读。

    • 党员学习资料【3篇】

      党员,即政党的成员,是赞同某党的纲领和政策、遵守党章、自愿加入该党的成员。以下是小编整理的党员学习资料【3篇】,仅供参考,大家一起来看看吧。

    • 党员学习资料范文四篇

      党员,即政党的成员,是赞同某党的纲领和政策、遵守党章、自愿加入该党的成员。以下是为大家整理的党员学习资料范文四篇,欢迎品鉴!

    • 农村党员学习资料十二篇

      党员,即政党的成员,是赞同某党的纲领和政策、遵守党章、自愿加入该党的成员。以下是为大家整理的农村党员学习资料十二篇,欢迎品鉴!

    • 2023年党课学习资料锦集五篇

      四史,分别是《史记》《汉书》《后汉书》和《三国志》,属于二十四正史中的前四部书。以下是小编为大家收集的2023年党课学习资料锦集五篇,仅供参考,欢迎大家阅读。

    • 关于榜样七观看心得体会学习资料【八篇】

      下面是小编为大家整理的关于榜样七观看心得体会学习资料【八篇】,欢迎大家借鉴与参考,希望对大家有所帮助。