python爬虫快速入门 网络爬虫python实例


强调一下,我并不是一个程序员,因为最近需要去爬某个网站的信息写的这个程序 。程序中有很多不规范的地方,也没用运用函数 。只适合有简单爬虫需要的人参考 。数据量大的时候采集速度很慢 。
也希望有大佬能优化一下 。
程序是基于python3的
import urllib.request
import re
import xlwt
workbook = xlwt.Workbook(encoding = \'ascii\') #这里是创建一个excel把爬取到的数据储存到表格中
worksheet = workbook.add_sheet(\'My Worksheet\') #在excel中创建一个表单
style = xlwt.XFStyle() # 初始化样式
font = xlwt.Font() # 为样式创建字体
font.name = \'Times New Roman\'
font.bold = True # 黑体
font.underline = True # 下划线
font.italic = True # 斜体字
style.font = font # 设定样式
# with open(\'cal.txt\',\'r\') as f: # 读取txt生成列表 这里是在我爬去了全部数据后筛选的一些对我有用的页面信息编码
# line = f.read().strip()
# linestr = line.split("\n")
count = 135
while (count < 9300):
try:
u = "http://****************/" #url前缀
url=(u +str(count))
header = {"User-Agent": "Mozilla5.0 (Windows NT 6.1; WOW64; rv:59.0) Gecko/20100101 Firefox/59.0"} #这个头是我复制粘贴的 就带着就好了不用改
request = urllib.request.Request(url, headers=header) #请求网页
response = urllib.request.urlopen(request,timeout=60) #timeout设置超时的时间,防止出现访问超时问题
# 取出json文件里的内容,返回的格式是字符串
html = response.read()
# 把json形式的字符串转换成python形式的Unicode字符串,unicodestr为数组
html = html.decode("UTF-8",)
reg1 = re.compile(r\'<span class="c-333 fsize24">(.*?)</span>\')
reg = re.compile(r\'<tt class="c-666 fsize19 vam f-fM">投票(.*?)</tt>\')
url1 = re.findall(reg1, html)
url = re.findall(reg, html)
print(\'序号:\', count, \'作品编号\', str(count), \'作品名:\', url1, \'得票数:\', url)
worksheet.write(count, 0, count) # 第一行第一列
worksheet.write(count, 1, url1) # 第二行第二列
worksheet.write(count, 2, url) # 第二行第二列
workbook.save(\'**********.xls\') # 保存文件
count += 1
except Exception as e:
【python爬虫快速入门 网络爬虫python实例】 print(\'a\', str(e))


    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。