python爬虫基础--------urllib模块的安装和简单使用

admin 9171 2025-07-19 05:05:57

好久不见,我的各位读者,好久没更新文章了,大家等急了吧,好了,今天我们学习一点厉害的,也是我当初一直念念不忘的----python爬虫。

讲到爬虫,大家就可以联想到各种网站数据,大家注意,爬虫一定要小心爬。好了,废话不多说了,我们开始学习。

urllib模块的安装和使用

1.模块的安装

windows可以使用下列命令进行安装

pip install urllib

2.模块的使用

urlopen函数的使用

from urllib import request

#导入模块

url = 'https://baidu.com'

req = request.urlopen(url)

#使用urlopen访问网页

print(req.read().decode('utf8'))

#打印网页源代码

Request函数的使用

现在不是所有的网站都可以使用上面那种方法来获取网页源代码,下面讲的这个可以通过设置请求头来绕过服务器的识别。

from urllib import request

url = 'http://www.qiushibaike.com'

req = request.Request(url, headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0'

})

res = request.urlopen(req)

print(res.read().decode('utf8'))

3.bulid_opener函数

from urllib import request

import random

from urllib.request import build_opener,ProxyHandler

# User_Agent列表

user_agent_list = [

"Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",

"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",

"Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",

"Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",

"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",

"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)"

]

# 产生一个随机User-Agent

headers ={

# 从上面列表中随机取出一个

# random.choice:从一个不为空的课表里面随机取出一个

'User-Agent':random.choice(user_agent_list)

}

# ip地址列表:

ip_list=[

# '209.97.171.128',

'114.250.25.19'

]

# 产生一个随机ip

proxies={

'http':random.choice(ip_list)

}

url = 'http://www.qiushibaike.com/'

req = request.Request(url,headers=headers)

# 创建代理ip对象

print(proxies)

pro_supper = ProxyHandler(proxies)

# 不能使用urlopen()函数,使用build_opener创建一个对象

opener = build_opener(pro_supper)

# 发送请求

res = opener.open(req)

result = res.read().decode('utf8')

print(result)

好了,今天先学到这里,以后我们会有更多的东西要学习

上一篇
下一篇
相关文章