网络爬虫与信息提取
如果想要爬取的网站不允许通过python等工具提取信息,可以通过如下方法提取
import requests
url = "网站链接"
try:
kv = {'user-agent':'Mozilla/5.0'} // Mozilla/5.0 是标准的浏览器,此处是将 user-agent 里的替换成 Mozilla/5.0.
r = requests.get(url,headers=kv) //
r.raise_for_status()
r.encoding = r.apparent_encoding
print("r.text[:1000]")
except:
print (''爬取失败")
注意 向服务器发出请求的报文头部。
r.request.headers
{'User-Agent': 'python-requests/2.18.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
经过 kv = {'user-agent':'Mozilla/5.0'} 替换为
r.request.headers
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
---
转载请注明本文标题和链接:《网络爬虫与信息提取》