网络爬虫与信息提取 - 慕轲博客-建立自己的个人自媒体博客

网络爬虫与信息提取

如果想要爬取的网站不允许通过python等工具提取信息，可以通过如下方法提取

import requests

url = "网站链接"

try:

kv = {'user-agent':'Mozilla/5.0'} // Mozilla/5.0 是标准的浏览器，此处是将 user-agent 里的替换成 Mozilla/5.0.

r = requests.get(url,headers=kv) //

r.raise_for_status()

r.encoding = r.apparent_encoding

print("r.text[:1000]")

except:

print (''爬取失败")

注意向服务器发出请求的报文头部。

r.request.headers

{'User-Agent': 'python-requests/2.18.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

经过 kv = {'user-agent':'Mozilla/5.0'} 替换为

r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

---

转载请注明本文标题和链接：《网络爬虫与信息提取》