python爬虫urllib模块url编码处理详解-创新互联
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)
成都创新互联基于分布式IDC数据中心构建的平台为众多户提供棕树数据中心 四川大带宽租用 成都机柜租用 成都服务器租用。import urllib.request # 1.指定url url = 'https://www.sogou.com/web?query=周杰伦' ''' 2.发起请求:使用urlopen函数对指定的url发起请求, 该函数返回一个响应对象,urlopen代表打开url ''' response = urllib.request.urlopen(url=url) # 3.获取响应对象中的页面数据:read函数可以获取响应对象中存储的页面数据(byte类型的数据值) page_text = response.read() # 4.持久化存储:将爬取的页面数据写入文件进行保存 with open("sougou.html","wb") as f: f.write(page_text) print("写入数据成功") f.close()
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
名称栏目:python爬虫urllib模块url编码处理详解-创新互联
文章来源:http://scjbc.cn/article/dpshii.html