python爬虫入门---第一篇:获取某一网站所有超链接
需要先安装requests库和bs4库 bs4 <span style="color: #0000ff">def<span style="color: #000000"> getHTMLText(url):<span style="color: #0000ff">try<span style="color: #000000">: <span style="color: #008000">#<span style="color: #008000">获取服务器的响应内容,并设置最大请求时间为6秒 res = requests.get(url,timeout = 6<span style="color: #000000">) <span style="color: #008000">#<span style="color: #008000">判断返回状态码是否为200 <span style="color: #000000"> res.raise_for_status() <span style="color: #008000">#<span style="color: #008000">设置真正的编码 res.encoding =<span style="color: #000000"> res.apparent_encoding <span style="color: #008000">#<span style="color: #008000">返回网页HTML代码 <span style="color: #0000ff">return<span style="color: #000000"> res.text <span style="color: #0000ff">except<span style="color: #000000">: <span style="color: #0000ff">return <span style="color: #800000">'<span style="color: #800000">产生异常<span style="color: #800000">' <span style="color: #008000">#<span style="color: #008000">目标网页 demo =<span style="color: #000000"> getHTMLText(url) <span style="color: #008000">#<span style="color: #008000">解析HTML代码 <span style="color: #008000">#<span style="color: #008000">模糊搜索HTML代码的所有标签 <span style="color: #008000">#<span style="color: #008000">获取所有标签中的href对应的值,即超链接 (编辑:鄂州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- python – 查找numpy数组中每行的最大值以及相同大小的另一
- 在Python中存储三角形/六边形网格的最佳方法
- python – 将MIMEText编码为引用的可打印文件
- python – [sock] = func()是什么意思?
- 使用python的optparse时在帮助消息中显示换行符
- 【Tensorflow】Anaconda中激活tensorflow后如何使用
- python – 替换numpy数组中的元素,避免循环
- python – groupby在熊猫中的最后一个性能问题
- python – 如何在seaborn的facetgrid中设置可读的xticks?
- python – 填充OpenCV轮廓的外部