BeautifulSoup是最初学习Python抓取网页时都会用到的一个库,可以使HTML内容结构化,从而更方便的获取内部数据,可以说是pythoner居家必备的model之一。本文主要对BeautifulSoup的安装与应用作简单的介绍。 注:本文使用的BeautifulSou ...

BeautifulSoup是最初学习Python抓取网页时都会用到的一个库,可以使HTML内容结构化,从而更方便的获取内部数据,可以说是pythoner居家必备的model之一。本文主要对BeautifulSoup的安装与应用作简单的介绍。
注:本文使用的BeautifulSoup版本为BeautifulSoup4
1. BeautifulSoup安装
linux安装
- 可以通过系统软件包来安装:
$ apt-get install Python-bs4; - 也可以通过
easy_install或pip安装:$ easy_install beautifulsoup4,$ pip install beautifulsoup4。
windows安装
- 可以在官方地址下载源码,然后通过
python setup.py install安装; - 也可以通过
easy_install或pip安装,方法同上。
2. 简单浏览结构化数据
使用BeautifulSoup对HTML内容解析之后,HTML内容就变成了结构化数据,可以轻易对其中的DOM元素进行操作,比如获取数据,修改,删除等。
注:由于BeautifulSoup用于采集数据较多,本文只对查找数据做示例。
import requestsfrom bs4 import BeautifulSoup as bspurl = ' >r = requests.get(url)soup = bsp(r.content) # 得到结构化数据soupprint soup.title # 定位title标签# <title>#张亚楠 ' BLOG - 天意从来高难问# </title>print soup.title.name # title标签的名称#titleprint soup.title.string # title标签中文本内容#张亚楠 ' BLOG - 天意从来高难问print soup.h2 # 定位HTML中第一个h2标签# <h2 class="title"><a href="/post/python-beautifulsoup" ><i class="fa fa-leaf"></i>Python BeautifulSoup4安装与简单应用</a># </h2>print soup.h2['class'] # 第一个h2标签的class属性#[u'title']print soup.body.div.div.a # 获取到导航中第一个链接#<a href="/">Home</a>
原标题:Python BeautifulSoup4安装与简单应用
关键词:
*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们:
admin#shaoqun.com
(#换成@)。