BeautifulSoup解析HTML

时间：2024-10-12 10:27:19

1、从网上获取数据：直接上代码，由于这里不讲爬虫相关的知识，所以就不细讲了。说明以下几点：1.url指向的为你想爬取的网页地址；2.translation_html为网页地址所对应的html代码，所对应的页面对下图；3. 要介绍的BeautifulSoup就是对第2点中translation_html的内容进行解析。---------------代码分割线---------------import urllib.request as rqurl = "https://www.baidu.com"req = rq.Request(url, headers={ 'Connection': 'Keep-Alive', 'Accept': 'text/html, application/xhtml+xml, */*', 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko' })translation_html = rq.urlopen(req).read().decode("utf-8")

3、我们已经从第一步获取了要解析的HTML代码，从第二步安装并导入了BeautifulSoup库，接下来就可以使用BeautifulSoup库所提供的功能，对HTML的内容进行解析了。为了方便说明，这里不讲原理性的东西，都是以举例的方式让大家看得明白。

5、soup = 返回BeautifulSoup对象：整个html代码（从<html>到</html>）soup("div") = 查找所有div元素，返回列表：第1个元素为（从<div id='div1'>到</div>）的代码soup.div =查找第一个div元素，返回BeautifulSoup对象：（从<div id='div1'>到</div>）soup("p") = 查找所有p元素，返回列表：第1个元素为"<p class='p1'>p1 content</p>"，第二个元素为"<p class='p2'>p2 content</p>"。soup.div("p", recursive=False)= 查找div下直属p元素，返回列表：第1个元素为"<p class='p1'>p1 content</p>"，第二个元素为"<p class='p2'>p2 content</p>"。soup.p =查找第一个p元素，返回BeautifulSoup对象（<p class='p1'>p1 content</p>）注意：上述返回列表中的每个元素也是BeautifulSoup对象。可以把返回的BeautifulSoup对象看成是一个原HTML上的子HTML。在这个子对象上的操作方法和最初的对象是一样的。

7、soup.p['class'] = 返回第一个p元素的class属性列表（['p1', 'first']）soup.p.text= 返回第一个p元素的内容（p1 content），注意不包含注释的内容以上就是BeautifulSoup库的基本用法，相信通过大家的举一反三，应该能够完成你想要的功能了。

Unity如何新建空物体对象#校园分享#

如何更改Windows7系统的任务栏位置？

在Windows中有几种方法进行区域和语言设置呢？

战网账号如何修改手机号码

Word2010中旋转图片的三种方法