DC学院数据分析学习笔记(三):基于HTML的网页爬虫

  • 时间:
  • 浏览:1
  • 来源:uu快3玩法_uu快3新平台_棋牌

完正代码:

重新打印一下整个的div

如图:

发现后边打印出来的前面主次很完美,有过过后边却多了js的代码,那好,为啥去掉 呢?

从后边的HTML代码来看,亲戚亲戚朋友发现亲戚亲戚朋友都还上能 的信息分别对应原来classperiod-name,short-desc,temp

使用BeautifulSoup解析HTML文档示例

小技巧:还上能 使用浏览其中的开发者工具查看代码

原来看着就舒服多了,好了,js代码终于没有了,执行一下事先的操作看看

DC学院中提供的示例时旧金山天气页面地址:

http://forecast.weather.gov/MapClick.php?lat=37.77492773800046&lon=-122.41941932299972#.WUnSFhN95E4

终于还上能 用python实践一下html的爬虫了,事先零散的也学过一点,这次希望能通过在DC学院的学习慢慢深入的了解爬虫的理论知识。

OK,来看今天的数据分析学习笔记!

BeautifulSoup 解析网页的一点基本操作

“html_doc”表示一点文档名称,在后边的代码中含过后定义,“html_parser”是解析网页所需的解析器,所以使用BeautifulSoup解析HTML文档的一般格式为soup=BeautifulSoup(网页名称,'html.parser')

亲戚亲戚朋友发现在后边的代码最后边,事先多余的js代码是在最外层的div里面的,也以后在div class="panel-body" id="seven-day-forecast-body"一点后边的,而div id="seven-day-forecast-container"之中并没有中含亲戚亲戚朋友不都还上能 的一点段js代码。那就好办了:把id="seven-day-forecast-body"改为id="seven-day-forecast-container"

希望能有所收获( ̄︶ ̄)↗ 

但原来亲戚亲戚朋友以后太好提取,通过prettify美化一下,再看看为啥提取亲戚亲戚朋友都还上能 的信息

用 soup.prettify 打印网页