手机版
您的当前位置: 十九范文网 > 作文大全 > Python网络爬虫实习报告

Python网络爬虫实习报告

来源:网友投稿 时间:2022-02-09

下面是小编为大家整理的Python网络爬虫实习报告,供大家参考。

Python网络爬虫实习报告

Python 网络爬虫实习报告

目录

一、选题背景..................................... - 2 -

二、爬虫原理..................................... - 2 -

三、爬虫历史和分类............................... - 2 -

四、常用爬虫框架比较............................. - 2 -

五、数据爬取实战(豆瓣网爬取电影数据)........... - 3 -

1 分析网页....................................... -3 -

2 爬取数据....................................... -

3 -

3 数据整理、转换................................. -

4 -

4 数据保存、展示................................. -9 -

5 技术难点关键点................................ -10 -

六、总结....................................... - 13 -

选题背景

二、爬虫原理

三、爬虫历史和分类

四、常用爬虫框架比较

Scrapy 框架: Scrapy 框架是一套比较成熟的Python 爬虫框架,是使用Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。

Crawley 框架: Crawley 也是Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。

Portia 框架: Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。

newspaper 框架: newspaper框架是一个用来提取新闻、文章以及内容分析的Python 爬虫框架。

Python-goose 框架:Python-goose 框架可提取的信息包括:<1>文章主体内容;<2> 文章主要图片;<3> 文章中嵌入的任heYoutube/Vimeo 视频;<4>元描述;<5>元标签

五、数据爬取实战(豆瓣网爬取电影数据)

1 分析网页

# 获取html 源代码

pageSize = 0

try:

while (pageSize <= 125):

# headers = {"User-Agent":"Mozilla/5.0 (Windows NT

6.1) AppleWebKit/53

7.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",

# "Referer":None # 注意如果依然不能抓取的话,这里可以设置抓取网站的host

# }

# opener = urllib.request.build_opener()

# opener.addheaders = [headers]

url = "https://http://www.wendangku.net/doc/c56899a025284b73f242336c1eb91a37f011324e.html /top250?start=" +

str(pageSize) + "&filter=" + str(pageNum)

# data["html%s" %

i ]=urllib.request.urlopen(url).read().decode("utf-8")

data.append(urllib.request.urlopen(url).read().decode("utf- 8")) pageSize += 25

raise e

return data

2 爬取数据

def __getData(html):

title = [] # 电影标题

#rating_num = [] # 评分

range_num = [] # 排名

#rating_people_num = [] # 评价人数movie_author = [] # 导演data = {}

# bs4 解析html

soup = BeautifulSoup(html, "html.parser") for li in soup.find("ol", attrs={"class":

"grid_view"}).find_all("li"):

title.append(li.find("span", class_="title").text)

推荐访问:python数据分析报告总结 爬虫 实习报告 网络

十九范文网 www.ib19.com

Copyright © 2002-2018 . 十九范文网 版权所有

Top