【python爬虫】—豆瓣电影Top250,等离子电视尺寸
0evadmin
编程语言
7
文件名:【python爬虫】—豆瓣电影Top250,等离子电视尺寸
【python爬虫】—豆瓣电影Top250
豆瓣电影Top250 豆瓣榜单简介需求描述Python实现 豆瓣榜单简介 豆瓣电影 Top 250 榜单是豆瓣网站上列出的评分最高、受观众喜爱的电影作品。这个榜单包含了一系列优秀的影片,涵盖了各种类型、不同国家和时期的电影。 需求描述 使用python爬取top250电影,获取相应电影排名,电影名,星级, 打分和评论人数信息,将信息输出到Excel表格中。 Python实现 获取爬取网页 def download_all_htmls(index = list(range(0, 250, 25))):htmls = []for idx in index:url = f"https://movie.douban.com/top250?start={idx}&filter="print("craw html:", url)# 豆瓣具有反爬虫机制,添加headersheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}r = requests.get(url, headers = headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)return htmls 解析得到单个网页内容 def parse_single_heml(html):soup = BeautifulSoup(html, 'html.parser')article_items = soup.find('div', class_='article')\.find('ol', class_='grid_view')\.find_all('div', class_='item')datas = []for article_item in article_items:rank = article_item.find('div', class_='pic').find('em').get_text()info = article_item.find('div', class_='info')title = info.find('div', class_='hd').find('span', class_='title').get_text()stars = info.find('div', class_='bd').find('div', class_='star').find_all('span')rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({'rank': rank,'title': title,'rating_star': rating_star.replace("rating","").replace("-t",""),'rating_num': rating_num,'comments': comments.replace("人评价", "")})return datas 爬取相关内容,并将结果写入Excel import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport pprintimport jsonhtmls = download_all_htmls()all_datas = []for html in htmls:all_datas.extend(parse_single_heml(html))df = pd.DataFrame(all_datas)df.to_excel("practice03_豆瓣电影top250.xlsx", index=False) 结果展示
同类推荐
-

【PyQt学习篇 · ⑥】:QWidget - 事件,酷派d08
查看 -

【Python CheckiO 题解】Date and Time Converter,东芝l582
查看 -

【Python 千题 —— 基础篇】列表排序,sony z1 mini
查看 -

【Python 千题 —— 基础篇】奇数列表,酷派5890电信版
查看 -

【Python3.6】python打包成exe,htc leo
查看 -

【Python】Conda的安装,s5830官方(python conda如何安装)
查看 -

【Python】HackBack(获取暴力破解服务器密码的IP来源),iphone4必备软件(python暴力破解代码)
查看 -

【Python】Pyinstaller打包Linux运行文件,暴露配置文件,泡泡手机网(python打包linux应用)
查看 -

【Python】Python 获取天气数据,星际大脚
查看