博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
我的第一个python爬虫:爬取豆瓣top250前100部电影
阅读量:5147 次
发布时间:2019-06-13

本文共 1188 字,大约阅读时间需要 3 分钟。

爬取豆瓣top250前100部电影

 

1 # -*-coding=UTF-8 -*- 2  3 import requests 4 from bs4 import BeautifulSoup 5  6     headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36', 7 'Host': 'movie.douban.com'} 8 movie_list = {} 9 10 for i in range(0,4):11 link = 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter='12 r = requests.get(link,headers=headers,timeout=10)13 print(str(i+1),'states:',r.status_code)14 # print(r.text)15 soup = BeautifulSoup(r.text,"lxml")16 div_list = soup.find_all('div',class_="info")17 18 for each in div_list:19 name = each.div.a.span.text.strip()20 info = each.p.text.strip()21 22 movie_list[name]=info23 24 return movie_list25 26 movies = get_movies()27 28 with open('douban.txt','w',encoding='utf-8') as f:29 for k in movies:30 f.write(str('\n'+k+' :: '+ movies[k] +'\n\n'+'-------------------------'+'\n\n'))31 f.close()32 print('Finished!!!')

 

 

输出结果截图:

 

转载于:https://www.cnblogs.com/cooper-73/p/9881772.html

你可能感兴趣的文章
Vue中引入TradingView制作K线图
查看>>
爱历史 - 朝代歌
查看>>
【笔记】Cocos2dx学习笔记
查看>>
PHP设计模式之:单例模式
查看>>
c++输出缓冲区刷新
查看>>
Linux查看CPU和内存使用情况总结
查看>>
session丢失问题
查看>>
Python 批量修改root密码
查看>>
ThinkSNS+ 基于 Laravel master 分支,从 1 到 0,再到 0.1
查看>>
WEB服务器:Apache、Tomcat、JBoss、WebLogic、Websphere、IIS的区别与关系
查看>>
软件工程 speedsnail 冲刺7
查看>>
虚拟机CentOS设置IP
查看>>
Django之ORM多对多表创建方式,AJAX异步提交,分页器组件等
查看>>
SqlServer查询表名的备注(查询表名描述 MS_Description)
查看>>
Set集合HashSet,TreeSet
查看>>
去哪网实习总结:递归构建“流程运行顺序”的XML文件(JavaWeb)
查看>>
机器学习笔记十三:Ensemble思想(上)
查看>>
Unity3D中组件事件函数的运行顺序
查看>>
启动tomcat时出现乱码——淇℃伅(转)
查看>>
9.1 正睿提高2
查看>>