Python爬虫准备
# 配置开发环境
# 安装Anaconda
安装Anaconda,因为里面包含了python3和常用的库
- Windows 安装 Anaconda
- Linux安装 Anaconda
- Mac 安装 Homebrew包管理工具,Anaconda
简单说说爬虫的三个大步骤,步骤后面是用到的库
- 抓取页面 (requests,selenium,aiohttp)
- 分析页面 (lxml,beautifulsoup4,pyquery)
- 存储数据 ()
# 安装请求库
::: tips 这一步是抓取页面代码的 :::
- request用于模拟浏览器发送请求
- Selenium自动化测试工具,需要浏览器配合使用,因此根据不同浏览器安装不同的驱动
- chrome 安装 chromeDriver
- Firefox 安装 GeckoDriver
- 无界面的PhantomJS浏览器引擎(相当于后台运行一个浏览器)
- aiohttp异步请求库
pip3 install requests
pip3 install selenium
pip3 install aiohttp cchardet aiodns
1
2
3
2
3
# 安装解析库
::: tips 这一步是提取,解析信息的 :::
- lxml支持html,xml,XPath解析方式 beautifulsoup4是Python的一个html,xml解析库
# 安装数据库
# 安装存储库
# 安装Web库
# 安装App爬取相关库
# 安装爬虫框架
# 安装部署相关库
编辑 (opens new window)