hincky的主页 hincky的主页
  • 2023

    • nginx
    • prometheus
    • 小工具
    • 部署
  • 数据库

    • MySQL是怎么使用/运行的
    • Redis核心技术与实战
  • 极客时间

    • Web协议详解与抓包实战
    • SQL必知必会
    • MySQL45讲
个人日常
  • 分类
  • 标签
  • 归档
  • 随笔
GitHub (opens new window)

Hincky

当有趣的人,做想做的事
  • 2023

    • nginx
    • prometheus
    • 小工具
    • 部署
  • 数据库

    • MySQL是怎么使用/运行的
    • Redis核心技术与实战
  • 极客时间

    • Web协议详解与抓包实战
    • SQL必知必会
    • MySQL45讲
个人日常
  • 分类
  • 标签
  • 归档
  • 随笔
GitHub (opens new window)
  • 2022

  • 2023

    • 一月

      • Python爬虫准备
        • 安装Anaconda
        • 安装请求库
        • 安装解析库
        • 安装数据库
        • 安装存储库
        • 安装Web库
        • 安装App爬取相关库
        • 安装爬虫框架
        • 安装部署相关库
    • 五月

    • nginx

    • prometheus

    • tools

    • http状态码

    • 监控

    • Go

    • python

    • linux性能优化

    • PHP

    • elastic

    • chatgpt

    • 小工具

    • js

    • django

    • centos7.6配置

    • 部署

    • 部署资源整理

    • MySQL数据库

  • 工作记录
  • 2023
  • 一月
hincky
2022-12-22
目录

Python爬虫准备

# 配置开发环境

# 安装Anaconda

安装Anaconda,因为里面包含了python3和常用的库

  • Windows 安装 Anaconda
  • Linux安装 Anaconda
  • Mac 安装 Homebrew包管理工具,Anaconda

简单说说爬虫的三个大步骤,步骤后面是用到的库

  1. 抓取页面 (requests,selenium,aiohttp)
  2. 分析页面 (lxml,beautifulsoup4,pyquery)
  3. 存储数据 ()

# 安装请求库

::: tips 这一步是抓取页面代码的 :::

  • request用于模拟浏览器发送请求
  • Selenium自动化测试工具,需要浏览器配合使用,因此根据不同浏览器安装不同的驱动
    • chrome 安装 chromeDriver
    • Firefox 安装 GeckoDriver
    • 无界面的PhantomJS浏览器引擎(相当于后台运行一个浏览器)
  • aiohttp异步请求库
pip3 install requests
pip3 install selenium
pip3 install aiohttp cchardet aiodns
1
2
3

# 安装解析库

::: tips 这一步是提取,解析信息的 :::

  • lxml支持html,xml,XPath解析方式 beautifulsoup4是Python的一个html,xml解析库

# 安装数据库

# 安装存储库

# 安装Web库

# 安装App爬取相关库

# 安装爬虫框架

# 安装部署相关库

编辑 (opens new window)
Python
05-04

← Python 05-04→

最近更新
01
集成chatgpt的工具
05-24
02
修改服务器ssh默认连接端口
05-22
03
阿里云免费证书
05-15
更多文章>
Theme by Vdoing | Copyright © 2022-2023 Hincky | MIT License | 粤ICP备2022120427号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式