python学习吧 关注:15,720贴子:76,193

Python大佬整理的 爬虫工具大全,你值得拥有!

只看楼主收藏回复

即然提到了爬虫,就从网上理了一份python爬虫相关的包。包含与网页抓取和数据处理的Python库



1楼2018-04-17 13:20回复
    一、网络
    1.通用
    urllib -网络库(stdlib)。
    requests -网络库。
    grab – 网络库(基于pycurl)。
    pycurl – 网络库(绑定libcurl)。
    urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。


    2楼2018-04-17 13:21
    回复
      2025-11-01 04:02:23
      广告
      不感兴趣
      开通SVIP免广告
      2.异步
      treq – 类似于requests的API(基于twisted)。
      aiohttp – asyncio的HTTP客户端/服务器(PEP-3156)。



      3楼2018-04-17 13:21
      回复
        二、网络爬虫框架
        1.功能齐全的爬虫
        grab – 网络爬虫框架(基于pycurl/multicur)。
        scrapy – 网络爬虫框架(基于twisted),不支持Python3。
        pyspider – 一个强大的爬虫系统。
        cola – 一个分布式爬虫框架。


        4楼2018-04-17 13:21
        回复
          2.其他
          portia – 基于Scrapy的可视化爬虫。
          restkit – Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
          demiurge – 基于PyQuery的爬虫微框架。


          5楼2018-04-17 13:21
          回复
            2.清理
            Bleach – 清理HTML(需要html5lib)。
            sanitize – 为混乱的数据世界带来清明。


            6楼2018-04-17 13:21
            回复
              四、文本处理
              用于解析和操作简单文本的库。


              7楼2018-04-17 13:22
              回复
                difflib – (Python标准库)帮助进行差异化比较。-------------18-04-17-13-47-12这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除644897469861465831


                8楼2018-04-17 13:47
                回复
                  2025-11-01 03:56:23
                  广告
                  不感兴趣
                  开通SVIP免广告
                  Levenshtein – 快速计算Levenshtein距离和字符串相似度。-------------18-04-17-14-01-34这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除346243853768194458


                  9楼2018-04-17 14:02
                  回复
                    fuzzywuzzy – 模糊字符串匹配。-------------18-04-17-14-14-43这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除731149124818035988


                    10楼2018-04-17 14:15
                    回复
                      esmre – 正则表达式加速器。-------------18-04-17-14-28-39这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除79980714097503432


                      11楼2018-04-17 14:29
                      回复
                        ftfy – 自动整理Unicode文本,减少碎片化。-------------18-04-17-14-56-24这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除138303361047529220


                        12楼2018-04-17 14:57
                        回复
                          2.转换-------------18-04-17-15-13-54这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除898567233238069460


                          13楼2018-04-17 15:14
                          回复
                            unidecode – 将Unicode文本转为ASCII。-------------18-04-17-15-37-35这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除594136041587015998


                            14楼2018-04-17 15:38
                            回复
                              2025-11-01 03:50:23
                              广告
                              不感兴趣
                              开通SVIP免广告
                              3.字符编码-------------18-04-17-15-58-58这是我用Python写的一个爬虫,验证效果,如有打扰,可以删除977759665350327438


                              15楼2018-04-17 15:59
                              回复