python爬虫技术交流吧 关注:11贴子:24
  • 5回复贴,共1

批量查询网站网址/文章链接/内页链接等收录情况

只看楼主收藏回复

由于最近在做推广,相关交流群小伙伴想查询文章批量收录情况,但由于网上的查询工具有限制,而且数量多后需要开会员,所以就想自己写一个用,下面是程序加思路。


IP属地:山东来自Android客户端1楼2023-06-08 10:23回复
    首先,定义一个函数发起请求,并返回结果;


    IP属地:山东2楼2023-06-08 10:29
    回复
      2025-08-02 02:10:24
      广告
      不感兴趣
      开通SVIP免广告
      然后,根据返回的结果代码中,查找可判定条件,会有以下几种情况;
      1.第一步请求成功了,因为如果请求头伪造不过关,会遇到安全验证,那么同样返回是202,只是内容不同,所以要先区分返回结果中,正常情况和非正常情况,所有的正常内容都会包含“**热搜”这个词,你们也可以找别的做判断条件。所以要先判断是否包含,然后在进行下一步,判断包含,则请求成功可以继续下一步判定,反之,返回请求失败。

      2.上一步判定返回结果有效后,再次寻找新的条件判定,这一次是判定是否收录,收录若未收录,一般页面会包含“没有找到”或者“抱歉”之类的字眼,但也不能保证你查询的链接标题描述中也有类似字眼,目前先用这两个判定,后期你可以根据思路自己修改。所以,若是包含,则代表未收录,反之则收录。

      以下是代码


      IP属地:山东3楼2023-06-08 10:38
      回复
        最后,则是url提前写入文本文档,保持一行一条即可,然后写遍历读取这些url处理后提交请求函数进行结果获取,结果进入判定,判定后返回结果打印,保存至新文本文档。这里要注意,要查询的文本文档需要提前创建好,并跟程序放入同一文件夹下,结果文档则不需要,程序会自动创建,但建议每次查询后都把文档拷贝出去做备份,然后程序文件夹下的文档则清空全部内容等待下一次查询!


        IP属地:山东4楼2023-06-08 10:42
        回复
          最后附上全部代码


          IP属地:山东5楼2023-06-08 10:43
          回复


            6楼2023-06-08 11:12
            回复