Vultr搬瓦工vps国外域名网站教程IT资讯主机商

解决Python httpx 运行过程中无限阻塞的问题

时间:2022-11-30  来源:  作者:多多鱼啊 我要纠错

Python httpx 运行过程中无限阻塞

requests 模块只支持 http1,在遇到 http2 的数据接口的时候(某乎的搜索接口),需要采用支持http2 请求的模块(如 httpx、hyper)。

本文是针对 httpx 在请求数据时,出现无限阻塞问题的一些处理方法。

httpx 的 timeout 有 bug,会导致脚本在运行一段时间后,出现线程阻塞卡死的问题(无限 timeout)。

1.通过 pm2 部署脚本

另外启动一个脚本,定时对该脚本进行重启操作。

举个栗子:

1
2
3
4
5
6
import time
import os
 
while True:
    time.sleep(60 * 60) # 一小时重启一次
    os.system('pm2 restart test')  

这个方法有个不好的地方,在请求过程中,可能需要翻很多页,如果不断重启脚本,可能导致无法翻到最后一页。

2.通过装饰器给函数设置一个最大执行超时时间

当函数执行时间超过某个时间就抛出 TimeOut 异常

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from func_timeout import func_set_timeout
import func_timeout
import time
 
@func_set_timeout(5)  # 函数最大执行时间 5s
def test():
    time.sleep(20)
 
def run():
    try:
        test()
        print('test 函数执行完成')
    except func_timeout.exceptions.FunctionTimedOut:
        print('test 函数执行超时')
run()

如上面例子那样,在 httpx.Client 所在函数设置一个额外等待时间,当该函数执行时间超过某个时间,就强制抛出 timeout 异常,避免程序无限阻塞。

python爬虫httpx的用法

安装命令:pip install httpx

请求方式

  • GET
1
2
3
4
5
6
import httpx

headers = {'user-agent': 'my-app/1.0.0'}
params = {'key1': 'value1', 'key2': 'value2'}
url = 'https://httpbin.org/get'
r = httpx.get(url, headers=headers, params=params)
  • POST
  r = httpx.post('https://httpbin.org/post', data={'key': 'value'}) 
  • PUT
  r = httpx.put('https://httpbin.org/put', data={'key': 'value'})
  • DELETE
  r = httpx.delete('https://httpbin.org/delete'

以上为个人经验,希望能给大家一个参考,

  • 上一篇:python QT界面关闭线程池的线程跟随退出完美解决方案
  • 下一篇:返回列表
  • 无相关信息
    主机资讯
    主机信息
    Host Gnome英国
    Host Gnome英国
    Sugarhosts
    Sugarhosts
    Vultr
    Vultr
    GT Host
    GT Host
    BandwagonHost搬瓦工
    BandwagonHost搬瓦工
    INCX
    INCX
    Ram Node
    Ram Node
    IO Zoom
    IO Zoom
    推荐信息

    相关文章

    无相关信息

    栏目更新

    Copyright © 2020 ushost.cn Inc. All Rights Reserved. 美国主机中文网 版权所有
    鄂ICP备06013414号-8