最近我们的服务在升级php使用的libcurl, 期望新版本的libcurl支持毫秒级的超时, 从而可以更加精细的控制后端的接口超时, 从而提高整体响应时间.

但是, 我们却发现, 在我们的CentOS服务器上, 当你设置了小于1000ms的超时以后, curl不会发起任何请求, 而直接返回超时错误(Timeout reached 28).

原来, 这里面有一个坑, CURL默认的, 在Linux系统上, 如果使用了系统标准的DNS解析, 则会使用SIGALARM来提供控制域名解析超时的功能, 但是SIGALARM不支持小于1s的超时, 于是在libcurl 7.28.1的代码中(注意中文注释行):

int Curl_resolv_timeout(struct connectdata *conn,
                        const char *hostname,
                        int port,
                        struct Curl_dns_entry **entry,
                        long timeoutms)
    /* Ignore the timeout when signals are disabled */
    timeout = 0;
    timeout = timeoutms;

    /* USE_ALARM_TIMEOUT defined, but no timeout actually requested */
    return Curl_resolv(conn, hostname, port, entry);

  if(timeout < 1000) //如果小于1000, 直接超时返回
    /* The alarm() function only provides integer second resolution, so if
       we want to wait less than one second we must bail out already now. */


可见, 当你的超时时间小于1000ms的时候, name解析会直接返回CURLRESOLV_TIMEOUT, 最后会导致CURLE_OPERATION_TIMEDOUT, 然后就Error, Timeout reached了…

这….太坑爹了吧? 难道说, 我们就不能使用毫秒超时么? 那你提供这功能干啥?

还是看代码, 还是刚才那段代码, 注意这个(中文注释行):

  if(data->set.no_signal)  //注意这行
    /* Ignore the timeout when signals are disabled */
    timeout = 0;
    timeout = timeoutms;

    /* USE_ALARM_TIMEOUT defined, but no timeout actually requested */
    return Curl_resolv(conn, hostname, port, entry);

  if(timeout < 1000)
    /* The alarm() function only provides integer second resolution, so if
       we want to wait less than one second we must bail out already now. */

看起来, 只要set.no_signal 这个东西为1, 就可以绕过了… 那这个玩意是啥呢?

这就简单了, grep一下代码, 发现:

     * The application asks not to set any signal() or alarm() handlers,
     * even when using a timeout.
    data->set.no_signal = (0 != va_arg(param, long))?TRUE:FALSE;

哈哈, 原来是这货:

   curl_setopt($ch, CURLOPT_NOSIGNAL, 1);

加上这个OPT以后, 一切终于正常了!


这样一来, 就会有一个隐患, 那就是DNS解析将不受超时限制了, 这在于公司内部来说, 一般没什么问题, 但是万一DNS服务器hang住了, 那就可能会造成应用超时.


有, 那就是Mike提醒的, 我们可以让libcurl使用c-ares(C library for asynchronous DNS requests)来做名字解析. 具体的可以在config curl的时候:

./configure --enable-ares[=PATH]

这样就可以不用设置NOSIGNAL了 :)

PS, 为什么冠以”Bug”, 我只是好奇, 他们为什么不用setitimer?



2014/01/21, Mike writes: Sub-second timeout only works with c-ares support:
2014/01/22, wiwi writes: 但这样就没用到超时了吧?
2014/01/22, wiwi writes: 准确的说,这样就没有域名解析超时了吧? 这样设的毫秒超时还有用吗? PS:在c语言等多线程中使用CURL时,也必须设CURLOPT_NOSIGNAL为1,不然会报错
2014/01/22, 雪候鸟 writes: @Mike thanks, i will update my post about it :)
2014/01/23, James Tang writes: 我们现在调用外链是采用的这种方式支持毫秒级超时,遇到的问题是(极少)部分请求时间远大于设置的超时时间:如设置100ms但有时请求时间能高达5000ms.我说的"请求时间"是指开始调用curl到curl执行完成的时间,所以这种>100ms的时间会不会是DNS解析消耗的时间?
2014/01/30, 一个堕落的程序员 writes: If you want cURL to timeout in less than one second, you can use CURLOPT_TIMEOUT_MS, although there is a bug/"feature" on "Unix-like systems" that causes libcurl to timeout immediately if the value is < 1000 ms with the error "cURL Error (28): Timeout was reached". The explanation for this behavior is: "If libcurl is built to use the standard system name resolver, that portion of the transfer will still use full-second resolution for timeouts with a minimum timeout allowed of one second." What this means to PHP developers is "You can use this function without testing it first, because you can't tell if libcurl is using the standard system name resolver (but you can be pretty sure it is)" The problem is that on (Li|U)nix, when libcurl uses the standard name resolver, a SIGALRM is raised during name resolution which libcurl thinks is the timeout alarm. The solution is to disable signals using CURLOPT_NOSIGNAL. Here's an example script that requests itself causing a 10-second delay so you can test timeouts: 0) { echo "cURL Error ($curl_errno): $curl_error\n"; } else { echo "Data received: $data\n"; } } else { // Server sleep(10); echo "Done."; } ?>
2014/02/04, luffy writes: 按照鸟哥的做法,经过多轮测试,似乎毫秒的依然无法生效,求解
2014/03/02, tang writes: 鸟哥,你好,我的是IIS上运行的,发现curl exec failed 'Timeout was reached'这样的错误也较为常见. 已经调用SetOpt(YAR_OPT_CONNECT_TIMEOUT, 5000); SetOpt(YAR_OPT_TIMEOUT, 1000*60*5); 按理说我们是服务器直连,速度还可以,服务器的远程方法5分钟足够了的。请鸟哥指点?
2014/03/02, tang writes: 忘记说了,刚才说的那个错误是指用鸟哥的yar时,客户端的方法调用出现的。
2014/03/04, 雪候鸟 writes: @tang 用github主干的代码, 这个在windows上的bug已经fixed了
2014/04/10, shenguanpu writes: 设置了CURLOPT_NOSIGNAL 也没有效果啊 curl版本 7.31.0 超时设置到0.5 结果就没有超时限制了 鸟哥使用的是curl_multi_exec去处理并发吗? 是否会有性能问题呢?

