Async IO operation failed (2), reason: RC: 104 Connection reset by peer

一、问题背景

服务器和调用方都是Java程序,SpringBoot框架。
服务器是集群部署,上了新功能,负载均衡使用的F5。
调用方----------->F5---------->单台服务器
新功能是,返回文件的同时,将文件信息放在Http的Header里面。

二、原因分析

因为国内外网上都没有类似的报错,所以解决起来耗费时间有点久,特记录下来。
服务端报错如下:

com.ibm.wsspi.webcontainer.ClosedConnectionException: OutputStream encountered error during write
        at com.ibm.ws.webcontainer.channel.WCCByteBufferOutputStream.write(WCCByteBufferOutputStream.java:188) ~[com.ibm.ws.webcontainer.jar:na]
        at ...(手打的后面就不写了)
Caused by: java.io.IOException: Async IO operation failed (2), reason: RC: 104 Connection reset by peer
        at com.ibm.io.async.AsyncLibrary$IOExceptionCache.<init>(AsyncLibrary.java:924) ~[com.ibm.ws.runtime.jar:na]
        at com.ibm.io.async.AsyncLibrary$IOExceptionCache.get(AsyncLibrary.java:937) ~[com.ibm.ws.runtime.jar:na]
        at com.ibm.io.async.AsyncLibrary.getIOException(AsyncLibrary.java:951) ~[com.ibm.ws.runtime.jar:na]
        at com.ibm.io.async.ResultHandler.complete(ResultHandler.java:213) [com.ibm.ws.runtime.jar:na]
        ... 3 common frames omitted

调用端报错如下:

Connection reset; nested exception is java.net.SocketException: Connection reset
        at org.springframework.web.client.RestTemplate.doExecute(RestTemplate.java:748)
        at ...
Caused by: java.net.SocketException: Connection reset
        at java.net.SocketInputStream.read(SocketInputStream.java:210)
        at ...

三、问题定位

通过查看WebSphere控制台配置,以及F5抓包,最后定位到问题是由于:F5负载均衡对Http的响应头(Header)有32KB大小限制,但WebSphere控制台没有大小限制(可能有,但是没触发上限,不清楚),导致响应被F5主动中断。

四、解决方案

1、请求不经过F5,我们的做法是直接通过应用单点进行调用,因为需求特殊,这套应用不需要HA,所以可以简单粗暴这么做。
2、修改F5负载均衡配置(不确定能否修改)、或换其他负载均衡,Nginx等。
3、修改程序,将“下载文件实体”和“获取文件信息”拆成两个接口,不要将文件信息放在请求头,放到请求体,即可。

推荐阅读更多精彩内容