Excel工具-SXSSFWorkbook 研究与低内存占用分析

今天项目中有个需要 Excel 导出的需求。看了下同事用了 SXSSFWorkbook 。之前没怎么用到这个组件。既然这次用了就简单分析一下。
POI提供了HSSF、XSSF以及SXSSF三种方式操作Excel。他们的区别如下:

HSSF:是操作Excel97-2003版本,扩展名为.xls。
XSSF:是操作Excel2007版本开始,扩展名为.xlsx。
SXSSF:是在XSSF基础上,POI3.8版本开始提供的一种支持低内存占用的操作方式,扩展名为.xlsx。

本文的重点就是分析一下,SXSSF如何支持低内存占用的。
先说结论:
SXSSF 指定了rowAccessWindowSize ,每个sheet 对应一个临时文件,当行数大于rowAccessWindowSize 时,就会向临时文件中flush, 这样就保证了内存的低占用率。当行创建完,直接从临时文件中写入到Excel中。
有一点需要注意:
像单元格合并类似的操作是纯内存操作,如果项目中想一次合并多行时,要注意随时观察自己机器内容的使用情况,避免出现OOM。

1 来个demo

        // 内存中保持100条数据, 超出的部分刷新到磁盘上
        SXSSFWorkbook wb = new SXSSFWorkbook(100);
     
        Sheet sh = wb.createSheet();
        for(int rownum = 0; rownum < 1000; rownum++){
            Row row = sh.createRow(rownum);
            for(int cellnum = 0; cellnum < 10; cellnum++){
                // 创建行,在这儿根据当前行数跟rowAccessWindowSize 比较,来决定从内存写入文件中。
                Cell cell = row.createCell(cellnum);
                String address = new CellReference(cell).formatAsString();
                cell.setCellValue(address);
            }

        }

        // rownum < 900 的数据被刷新到磁盘,不能被随机访问
        for(int rownum = 0; rownum < 900; rownum++){
            Assert.assertNull(sh.getRow(rownum));
        }

        // 最后的100条数据仍然在内存中,可以随机访问
        for(int rownum = 900; rownum < 1000; rownum++){
            Assert.assertNotNull(sh.getRow(rownum));
        }
        // 从临时文件写入Excel 文件
        FileOutputStream out = new FileOutputStream("d:\\sxssf.xlsx");
        wb.write(out);
        out.close();

        // 从磁盘上释放临时文件
        wb.dispose();

2 主要分析点

2.1 创建SXSSFWorkbook

如demo所示, SXSSFWorkbook wb = new SXSSFWorkbook(100); 中指定了rowAccessWindowSize 为100 ,也就是说
会在内存中缓存 rowAccessWindowSize 行数据。当行数超过 rowAccessWindowSize ,则会从内存输入到临时文件中。

临时文件的生成在 2.2 创建Sheet部分 讲一下。超过阈值刷入临时文件在2.3 创建row 部分讲解。

2.2 创建Sheet

如demo所示,Sheet sh = wb.createSheet(); 创建了Sheet. 那么创建过程中,主要的功能是创建了一个临时文件。每个sheet 一个临时文件。废话不多说,我们来看下createSheet的实现。

public SXSSFSheet createSheet() {
        return this.createAndRegisterSXSSFSheet(this._wb.createSheet());
    }

createAndRegisterSXSSFSheet 中最核心的就是 sxSheet = new SXSSFSheet(this, xSheet);。那我们来看下这个函数:

public SXSSFSheet(SXSSFWorkbook workbook, XSSFSheet xSheet) throws IOException {
        this._workbook = workbook;
        this._sh = xSheet;
        this._writer = workbook.createSheetDataWriter(); // 这儿创建了临时文件。
        this.setRandomAccessWindowSize(this._workbook.getRandomAccessWindowSize());
        this._autoSizeColumnTracker = new AutoSizeColumnTracker(this);
    }

createSheetDataWriter 中核心的逻辑是 SheetDataWriter。看到createTempFile ,这儿就创建了临时文件。

public SheetDataWriter() throws IOException {
        this._numberLastFlushedRow = -1;
        this._fd = this.createTempFile();
        this._out = this.createWriter(this._fd);
    }

关于临时文件:

前缀:poi-sxssf-sheet 后缀:.xml
存储路径:代码如下

private void createPOIFilesDirectory() throws IOException {
        if (this.dir == null) {
            String tmpDir = System.getProperty("java.io.tmpdir");
            if (tmpDir == null) {
                throw new IOException("Systems temporary directory not defined - set the -Djava.io.tmpdir jvm property!");
            }

            this.dir = new File(tmpDir, "poifiles");
        }

        this.createTempDirectory(this.dir);
    }

2.3 创建row

什么时间从内存写入文件?就是在创建row时。那我们看下代码:

public SXSSFRow createRow(int rownum) {
        int maxrow = SpreadsheetVersion.EXCEL2007.getLastRowIndex();
        if (rownum >= 0 && rownum <= maxrow) {
            if (rownum <= this._writer.getLastFlushedRow()) {
                throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._writer.getLastFlushedRow() + "] that is already written to disk.");
            } else if (this._sh.getPhysicalNumberOfRows() > 0 && rownum <= this._sh.getLastRowNum()) {
                throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._sh.getLastRowNum() + "] that is already written to disk.");
            } else {
                SXSSFRow newRow = new SXSSFRow(this);
                this._rows.put(rownum, newRow);
                this.allFlushed = false;
                // 这儿进行了判断,如果当前行数大于randomAccessWindowSize ,则flushRows
                if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize) {
                    try {
                        this.flushRows(this._randomAccessWindowSize);
                    } catch (IOException var5) {
                        throw new RuntimeException(var5);
                    }
                }

                return newRow;
            }
        } else {
            throw new IllegalArgumentException("Invalid row number (" + rownum + ") outside allowable range (0.." + maxrow + ")");
        }
    }

判断逻辑就在这儿if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize)

下面几部分跟低内存占用没有关系了,只是分析一下在项目中实际用的几个步骤。

2.4 从临时文件写入最终Excel

写入Excel 主要是在workbook.write(out)。看下代码:

public void write(OutputStream stream) throws IOException {
        this.flushSheets(); // 把最后不足randomAccessWindowSize 的行数 写入sheet临时文件。
        File tmplFile = TempFile.createTempFile("poi-sxssf-template", ".xlsx"); // 创建了一个tmplFile临时文件,不是sheet的临时文件哈

        boolean deleted;
        try {
            FileOutputStream os = new FileOutputStream(tmplFile);
            Throwable var5 = null;

            try {
               // 这儿将workbook 中所有的数据都写入刚刚创建的tmplFile临时文件中。
                this._wb.write(os);
            } 
           ...
            ZipSecureFile zf = new ZipSecureFile(tmplFile);  
            var5 = null;

            try {
                ZipFileZipEntrySource source = new ZipFileZipEntrySource(zf);
                Throwable var7 = null;

                try {
                  // 将tmplFile 临时文件写入到目标Excel中。
                    this.injectData(source, stream);
                } 
                ...
        } finally {
            // 删除tmplFile临时文件。 注意不是sheet的临时文件哈。
            deleted = tmplFile.delete();
        }

        if (!deleted) {
            throw new IOException("Could not delete temporary file after processing: " + tmplFile);
        }
    }

基本逻辑很简洁:
(1)将内存中剩余不足randomAccessSize 数目的数据,先写入sheet 临时文件。
(2)将workbook 中所有的数据(就是多个sheet临时文件)写入一个 刚刚创建的tmpl临时文件
(3)将tmpl临时文件 的数据写入目标文件即可。

2.5 删除临时文件

workbook.dispose(); 这儿的逻辑。

public boolean dispose() {
        boolean success = true;
        Iterator var2 = this._sxFromXHash.keySet().iterator();
        // 逐个遍历多个sheet
        while(var2.hasNext()) {
            SXSSFSheet sheet = (SXSSFSheet)var2.next();

            try {
                // 这儿的核心是dispose.
                success = sheet.dispose() && success;
            } catch (IOException var5) {
                logger.log(5, new Object[]{var5});
                success = false;
            }
        }

        return success;
    }

基本的逻辑是,遍历多个sheet, 然后对每个sheet执行dispose . dispose 的逻辑就是如果还没文件没有从sheet中输出,则先flush,然后删除sheet临时文件。

2.6 关于合并单元格的操作

单元格合并的用法:

  CellRangeAddress region0 = new CellRangeAddress(rowNum, rowNum+1, column, column);
  sheet.addMergedRegion(region0);

这儿就是根据 rowNum 跟column进行合并而已。

private int addMergedRegion(CellRangeAddress region, boolean validate) {
        if (region.getNumberOfCells() < 2) {
            throw new IllegalArgumentException("Merged region " + region.formatAsString() + " must contain 2 or more cells");
        } else {
            region.validate(SpreadsheetVersion.EXCEL2007);
            if (validate) {
                this.validateArrayFormulas(region);
                this.validateMergedRegions(region);
            }

            CTMergeCells ctMergeCells = this.worksheet.isSetMergeCells() ? this.worksheet.getMergeCells() : this.worksheet.addNewMergeCells();
            CTMergeCell ctMergeCell = ctMergeCells.addNewMergeCell();
            ctMergeCell.setRef(region.formatAsString());
            return ctMergeCells.sizeOfMergeCellArray();
        }
    }

3 总结

本文结合项目中用到的Excel 工具- SXSSFWorkbook ,进行了简单讲解。并针对SXSSFWorkbook 低内存占用部分进行了分析。希望对你有所帮助~
本文同步发布在掘金 https://juejin.im/post/5dfb9ff3e51d455850282d10
欢迎关注~~~

4 参考文献

HSSF、XSSF和SXSSF区别以及Excel导出优化
https://www.cnblogs.com/pcheng/p/7485979.html
基于流的EXCEL文件导出,SXSSFWorkbook源码解析
https://www.jianshu.com/p/b80a20b8114e

推荐阅读更多精彩内容