Excel工具-SXSSFWorkbook 研究与低内存占用分析

今天项目中有个需要 Excel 导出的需求。看了下同事用了 SXSSFWorkbook 。之前没怎么用到这个组件。既然这次用了就简单分析一下。
POI提供了HSSF、XSSF以及SXSSF三种方式操作Excel。他们的区别如下:

HSSF:是操作Excel97-2003版本,扩展名为.xls。
XSSF:是操作Excel2007版本开始,扩展名为.xlsx。
SXSSF:是在XSSF基础上,POI3.8版本开始提供的一种支持低内存占用的操作方式,扩展名为.xlsx。

本文的重点就是分析一下,SXSSF如何支持低内存占用的。
先说结论:
SXSSF 指定了rowAccessWindowSize ,每个sheet 对应一个临时文件,当行数大于rowAccessWindowSize 时,就会向临时文件中flush, 这样就保证了内存的低占用率。当行创建完,直接从临时文件中写入到Excel中。
有一点需要注意:
像单元格合并类似的操作是纯内存操作,如果项目中想一次合并多行时,要注意随时观察自己机器内容的使用情况,避免出现OOM。

1 来个demo

        // 内存中保持100条数据, 超出的部分刷新到磁盘上
        SXSSFWorkbook wb = new SXSSFWorkbook(100);
     
        Sheet sh = wb.createSheet();
        for(int rownum = 0; rownum < 1000; rownum++){
            Row row = sh.createRow(rownum);
            for(int cellnum = 0; cellnum < 10; cellnum++){
                // 创建行,在这儿根据当前行数跟rowAccessWindowSize 比较,来决定从内存写入文件中。
                Cell cell = row.createCell(cellnum);
                String address = new CellReference(cell).formatAsString();
                cell.setCellValue(address);
            }

        }

        // rownum < 900 的数据被刷新到磁盘,不能被随机访问
        for(int rownum = 0; rownum < 900; rownum++){
            Assert.assertNull(sh.getRow(rownum));
        }

        // 最后的100条数据仍然在内存中,可以随机访问
        for(int rownum = 900; rownum < 1000; rownum++){
            Assert.assertNotNull(sh.getRow(rownum));
        }
        // 从临时文件写入Excel 文件
        FileOutputStream out = new FileOutputStream("d:\\sxssf.xlsx");
        wb.write(out);
        out.close();

        // 从磁盘上释放临时文件
        wb.dispose();

2 主要分析点

2.1 创建SXSSFWorkbook

如demo所示, SXSSFWorkbook wb = new SXSSFWorkbook(100); 中指定了rowAccessWindowSize 为100 ,也就是说
会在内存中缓存 rowAccessWindowSize 行数据。当行数超过 rowAccessWindowSize ,则会从内存输入到临时文件中。

临时文件的生成在 2.2 创建Sheet部分 讲一下。超过阈值刷入临时文件在2.3 创建row 部分讲解。

2.2 创建Sheet

如demo所示,Sheet sh = wb.createSheet(); 创建了Sheet. 那么创建过程中,主要的功能是创建了一个临时文件。每个sheet 一个临时文件。废话不多说,我们来看下createSheet的实现。

public SXSSFSheet createSheet() {
        return this.createAndRegisterSXSSFSheet(this._wb.createSheet());
    }

createAndRegisterSXSSFSheet 中最核心的就是 sxSheet = new SXSSFSheet(this, xSheet);。那我们来看下这个函数:

public SXSSFSheet(SXSSFWorkbook workbook, XSSFSheet xSheet) throws IOException {
        this._workbook = workbook;
        this._sh = xSheet;
        this._writer = workbook.createSheetDataWriter(); // 这儿创建了临时文件。
        this.setRandomAccessWindowSize(this._workbook.getRandomAccessWindowSize());
        this._autoSizeColumnTracker = new AutoSizeColumnTracker(this);
    }

createSheetDataWriter 中核心的逻辑是 SheetDataWriter。看到createTempFile ,这儿就创建了临时文件。

public SheetDataWriter() throws IOException {
        this._numberLastFlushedRow = -1;
        this._fd = this.createTempFile();
        this._out = this.createWriter(this._fd);
    }

关于临时文件:

前缀:poi-sxssf-sheet 后缀:.xml
存储路径:代码如下

private void createPOIFilesDirectory() throws IOException {
        if (this.dir == null) {
            String tmpDir = System.getProperty("java.io.tmpdir");
            if (tmpDir == null) {
                throw new IOException("Systems temporary directory not defined - set the -Djava.io.tmpdir jvm property!");
            }

            this.dir = new File(tmpDir, "poifiles");
        }

        this.createTempDirectory(this.dir);
    }

2.3 创建row

什么时间从内存写入文件?就是在创建row时。那我们看下代码:

public SXSSFRow createRow(int rownum) {
        int maxrow = SpreadsheetVersion.EXCEL2007.getLastRowIndex();
        if (rownum >= 0 && rownum <= maxrow) {
            if (rownum <= this._writer.getLastFlushedRow()) {
                throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._writer.getLastFlushedRow() + "] that is already written to disk.");
            } else if (this._sh.getPhysicalNumberOfRows() > 0 && rownum <= this._sh.getLastRowNum()) {
                throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._sh.getLastRowNum() + "] that is already written to disk.");
            } else {
                SXSSFRow newRow = new SXSSFRow(this);
                this._rows.put(rownum, newRow);
                this.allFlushed = false;
                // 这儿进行了判断,如果当前行数大于randomAccessWindowSize ,则flushRows
                if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize) {
                    try {
                        this.flushRows(this._randomAccessWindowSize);
                    } catch (IOException var5) {
                        throw new RuntimeException(var5);
                    }
                }

                return newRow;
            }
        } else {
            throw new IllegalArgumentException("Invalid row number (" + rownum + ") outside allowable range (0.." + maxrow + ")");
        }
    }

判断逻辑就在这儿if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize)

下面几部分跟低内存占用没有关系了,只是分析一下在项目中实际用的几个步骤。

2.4 从临时文件写入最终Excel

写入Excel 主要是在workbook.write(out)。看下代码:

public void write(OutputStream stream) throws IOException {
        this.flushSheets(); // 把最后不足randomAccessWindowSize 的行数 写入sheet临时文件。
        File tmplFile = TempFile.createTempFile("poi-sxssf-template", ".xlsx"); // 创建了一个tmplFile临时文件,不是sheet的临时文件哈

        boolean deleted;
        try {
            FileOutputStream os = new FileOutputStream(tmplFile);
            Throwable var5 = null;

            try {
               // 这儿将workbook 中所有的数据都写入刚刚创建的tmplFile临时文件中。
                this._wb.write(os);
            } 
           ...
            ZipSecureFile zf = new ZipSecureFile(tmplFile);  
            var5 = null;

            try {
                ZipFileZipEntrySource source = new ZipFileZipEntrySource(zf);
                Throwable var7 = null;

                try {
                  // 将tmplFile 临时文件写入到目标Excel中。
                    this.injectData(source, stream);
                } 
                ...
        } finally {
            // 删除tmplFile临时文件。 注意不是sheet的临时文件哈。
            deleted = tmplFile.delete();
        }

        if (!deleted) {
            throw new IOException("Could not delete temporary file after processing: " + tmplFile);
        }
    }

基本逻辑很简洁:
(1)将内存中剩余不足randomAccessSize 数目的数据,先写入sheet 临时文件。
(2)将workbook 中所有的数据(就是多个sheet临时文件)写入一个 刚刚创建的tmpl临时文件
(3)将tmpl临时文件 的数据写入目标文件即可。

2.5 删除临时文件

workbook.dispose(); 这儿的逻辑。

public boolean dispose() {
        boolean success = true;
        Iterator var2 = this._sxFromXHash.keySet().iterator();
        // 逐个遍历多个sheet
        while(var2.hasNext()) {
            SXSSFSheet sheet = (SXSSFSheet)var2.next();

            try {
                // 这儿的核心是dispose.
                success = sheet.dispose() && success;
            } catch (IOException var5) {
                logger.log(5, new Object[]{var5});
                success = false;
            }
        }

        return success;
    }

基本的逻辑是,遍历多个sheet, 然后对每个sheet执行dispose . dispose 的逻辑就是如果还没文件没有从sheet中输出,则先flush,然后删除sheet临时文件。

2.6 关于合并单元格的操作

单元格合并的用法:

  CellRangeAddress region0 = new CellRangeAddress(rowNum, rowNum+1, column, column);
  sheet.addMergedRegion(region0);

这儿就是根据 rowNum 跟column进行合并而已。

private int addMergedRegion(CellRangeAddress region, boolean validate) {
        if (region.getNumberOfCells() < 2) {
            throw new IllegalArgumentException("Merged region " + region.formatAsString() + " must contain 2 or more cells");
        } else {
            region.validate(SpreadsheetVersion.EXCEL2007);
            if (validate) {
                this.validateArrayFormulas(region);
                this.validateMergedRegions(region);
            }

            CTMergeCells ctMergeCells = this.worksheet.isSetMergeCells() ? this.worksheet.getMergeCells() : this.worksheet.addNewMergeCells();
            CTMergeCell ctMergeCell = ctMergeCells.addNewMergeCell();
            ctMergeCell.setRef(region.formatAsString());
            return ctMergeCells.sizeOfMergeCellArray();
        }
    }

3 总结

本文结合项目中用到的Excel 工具- SXSSFWorkbook ,进行了简单讲解。并针对SXSSFWorkbook 低内存占用部分进行了分析。希望对你有所帮助~
本文同步发布在掘金 https://juejin.im/post/5dfb9ff3e51d455850282d10
欢迎关注~~~

4 参考文献

HSSF、XSSF和SXSSF区别以及Excel导出优化
https://www.cnblogs.com/pcheng/p/7485979.html
基于流的EXCEL文件导出,SXSSFWorkbook源码解析
https://www.jianshu.com/p/b80a20b8114e

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容