Node.js excel sheetjs/js-xlsx

参考
js-xlsx github源码
在 Node.js 中利用 js-xlsx 处理 Excel 文件
在浏览器和node中使用 GitHub的js-xlsx库进行Excel文件处理(一)

一、读取单元格

参考nodejs 操作 excel
在 sheet 中读单元格是通过索引下标的形式,像这样:sheet["A1"] 表示读取第一个单元格(下文用 A1 泛指这种表示方法)。这种方式保持了 excel 软件里面的用法,很好理解,但是不利于程序编码。通常处理二维数据,最容易想到的就是通过行列索引直接定位一个单元格,但是 sheet 并不支持这种方式,好在 xlsx 提供了几个函数,方便在行列索引和“A1”索引相互转换:

  • xlsx.utils.encode_row(row_index) 将基于 0 的索引转换为基于 1 的索引,之所以有这个方法是因为,程序里面下标都是从 0 开始计算,而 excel 软件却是从 1 开始计算,下同
  • xlsx.utils.decode_row(row) 与上个方法相反,将基于 1 的索引转换为基于 0 的索引
  • xlsx.utils.encode_col(col_index) 将基于 0 的索引转换为 ABCD 这种列;excel 表格软件中,列的表示是A, B, C, D,这个函数将 A, B, C, D 对应到 0, 1, 2, 3
  • xlsx.utils.decode_col(col) 与上个方法相反,将 ABCD 这种列索引转换为基于 0 的索引
  • xlsx.utils.encode_cell(object) 将一个行列对象转换为 A1 这种字符串
  • xlsx.utils.decode_cell(addr) 与上个方法相反,将 A1 这种字符串转换为一个行列对象
  • xlsx.utils.encode_range(obj) 将一个范围对象转换为 A1:G8 这种字符串
  • xlsx.utils.decode_range(addr) 与上个方法相反,将 A1:G8 这种字符串转换为行列对象

举个栗子,假设要读第 8 行第 8 列这个单元格的数据,首先得到它的 A1 表示法:

// ===========    第一种方法    ==============
var row = xlsx.utils.encode_row(7);  
//输出:'8'
var col = xlsx.utils.encode_col(7);  
//输出:'H'
var addr = col + row;// => H8

// ===========    第二种方法    ==============
//注意这里的行列对象表示形式
var addr = xlsx.utils.encode_cell({r: 7, c: 7});  
//输出:H8
//如果执行 xlsx.utils.decode_cell('H8'); 则
//输出:{r: 7, c: 7}

其实,第二种方法就是第一种方法的升级版,可以少写一些代码。

再举个栗子,假设已知需要获取 B4:D9 范围的数据,也就是 B, C, D 3 列和 4 5 6 7 8 9 6 行的交叉区域:

var range = xlsx.utils.decode_range('B4:D9')  
//输出:
{
  s: { c: 1, r: 3 },
  e: { c: 3, r: 8 }
}

我不知道看到这里的客官您的内心感受,但是我已经忍不住吐槽了,尽管我已经理解了这个万恶的输出对象,但还是要说,这他妈的的什么玩意啊。。。用户体验太差了吧。

解释下吧。输出中的 s, e 表示 start, end。也就是说这个输出表示了开始的行索引和列索引,结束的行索引和列列索引。剩下的就是你自己循环得到它的数据了。 最后强调下,使用 A1 这种下标索引的时候,A1 一定要写成 A1,写成小写的就不对了。

艰难的了解了如何获取单元格,现在说说单元格的秘密。你可能会说:单元格不就是一串文本吗,有什么秘密呢?在我使用这个库之前,我也是有这种想法的,但是最终看到单元格的表示形式之后,我才明白我错了。先上代码:

var cell = sheet['A1'];  
console.log(cell);  

输出:

{
    "v": "单元格的原始值",
    "w": "单元格格式化之后的文本",
    "t": "数据类型",
    "f": "cell formula",
    "r": "富文本",
    "h": "富文本的HTML表示形式",
    "c": "注释",
    "z": "数字格式化模板",
    "l": "如果当前单元格内容是超链接,这里存储了超链接内容",
    "s": "单元格样式"
}

看到了吧,不要以为获取到单元对象,就没事了,这里还有一堆属性等着你临幸呢。每个属性的解释以属性值得形式给出了。通常,获取到的单元格可能不会有上面全部的属性,如:纯文本单元格就没有 "r", "h", "l" 等属性。

还有,日期单元格的原始值 v 和格式化值 w 不一样,因为日期在 excel 以数字形式存储;超链接单元格的文本是 v,而链接是 l.Target。

平时使用单元格的时候,如果处理的表格不是很复杂,获取 v 属性的值就 OK 了。如果太复杂,还是用 excel 软件处理吧,这里就不深入这个单元格了。

二、基本概念

1.workbook 对象,指的是整份 Excel 文档。我们在使用 js-xlsx 读取 Excel 文档之后就会获得 workbook 对象。
2.worksheet 对象,指的是 Excel 文档中的表。我们知道一份 Excel 文档中可以包含很多张表,而每张表对应的就是 worksheet 对象。
3.cell 对象,指的就是 worksheet 中的单元格,一个单元格就是一个 cell 对象。
它们的关系如下:

// workbook
{
    SheetNames: ['sheet1', 'sheet2'],
    Sheets: {
        // worksheet
        'sheet1': {
            // cell
            'A1': { ... },
            // cell
            'A2': { ... },
            ...
        },
        // worksheet
        'sheet2': {
            // cell
            'A1': { ... },
            // cell
            'A2': { ... },
            ...
        }
    }
}

4.读取 Excel 文件

import XLSX from 'xlsx';
const workbook = XLSX.readFile('someExcel.xlsx', opts);

5.获取 Excel 文件中的表

// 获取 Excel 中所有表名
const sheetNames = workbook.SheetNames; // 返回 ['sheet1', 'sheet2']
// 根据表名获取对应某张表
const worksheet = workbook.Sheets[sheetNames[0]];

6.通过 worksheet[address] 来操作表格,以 ! 开头的 key 是特殊的字段。

// 获取 A1 单元格对象
let a1 = worksheet['A1']; // 返回 { v: 'hello', t: 's', ... }

// 获取 A1 中的值
a1.v // 返回 'hello'

// 获取表的有效范围
worksheet['!ref'] // 返回 'A1:B20'
// 返回 range 对象,{ s: { r: 0, c: 0}, e: { r: 100, c: 2 } }
worksheet['!range']

// 获取合并过的单元格
 // 返回一个包含 range 对象的列表,[ {s: { r: 0, c: 0 }, c: { r: 2, c: 1 } } ]
worksheet['!merges']
三、其它

1.xlsx.js使用了ES5的功能,比如Array和forEach等,为了兼容低版本的浏览器,使用了shim技术。在加载xlsx.js文件之前加载shim.js(在dist/ directory文件夹里面),还有xlsx只能解析xls,也就是97-03的excel表格,如果要解析xlsx,也就是03之后的excel表格,需要引入jszip.js文件,而且需要在xlsx之前加载

2.worksheet到底是什么

var worksheet = workbook.Sheets[Sheet1]; 
console.log(“打印sheet1:\n”,worksheet);

可以看出,worksheet是一个对象,里面包含名称/值对,值对的值仍然是对象。要获取A1单元格的值,这样:

var desired_cell = worksheet[A1];
var desired_value = desired_cell.v;

四、DEMO

/**
 * 转换 excel 为 HTML 文件
 *
 * @file xlsx2json.js
 * @author mystorp@gmail.com
 *
 */

var fs = require('fs'),  
    xlsx = require('xlsx');

/**
 * 解析 excel 为 JSON 对象,每个 excel 有多个 sheet 页,
 * 每个 sheet 页里面有多行数据,每行数据有多列,最终 sheet
 * 的数据存储为二维数组。
 * 返回格式:
 * {
 *     "Sheet 1": [
 *          [col1, col2, col3, ...],//第一行数据
 *          [col1, col2, col3, ...],//第二行数据
 *          ...
 *     ],
 *     "Sheet 2": []
 * }
 *
 * @param {String} input - 要处理的 excel 源文件
 * @return {Object} 返回
 */
function parse(input) {  
    var book = xlsx.readFileSync(input), result = {};
    //循环工作表中的每个 sheet 页
    book.SheetNames.forEach(function(name){
        //拿到当前 sheet 页对象
        var sheet = book.Sheets[name],
            //得到当前页内数据范围
            range = xlsx.utils.decode_range(sheet['!ref']),
            //保存数据范围数据
            row_start = range.s.r, row_end = range.e.r,
            col_start = range.s.c, col_end = range.e.c,
            rows = [], row_data, i, addr, cell;
        //按行对 sheet 内的数据循环
        for(;row_start<=row_end;row_start++) {
            row_data = [];
            //读取当前行里面各个列的数据
            for(i=col_start;i<=col_end;i++) {
                addr = xlsx.utils.encode_col(i) + xlsx.utils.encode_row(row_start);
                cell = sheet[addr];
                //如果是链接,保存为对象,其它格式直接保存原始值
                if(cell.l) {
                    row_data.push({text: cell.v, link: cell.l.Target});
                } else {
                    row_data.push(cell.v);
                }
            }
            rows.push(row_data);
        }
        //保存当前页内的数据
        result[name] = rows;
    });
    return result;
}

/**
 * 根据模板页生成最终的页面
 *
 * @param file 要生成文件的路径
 */
function createPage(file, head, catalogs) {  
    var src = fs.readFileSync('template.html', {encoding: 'utf-8'}), o;
    o = {head:head, catalogs: catalogs};
    src = src.replace(/\{(.*?)\}/g, function(_, key){
        return (key in o) ? JSON.stringify(o[key]) : _;
    });
    fs.writeFileSync(file, src);
}

if(module === require.main) {  
    var files = [
        {filename: '1.xls', text: 'jhs', html: 'index_jhs.html'},
        {filename: '2.xls', text: 'tm', html: 'index.html'}
    ];
    var prefix = "./";
    files.forEach(function(c){
        var result = parse(c.filename), dir = prefix + c.text, k, catalogs = [], i;
        fs.existsSync(dir) || fs.mkdirSync(dir);
        i = 1;
        for(k in result) {
            fs.writeFileSync(dir + '/' + i + '.json', JSON.stringify(result[k]));
            catalogs.push([k, i]);
            i++;
        }
        createPage(prefix + c.html, c, catalogs);
    });
}

end

推荐阅读更多精彩内容