Carson带你学序列化:深入分析XML多种解析方式(DOM、SAX、PULL)


目录

示意图

1. 定义

XML,即 extensible Markup Language ,是一种数据标记语言 & 传输格式

关于另外1种主流的数据传输格式 JSON,具体请看:Carson带你学序列化:深入分析JSON多种解析方式(Gson、AS自带org.json、Jackson)


2. 作用

对数据进行标记(结构化数据)、存储 & 传输

区别于 htmlhtml用于显示信息;而 XML用于存储&传输信息


3. 特点

示意图

4. 语法

  • 元素要关闭标签
    < p >this is a bitch <p>
  • 对大小写敏感
< P >这是错误的<p>
< p >这是正确的 <p>
  • 必须要有根元素(父元素)
<root>
   <kid>
   </kid>
</root>
  • 属性值必须加引号
<note date="16/08/08">
</note>
  • 实体引用
实体引用 符号 含义
&lt; < 小于
&gt ; > 大于
&amp; & 和浩
&apos; 单引号
&quot; " 双引号

元素不能使用&(实体的开始)和<(新元素的开始)

  • 注释
    ``
  • XML的元素、属性和属性值

文档实例

<bookstore>
  <book category="CHILDREN">
     <title lang="en"> Harry Potter </title>
     <author> JK.Rowling</author>
  </book>
<book category="WEB">
     <title lang="en"> woshiPM </title>
     <author>Carson_Ho</author>
  </book>
</bookstore>

其中,<bookstore>是根元素;<book>是子元素,也是元素类型之一;而<book>中含有属性,即category,属性值是CHILDREN;而元素<author>则拥有文本内容( JK.Rowling)

  • 元素与属性的差别
    属性即提供元素额外的信息,但不属于数据组成部分的信息。

范例一

<bookstore>
  <book category="CHILDREN">
     <title lang="en"> Harry Potter </title>
     <author> JK.Rowling</author>
  </book>

范例二

<bookstore>
  <book >
     <category>CHILDREN<category>
     <title lang="en"> Harry Potter </title>
     <author> JK.Rowling</author>
  </book>

范例一和二提供的信息是完全相同的。

一般情况下,请使用元素,因为

  1. 属性无法描述树结构(元素可以)
  2. 属性不容易拓展(元素可以)

使用属性的情况:用于分配ID索引,用于标识XML元素。

实例

<bookstore>
  <book id = "501">
     <category>CHILDREN<category>
     <title lang="en"> Harry Potter </title>
     <author> JK.Rowling</author>
  </book>
  <book  id = "502">
     <category>CHILDREN<category>
     <title lang="en"> Harry Potter </title>
     <author> JK.Rowling</author>
  </book>
<bookstore>

上述属性(id)仅用于标识不同的便签,并不是数据的组成部分

  • XML元素命名规则
  1. 不能以数字或标点符号开头
  2. 不能包含空格
  3. 不能以xml开头
  • CDATA
    不被解析器解析的文本数据,所有xml文档都会被解析器解析(cdata区段除外)
    <![CDATA["传输的文本 "]]>

  • PCDATA
    被解析的字符数据


5. XML树结构

XML文档中的元素会形成一种树结构,从根部开始,然后拓展到每个树叶(节点),下面将以实例说明XML的树结构。

  • 假设一个XML文件如下
<?xml version ="1.0" encoding="UTF-8"?>
<简历>
     <基本资料>
     <求职意向>
     <自我评价>
     <其他信息>
     <联系方式>
     <我的作品>
 </简历>
  • 其树结构如下


    树结构 .png
  • XML节点解释
    XML文件是由节点构成的。它的第一个节点为“根节点”。一个XML文件必须有且只能有一个根节点,其他节点都必须是它的子节点。



    this 代表整个XML文件,它的根节点就是 this.firstChild 。 this.firstChild.childNodes 则返回由根节点的所有子节点组成的节点数组。


每个子节点又可以有自己的子节点。节点编号由0开始,根节点的第一个子节点为 this.firstChild.childNodes[0],它的子节点数组就是this.firstChild.childNodes[0].childNodes 。


根节点第一个子节点的第二个子节点 this.firstChild.childNodes[0].childNodes[1],它返回的是一个XML对象(Object) 。这里需要特别注意,节点标签之间的数据本身也视为一个节点 this.firstChild.childNodes[0].childNodes[1].firstChild ,而不是一个值。


我们解析XML的最终目的当然就是获得数据的值:this.firstChild.childNodes[0].childNodes[1].firstChild.nodeValue 。

请注意区分:节点名称(<性别></性别>)和之间的文本内容(男)可以当作是节点,也可以当作是一个值

节点:
名称:this.firstChild.childNodes[0].childNodes[1]
文本内容:this.firstChild.childNodes[0].childNodes[1].firstChild

值:
名称:this.firstChild.childNodes[0].childNodes[1].nodeValue
(节点名称有时也是我们需要的数据)
文本内容:this.firstChild.childNodes[0].childNodes[1].nodeName

在了解完XML之后,是时候来学下如何进行XML的解析了


6. 解析方式

  • 解析XML,即从XML中提取有用的信息
  • XML的解析方式主要分为2大类:
    示意图

6.1 DOM方式

  • 简介
    Document Object Model,即 文件对象模型,是 一种 基于树形结构节点 & 文档驱动 的XML解析方法

定义了访问 & 操作xml文档元素的方法和接口

  • 解析原理
示意图
  • 具体解析实例
// 假设需要解析的XML文档如下(subject.xml)

<?xml version ="1.0" encoding="UTF-8"?>`
<code>
<language id="1">
    <name>Java</name>
    <usage>Android</usage>
 </language>
<language id="2">
    <name>Swift#</name>
    <usage>iOS</usage>
 </language>
<language id="3">
    <name>Html5</name>
   <usage>Web</usage>
 </language>
 </code>

// 解析的核心代码

public static List<subject> getSubjectList(InputStream stream)
   { tv = (TextView)findViewById(R.id.tv);
        try {
            //打开xml文件到输入流
            InputStream stream = getAssets().open("subject.xml");
            //得到 DocumentBuilderFactory 对象
            DocumentBuilderFactory builderFactory = DocumentBuilderFactory.newInstance();
            //得到DocumentBuilder对象
            DocumentBuilder builder = builderFactory.newDocumentBuilder();
            //建立Document存放整个xml的Document对象数据
            Document document = builder.parse(stream);
            //得到 XML数据的"根节点" 
            Element element = document.getDocumentElement();
            //获取根节点的所有language的节点
            NodeList list = element.getElementsByTagName("language");
             //遍历所有节点
            for (int i= 0;i<=list.getLength();i++){
            //获取lan的所有子元素
                Element language = (Element) list.item(i);
            //获取language的属性(这里即为id)并显示
                tv.append(lan.getAttribute("id")+"\n");
          //获取language的子元素 name 并显示                       tv.append(sub.getElementsByTagName("name").item(0).getTextContent()+"\n");
         //获取language的子元素usage 并显示                    tv.append(sub.getElementsByTagName("usage").item(0).getTextContent()+"\n");
            }
  • 特点 & 应用场景
示意图

6.2 SAX 方式

  • 简介
    Simple API for XML一种 基于事件流驱动、通过接口方法解析 的XML解析方法

  • 解析原理


    示意图
  • 解析实例
    在使用SAX解析XML文档时,关键在于 自定义自己的Handler处理类 & 复写对应方法
public class MyHandler extends DefaultHandler{ 
    @Override 
    public void startDocument() throws SAXException{ 
    } 
 
    @Override 
    public void startElement(String uri,String localName,String qName, 
                     Attributes attributes) throws SAXException{ 
    } 
 
    @Override 
    public void characters(char[] ch,int start,int length) throws SAXException{ 
    } 
 
    @Override 
    public void endElement(String uri,String localName,String qName) 
              throws SAXException{ 
    } 
 
    @Override 
    public void endDocument() throws SAXException{ 
    } 
}
  • 特点 & 应用场景
示意图

6.3 PULL解析

  • 简介
    一种 基于事件流驱动 的XML解析方法
  • 解析原理
示意图
  • 解析模板代码

注:Android中自带了Pull解析的jar包,故不需额外导入第三方jar

// Pull使用循环解析
XmlPullParserFactory factory = XmlPullParserFactory.newInstance(); 
XmlPullParser xmlPullParser = factory.newPullParser(); 
xml.setInput(new StringReader(xmlData)); 
 
int eventType = xmlPullParser.getEventType(); 
 
while(eventType!=XmlPullParser.END_DOCUMENT){ 
    String nodeName = xmlPullParser.getName(); 
    switch(eventType){ 
        case XmlPullParser.START_DOCUMENT:{} 
        case XmlPullParser.START_TAG:{} 
        case XmlPullParser.END_TAG:{}  
    }  
    eventType = parser.next(); 
}
  • 解析实例
public class MainActivity extends Activity {
    private EditText et;
    private Button myButton;
    @Override
    public void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
         myButton = (Button) this.findViewById(R.id.btn01);
        et = (EditText) this.findViewById(R.id.edittext01);
        myButton.setOnClickListener(new OnClickListener() {
        //可变字符序列,比StringBuffer块
            StringBuilder sb = new StringBuilder("");
            Resources res = getResources();
            XmlResourceParser xrp = res.getXml(R.xml.subject);
            @Override
            public void onClick(View v) {
                int counter = 0;
                try {

                    // 判断是否到了文件的结尾
                    while (xrp.getEventType() != XmlPullParser.END_DOCUMENT) {
                        //文件的内容的起始标签开始,这里的起始标签是subject.xml文件里面<subjects>标签下面的第一个标签
                        int eventType=xrp.getEventType();
                        switch (eventType) {
                            case XmlPullParser.START_DOCUMENT:
                                break;
                            case  XmlPullParser.START_TAG:
                                String tagname = xrp.getName();
                                if (tagname.endsWith("language")) {
                                    counter++;
                                    sb.append("这是第" + counter + "种语言"+"\n");
                                    //可以调用XmlPullParser的getAttributte()方法来获取属性的值
                                    sb.append("语言id是:"+xrp.getAttributeValue(0)+"\n");
                                }
                                else if(tagname.equals("name")){
                                    //可以调用XmlPullParser的nextText()方法来获取节点的值
                                    sb.append("语言名称是:"+xrp.nextText()+"\n");
                                }
                                else if(tagname.equals("teacher")){
                                    sb.append("用途是:"+xrp.nextText()+"\n");
                                }
                                break;
                            case XmlPullParser.END_TAG:
                                break;
                            case XmlPullParser.TEXT:
                                break;
                        }
                        //解析下一个事件
                        xrp.next();
                    }
                    //StringBuilder要调用toString()方法并显示
                    et.setText(sb.toString());
                } catch (XmlPullParserException e) {

                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        });
    }
  • 特点 & 应用场景
示意图

6.4 解析方式对比

示意图

7. 总结


欢迎关注Carson_Ho的简书

不定期分享关于安卓开发的干货,追求短、平、快,但却不缺深度


请点赞!因为你的鼓励是我写作的最大动力!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,881评论 4 368
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,052评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,598评论 0 250
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,407评论 0 217
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,823评论 3 294
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,872评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,037评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,778评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,505评论 1 247
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,745评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,233评论 1 264
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,568评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,231评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,141评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,939评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,954评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,784评论 2 275

推荐阅读更多精彩内容

  • 1. XML总结 1.1. XML简介 XML : 可扩展的标记语言。(和HTML非常类似的) 可扩展的。 自定义...
    Ethan_Walker阅读 2,834评论 0 12
  • DOMDOM是基于树形结构的的节点或信息片段的集合,允许开发人员使用DOM API遍历XML树、检索所需数据。分析...
    冯奕欢阅读 685评论 0 2
  • 一、绪论 上周工作需要了解项目的一些大体内容,结果在xml解析这一块看的迷迷糊糊的,所以在这里把学习到xm...
    cao健强阅读 3,928评论 1 7
  • DOM(文档对象模型)是针对 HTML 和 XML 文档的一个 API。DOM 描绘了一个层次化的节点树,允许开发...
    劼哥stone阅读 718评论 8 6
  • 不务正业,就好跟兄弟姐们八卦嬉戏点这!这不正经的毛病![捂脸][捂脸][捂脸] 怎么着也得外面棒点,再计较里子,咱...
    纵情嬉戏天地间阅读 103评论 0 1