关于HTML解析 For IOS

最近公司有一个需求,需要从某网页上获取一些数据传给后台。那就是通过固定网址下载html网页源代码,然后解析。

我先说下解析的库是Ono,他的作者是mattt,也是AFNetworking的贡献者。

Ono非常小,如果是不用CocoaPods添加的话也只需加入ONOXMLDocument.h和ONOXMLDocument.m两个文件就好了,不过还要导入libxml2系统自带的库,在Build Setting-Header Search Paths中加入 "/usr/include/libxml2"路径。(后有截图)

当然如果使用CocoaPods的话就:
pod 'Ono'

Ono库可以单独使用也可以配合AFNetworking一起用。

解析完整过程

这里的url是中国商品信息服务平台的查询接口。

首先获取html:

NSString *urlstring = [NSString stringWithFormat:@"http://search.anccnet.com/searchResult2.aspx?keyword=%@",string];
NSData *data = [NSData dataWithContentsOfURL:[NSURL URLWithString:urlstring] options:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

url中的string是商品条形码的数字(当然也可以是商品名)。
CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) 这是网页的编码格式,一般中国网站的编码格式都是gb2312,当然这也能在html头信息中看到(下面会讲到)。

具体内容你可以用chrome、firefox等浏览器打开看下源代码。你也可以用:

NSString *appConnect = [NSString stringWithContentsOfURL:[NSURL URLWithString:urlstring] encoding:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

然后输出字符串查看具体内容。因为内容较多,我就把需要中到的内容展示出来(不需要的内容我删掉了):

<!DOCTYPE html>
<html>
<head>
<meta charset="gb2312" />
    </head>
    <body >
    <form name="form1" method="post" action="searchResult2.aspx?keyword=6949322340125" id="form1">
      <div class="wrap">
        <div class="bodyer">
          <div class="mainly">
              <div id="outter">
                <ol id="results">
                  
                      <li>
                        <div class="result">
                          <p class="p-img" align="center"><a id="repList_ctl00_herl" target="_blank"> ![](/img/empty_90-90.8.png)</a></p>
                          <dl class="p-supplier">
                            <dt>商标:</dt>
                            <dd>惠松</dd>
                            <dt>发布厂家:</dt>
                            <dd>
                              <a id="repList_ctl00_firmLink" target="_blank">浙江惠松制药有限公司</a>
                            </dd>
                          </dl>
                          <dl class="p-info">
                            <dt>商品条码:</dt>
                            <dd><a href="http://www.anccnet.com/goods.aspx?base_id=F25F56A9F703ED7474EA7953D2DA975F112AE9F1ECDF18E34A679C53DA8520C047F3B14BA4309A1E" target="_blank">06949322340125</a></dd>
                            <dt>名称:</dt>
                            <dd> 复方鱼腥草合剂</dd>
                            <dt>规格型号:</dt>
                            <dd> 10ML12凭</dd>
                            <dt>描述:</dt>
                            <dd> </dd>
                          </dl>
                          <br clear="all" />
                        </div>
                      </li>        
                </ol>
              </div>
            </div>
            <div id="myPager">

</div>
          </div>
          
        </div>

</html>

html的内容我就不解释了,可以在w3school 中查看。
可以看到头部中有显示是gb2312编码格式。我要获取到的就是其中商品的一些信息(包括商品条码、名称、规格型号、描述、商标和发布厂商)。

下面是解析的代码:

ONOXMLDocument *document = [ONOXMLDocument HTMLDocumentWithData:data error:nil];
HTMLMedicine *medicine = [[HTMLMedicine alloc] init];
NSString *xpath = @"//body/form/div[@class='wrap']/div[@class='bodyer']/div[@class='mainly']/div[@id='outter']/ol[@id='results']/li[1]/div[@class='result']";
[document enumerateElementsWithXPath:xpath usingBlock:^(ONOXMLElement *element, NSUInteger idx, BOOL *stop) {
        NSLog(@"%@: %@", element.tag, element.attributes);
        
        for (ONOXMLElement *celement in element.children) {
            
            //商家和发布厂家
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-supplier"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.brand = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.manufacturer = [[ccelement stringValue] stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]];
                    }
                    
                }
            }
            
            //商品条码、名称、规格型号、描述
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-info"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.code = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.name = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 2) {
                        medicine.specificagionmodel = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 3) {
                        medicine.descriptions = [ccelement stringValue];
                    }
                }
            }
        }
        NSLog(@"%@",medicine);
    }];

首先把NSData转成ONOXMLDocument,然后定位到你需要的信息位置(用xpath),定位到后得到相应的ONOXMLElement,其中的tag表示节点是什么,attributes是节点中的内容,其它属性可以自己查看Ono

具体的解析我就不讲了,这里我建了个HTMLMedicine的模型存储,包含以下属性:

@property (nonatomic, strong) NSString *code;                 //商品条码
@property (nonatomic, strong) NSString *name;                 //名称
@property (nonatomic, strong) NSString *specificagionmodel;   //规格型号
@property (nonatomic, strong) NSString *descriptions;         //描述
@property (nonatomic, strong) NSString *brand;                //商标
@property (nonatomic, strong) NSString *manufacturer;         //发布厂商

如果你的项目有集成AFNetworking这里也有个便捷的使用方式

最后是Ono手动集成配置的截图,感谢阅读:)


libxml2添加

Header Search Paths添加路径
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,504评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,898评论 1 300
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,218评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,322评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,693评论 3 290
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,812评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,010评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,747评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,476评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,700评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,190评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,541评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,206评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,129评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,903评论 0 199
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,894评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,748评论 2 274

推荐阅读更多精彩内容