IOS开发分享----爬虫技术

这段时间趁闲鱼时间,看到一段关于JAVA爬虫某知名网站的代码;试了试ios利用webview 及 AFNETWORKING网络请求 ;仿java思路 完成了一个成功的dome;

闲话不多说:

    大致流程:

         1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;

         2、利用webview获取cookies (https请求需要自己配置info.list)

         3、参考其请求模式,模拟请求 获取HTML响应体;

         4、解析请求体、展示给用户;     //获取有效信息 

         5、 保存数据提交自己的服务器;


1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;


注:以百度为例


2、利用webview获取cookies


注:web设为(0,0,0,0)给自己的UI留位置


3、参考其请求模式,模拟请求 获取HTML响应体

这个是关键,需要模拟请求

注:这个是HTTPS get请求 

遇到post的其实可以用ios原生post请求 获取 根据浏览器获取的请求方式进行:

NSURLSession*session = [NSURLSessionsharedSession];

// 设置请求路径

NSURL*URL=[NSURLURLWithString:@"https://www.baidu.com"];//不需要传递参数

// 创建请求对象

NSMutableURLRequest*request=[NSMutableURLRequestrequestWithURL:URL];//默认为get请求

request.timeoutInterval=5.0;//设置请求超时为5秒

request.HTTPMethod=@"POST";//设置请求方法

// 设置请求体

NSString*param=[NSStringstringWithFormat:@"reportformat=21&tradeCode=%@",uesr_name];

//把拼接后的字符串转换为data,设置请求体

[requestsetValue:@"max-age=0"forHTTPHeaderField:@"Cache-Control"];

[requestsetValue:cookies forHTTPHeaderField:@"Cookie"];

[requestsetValue:@"https://www.baidu.com"forHTTPHeaderField:@"Origin"];

request.HTTPBody=[paramdataUsingEncoding:NSUTF8StringEncoding];

// 发送请求

NSURLSessionDataTask*dataTask = [sessiondataTaskWithRequest:request completionHandler:^(NSData*_Nullabledata,NSURLResponse*_Nullableresponse,NSError*_Nullableerror) {

// 解析数据data流过来的html编码转换成NSString

NSStringEncodingenc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);//可以在流量器上获取解码的类型

NSString* str =[[NSStringalloc]initWithData:dataencoding:enc];

// 反馈给服务器

NSLog(@"=====>>>>>%@",str);

//[data writeToFile:@"/Users/lufeng1/Desktop/c.html" atomically:YES];//可以测试看看获取的数据正确与否

}];

// 执行任务

[dataTaskresume];


4、解析请求体、展示给用户

解析这里的responseObject即可 给的例子是用GB翻译的 可以用保存的方式 存储为HTML查看 

给个福利吧,查看HTML有些时候获取不全body 可以试试这句话-----

//NSString * str= [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerHTML"];

5、 保存数据提交自己的服务器

自己post回去有用信息即可


文章写的比较粗糙吧,过程之中可能会遇到HTTPS请求报错 那就需要配置相对应的HTTPS.cer文件放入工程:

~openssl s_client -connect www.baidu.com:443 /dev/null | openssl x509 -outform DER > https.cer

可把www.baidu.com替换直接获取证书。

推荐阅读更多精彩内容