iOS使用CoreML分类汽车评论

前言


上一篇【iOS使用CoreML来分类垃圾信息】文章中用的是英文语料,而苹果的文本分类其实是支持多语言的,而中文的训练在国内更具实用价值,所以本文介绍如何针对中文语料进行训练。

使用的数据来自汽车论坛的评论,有9000+条数据,已经进行了标记。

构建模型


使用的原始数据格式如下,包含评论和已经标记的主题、ID、观点等,我们模型只使用了评论和主题:

train.csv

模型训练:

import Cocoa
import CreateML
import NaturalLanguage

let data = try MLDataTable(contentsOf: URL(fileURLWithPath: "/Users/Jiao/Desktop/SecurityKeeper/CommentClassify/data.json"))
var (trainData, testData) = data.randomSplit(by: 0.8, seed: 5);
let param = MLTextClassifier.ModelParameters(validationData: testData, algorithm: MLTextClassifier.ModelAlgorithmType.maxEnt(revision: 1), language: NLLanguage.simplifiedChinese)
let commentClassifier = try MLTextClassifier(trainingData: data, textColumn: "content", labelColumn: "subject", parameters: param)
let evalMetrics = commentClassifier.evaluation(on: testData)
let evalAcc = 1 - evalMetrics.classificationError
print(evalAcc)

let metadata = MLModelMetadata(author: "Jiao", shortDescription: "comment classify", license: "MIT", version: "1.0", additional: nil)
try commentClassifier.write(to: URL(fileURLWithPath: "/Users/Jiao/Desktop/SecurityKeeper/CommentClassify/mlmodel/classifier.mlmodel"), metadata: metadata)

这里原始数据的中文中有很多格式是CreateML无法处理的,如果不清洗的话会卡在文本映射向量阶段,而且内存会一直上涨,有其他帖子说中文训练很耗内存可能就是这个原因。最后我将数据中部分格式清洗过后就能正常训练,9000多条评论训练速度也就几十秒还是可以接受。

模型使用


有了模型后使用就很简单了,跟英文语料生成模型使用一样,导入mlmodel后,xcode会自动生成类和接口函数。

代码如下:

//
//  MainTableViewController.m
//  CarComment
//
//  Created by Jiao Liu on 6/20/19.
//  Copyright © 2019 ChangHong. All rights reserved.
//

#import "MainTableViewController.h"
#import "classifier.h"

@interface MainTableViewController () {
    NSMutableArray *data;
    classifier *model;
}

@end

@implementation MainTableViewController

- (void)viewDidLoad {
    [super viewDidLoad];
    data = [NSMutableArray arrayWithObjects:@"这玩意都是给有钱任性又不懂车的土豪用的,这价格换一次我妹夫EP020可以换三锅了",
            @"听过,价格太贵,但一直念念不忘",
            @"说实话,基本上用不上车上导航,用手机更方便!音响效果不用纠结,毕竟不是想成为移动音乐厅。",
            @"换4条静音轮胎才是正道",
            @"2.0 平均油耗10个 不到四千公里",
            @"同样的颜色 你们觉得是16款好看还是19款好看",
            @"女孩子打算买国六1.5t中配,12万多,首付20%不到3万,上路5万左右,分4年,一月还2500左右。贵吗?",
            @"我想问一下 16寸轮毂要比17寸轮毂小,那车子底盘离地面的距离是不是16寸的比17寸的还要矮上很多???",
            @"这车没有自动落锁吗",
            @"想要动力强提速快就菲斯塔 情怀就思域 我们开本田125长大的就是喜欢买本田",
            nil];
    model = [[classifier alloc] init];
    self.tableView.allowsSelection = NO;
}

#pragma mark - Table view data source

- (NSInteger)numberOfSectionsInTableView:(UITableView *)tableView {
    return 1;
}

- (NSInteger)tableView:(UITableView *)tableView numberOfRowsInSection:(NSInteger)section {
    return data.count;
}


- (UITableViewCell *)tableView:(UITableView *)tableView cellForRowAtIndexPath:(NSIndexPath *)indexPath {
    UITableViewCell *cell = [tableView dequeueReusableCellWithIdentifier:@"Cell" forIndexPath:indexPath];
    
    NSString *comment = [data objectAtIndex:indexPath.row];
    cell.textLabel.text = comment;
    cell.textLabel.numberOfLines = 0;
    cell.detailTextLabel.text = [[model predictionFromText:comment error:nil] label];
    
    return cell;
}

- (IBAction)AddClicked:(id)sender {
    UIAlertController *alert = [UIAlertController alertControllerWithTitle:@"New Post" message:nil preferredStyle:UIAlertControllerStyleAlert];
    UIAlertAction *action = [UIAlertAction actionWithTitle:@"cancel" style:UIAlertActionStyleCancel handler:nil];
    [alert addAction:action];
    
    [alert addTextFieldWithConfigurationHandler:^(UITextField * _Nonnull textField) {
        textField.clearButtonMode = UITextFieldViewModeWhileEditing;
    }];
    
    UIAlertAction *confirm = [UIAlertAction actionWithTitle:@"confirm" style:UIAlertActionStyleDefault handler:^(UIAlertAction * _Nonnull action) {
        NSString *newComment = alert.textFields.firstObject.text;
        if (newComment.length != 0) {
            [self->data insertObject:newComment atIndex:0];
            [self.tableView reloadData];
            [self.tableView scrollToRowAtIndexPath:[NSIndexPath indexPathForRow:0 inSection:0] atScrollPosition:UITableViewScrollPositionTop animated:YES];
        }
    }];
    [alert addAction:confirm];
    
    
    [self presentViewController:alert animated:YES completion:nil];
}

@end

运行效果


源码地址:https://github.com/JiaoLiu/CommentClassify 🏎️

demo.gif
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容

  • 中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含...
    Paddle阅读 9,019评论 0 7
  • 要查看原文,请参看:原文地址 简介 自然语言处理是当今十分热门的数据科学研究项目。情感分析则是自然语言处理中一个很...
    凌冰_lonny阅读 12,896评论 0 55
  • 1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类...
    高永峰_GYF阅读 27,091评论 4 21
  • 今天我们继续分享诸葛越的精品课《如何培养面对未来的孩子》 是第四节课《用工作方法培养孩子》,那我们看看精英妈妈是如...
    白天的前奏阅读 173评论 2 0
  • 60是一个神奇的数字,我把它称为“轮回之数”。 秒针走了六十下,是一个轮回,进入了几世前的分针历程;分针走了六十下...
    夏念念阅读 138评论 0 1