文本分类的特征选择——DF和卡方检验

收集好了训练样本集,需要对文本词语进行特征选择。
特征选择的意义有两个:
1.去掉噪音
去噪一个是去掉无意义的词,像只有几个文档出现过的词,或者每一个文档都出现的词。或者在很多类别里面都存在的词,其实都没有太大的意义。因为这些词对分类的结果起不到太大的作用。
2.降低维度
降维的作用主要是减少运算复杂度,加快运算速度。如果是自己的电脑一般也不会配置一个256g内存,从这个方面看,筛选的特征越少越好。

常见的特征选择方法,就如宗成庆的《统计自然语言处理》里面写的,有文档频率DF,互信息MI,信息增益IG,卡方检验CHI等等这几种方法。

DF很好理解的,文档频率。就是计算一个词出现的文章数目,非常简单的统计。

先跑了一遍DF,文本数是25236篇。十个类型,数据量分布不均匀。
跑出来词量是88w+。
贴上计算DF的代码

HashMap<String, Double> DFMap = new HashMap<String, Double>();
//在挑选训练集的基础上,计算文档频率DF
    public void getDF(String path) throws IOException {
        for (int i = 0; i < fileList.size(); i++) {
            HashSet<String> idSet = readid(fileList.get(i));
            for (String id : idSet) {
                Item item = hbase.getItem(id);
                if(item == null) {
                    LOG.info("is null . id "+id);
                    continue;
                    }
                List<Feature> keywords = item.getkeywords();
                for (Feature feature : keywords) {
                    if(DFMap.containsKey(feature.getName().trim())) {
                        DFMap.put(feature.getName().trim(), DFMap.get(feature.getName().trim())+1);
                    }
                    else {
                        DFMap.put(feature.getName().trim(), 1.0);
                    }
                }
            }
        }
        FileWriter fw = new FileWriter(path,true);
        for(Entry<String, Double> entry : DFMap.entrySet()) {
            fw.write(entry.getKey()+"\t"+entry.getValue()+"\n");
        }
        fw.flush();
        fw.close();
    }

然后,观察了一下,去掉了某些无意义的词,然后把DF小于6的都去掉了,一下就清爽了不少。还有把大于7000的都去掉了,这部分没多少。这样剩下9w+的词汇。
接着计算CHI检验。
CHI又叫卡方统计量,或者卡方检验。
先画个表格

特征\类别 Cx ~Cx
ti A B
~ti C D

然后我来说说这几个变量的意思。
表头C表示某个类别C,某个用Cx来说明
~C自然就表示非某个类别C
t表示预料中的词,ti就表示某个词
有一个全局变量N,表示训练集中全部文档数目。
A表示属于Cj类且包含ti的文档数目
B表示不属于Cj包含ti的文档数目
C表示属于Cj类但不包含ti的文档数目
D表示不属于Cj类也不包含ti的文档数目
是不是很简单~~~
然后 这个卡方统计量的计算方法就是

好像这里不好输入公式我还是粘个图吧


CHI的计算公式

就是这样的,最后,选取在所有类别C中,卡方最大的值作为ti的最后结果。

    double n = 0;
    //chi检验
    class chiword {
        public chiword() {
            a = 0;
            b = 0;
            c = 0;
            d = 0;
            chi = 0;
        }

        String category;
        double a;
        double b;
        double c;
        double d;
        double chi;

        public double calCHI() {
            double result  = n * Math.sqrt((a * d - c * b)) / ((a + c) * (b + d) * (a + b) * (c + d));
            return result;
        }
    }
    HashSet<String> keywordSet = new HashSet<String>();
    private void readDFWord(String path) throws IOException {
        FileReader fr = new FileReader(path);
        BufferedReader br = new BufferedReader(fr);
        String line = null;
        while ((line = br.readLine()) != null) {
            String keyword = line.split("\t")[0].trim();
            keywordSet.add(keyword);
        }
        br.close();
        fr.close();
    }

    private HashSet<String> readid(String path) throws IOException {
        HashSet<String> idSet = new HashSet<String>();
        FileReader fr = new FileReader(path);
        BufferedReader br = new BufferedReader(fr);
        String line = null;
        while ((line = br.readLine()) != null) {
            idSet.add(line.trim());
        }
        br.close();
        fr.close();
        return idSet;
    }

    List<String> categoryList = new ArrayList<String>();
    List<String> fileList = new ArrayList<String>();

    public void refreshFileList(String localPath) {
        File dir = new File(localPath);
        File[] files = dir.listFiles();

        if (files == null)
            return;
        for (int i = 0; i < files.length; i++) {
            if (files[i].isDirectory()) {
                refreshFileList(files[i].getAbsolutePath());
            } else {
                fileList.add(files[i].getAbsolutePath());
                categoryList.add(files[i].getName());
            }
        }
        LOG.info("get category num is "+categoryList.size());
    }

    HashMap<String, List<chiword>> termMap = new HashMap<String, List<chiword>>();
    HashMap<String, Double> categoryNum = new HashMap<String, Double>();
    public void process() throws IOException {
        for (int i = 0; i < fileList.size(); i++) {
            String category = categoryList.get(i);
            HashSet<String> idSet = readid(fileList.get(i));
            double cateNum = 0;
            for (String id : idSet) {
                LOG.info("Begin process id "+id);
                travel_item item = hbase.getItem(id);
                if(item == null) {
                    LOG.info("is null . id "+id);
                    continue;
                    }
                cateNum++;
                n++;
                LOG.info("n is "+n);
                List<Feature> keywords = item.getkeywords();
                for (Feature feature : keywords) {
                    if(!keywordSet.contains(feature.getName().trim())) {
                        continue;
                    }
                    if (termMap.containsKey(feature.getName().trim())) {
                        List<chiword> chilist = termMap.get(feature.getName().trim());
                        for (int j = 0; j < chilist.size(); j++) {
                            chiword chiw = chilist.get(j);
                            if (chiw.category.equals(category)) {
                                chiw.a = chiw.a + 1;
                            } else {
                                chiw.b = chiw.b + 1;
                            }
                            chilist.set(j, chiw);
                        }
                        termMap.put(feature.getName().trim(), chilist);
                    } else {
                        List<chiword> chilist = new ArrayList<chiword>();
                        for (int k = 0; k < categoryList.size(); k++) {
                            chiword chiw = new chiword();
                            chiw.category = categoryList.get(k);
                            LOG.info("chiw category is "+ chiw.category);
                            if (chiw.category.equals(category)) {
                                chiw.a = chiw.a + 1;
                            } else {
                                chiw.b = chiw.b + 1;
                            }
                            chilist.add(chiw);
                        }
                        termMap.put(feature.getName().trim(), chilist);
                    }
                }
            }
            categoryNum.put(category, cateNum);
            LOG.info("categoryMap put "+category+"\t"+cateNum);
        }
    }
    HashMap<String, Double> termChiMap = new HashMap<String, Double>();
    
    public void getMax() {
        LOG.info("keyword size is "+termMap.size());
        for(Entry<String, List<chiword>> entry : termMap.entrySet()) {
            String term = entry.getKey();
            LOG.info(" get keyword is "+term);
            double chivalue = 0;
            List<chiword> chilist = entry.getValue();
            for(int i = 0; i< chilist.size(); i++) {
                chiword chiw = chilist.get(i);
                chiw.c = categoryNum.get(chiw.category) - chiw.a;
                chiw.d = n - categoryNum.get(chiw.category) - chiw.b;
                chiw.chi = chiw.calCHI();
                LOG.info("CHI value is "+chiw.category+"\t"+chiw.a+"\t"+chiw.b+"\t"+chiw.c+"\t"+chiw.d+"\t"+chiw.chi);
                if(chiw.chi > chivalue) {
                    chivalue = chiw.chi;
                }
            }
            termChiMap.put(term, chivalue);
        }
    }
    
    public void output(String path) throws IOException {
        FileWriter fw = new FileWriter(path);
        for(Entry<String, Double> entry: termChiMap.entrySet()) {
            fw.write(entry.getKey()+"\t"+entry.getValue()+"\n");
        }
        fw.flush();
        fw.close();
    }
    
    public static void main(String[] args) throws IOException {
        FeatureSelect ob = new FeatureSelect();
        ob.refreshFileList(args[0]);
        //计算CHI
        ob.readDFWord(args[2]);
        ob.process();
        ob.getMax();
        ob.output(args[1]);

    }

通过上述的计算,最后保留了CHI较大的数值,维度为81000个词。
好了 ,结束了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容