weka-Explorer-Preprocess 的使用

一、 实验目的

了解 weka 中 Explorer 的 Preprocess 相关功能。

二、 实验内容

进入 weka 中 Explorer 界面,打开 data 目录下 weather.numeric.arff 文件,了解 Preprocess 相关功能。

打开 weather.numeric.arff 文件

三、 实验过程

1. 了解 arff 格式

用记事本打开 weather.numeric.arff 文件,

@relation weather

@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

显而易见,可以知道 arff 格式是这样组织数据的:

  • (唯一)一个 ** @relation ** + 关系名称。
  • 若干 ** @attribute ** + 属性名称 + 属性类型({}中写出枚举类型,以逗号隔开,表示离散型数据; numeric 表示连续型数据;还有 string 和 date 类型,顾名思义,就知道一个是字符串型,一个是日期型)。
  • (唯一)一个 ** @data **占一行,后接若干具体数据(依照上面定义的属性顺序写出采样数据,以逗号隔开)。
  • 另外,网上资料显示,** % ** 为 arff 格式下的注释标记。
2. 了解区域功能
Preprocess 界面

(0) 功能标签:用于数据预处理及针对数据进行的各种处理之间的切换。
(1) 编辑按钮:包括打开各种形式的数据集,生成数据集,撤销,编辑数据集和保存。
(2) 筛选器选择:对数据进行某种变换,比如离散化,二进制化。
(3) 当前信息:显示当前数据集的基本信息,包括关系名,属性个数,实例个数等。
(4) 属性信息:包括所有属性的显示和可以对它们进行的一些操作,比如移除一些无用属性,使数据集更简洁明了。
(5) 选中属性:显示当前选中的属性的摘要信息,比如名称、类型、数值等。
(6) 属性可视化:以直方图的形式显示当前选中属性,给人更直观的感受。
(00) 状态信息: 显示是否在进行数据挖掘,历史记录查看,内存使用信息等。

3. 举例操作
  • 区域(0)和(00),在此实验中(学习 preprocess 的基本操作)基本是用不到的,这里也就不再多说了。

  • 区域(1),前面已经使用过打开 arff 格式数据集功能;至于打开网络资源和数据库内容,现在还不太了解;生成功能,就是根据一定的规则(还不清楚这些规则的意义)生成一些随机数据;而撤销、编辑和保存,跟记事本也差不太多,亦不赘述。

生成数据时用的规则
生成的数据(左至右依次为用 edit 打开,另存为 cvs 格式并用 excel 打开, preprocess 界面打开)
  • 区域(2)中的各个筛选器我还不了解,就做一下归一化(感觉这就是统计里的标准化),并拿 humidity 做一下无监督的离散化(这应该就是画直方图之类的东西时要做的工作吧)好了。
归一化时用的规则
归一化只对连续数据起作用,其结果也是连续的
humidity 原始数据
采用的离散化规则
离散化后的 humidity 数据
  • 区域(3)显示当前数据集的信息,其实就是提取了 ** @relation ** 后面的字符串,统计了 ** @attribute ** 的个数和 ** @data ** 后的行数,没什么可说的。

  • 区域(4)是属性信息栏,可以移除一些无用数据,比如数据的序号、聚类分析时的类别标签;这里试了一下去除 humidity 属性,不过它并非无用信息,所以之后还得用下 undo 。

去除了 humidity 属性
  • 区域(5)用一些统计数据(对于离散和连续数据并不相同)概括地显示了当前选中属性的信息,刚才进行数据离散化时也有涉及。
离散数据,以各类别出现个数方式显示
连续数据,采用两极数值、平均数和标准差显示
  • 区域(6)是可视化区域,以直方图的形式进一步描述数据(和区域(5)相辅相成),给人较为直观的感受(或许利于启发式方法的使用?);在其上的颜色,是以某一属性为目标变量添加的。
以 play 为目标变量时各属性的可视化情况

以上,即为 weka 中 Explorer 的 Preprocess 界面的主要功能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,306评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,657评论 2 307
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,928评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,688评论 0 220
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,105评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,024评论 1 225
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,159评论 2 318
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,937评论 0 212
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,689评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,851评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,325评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,651评论 3 263
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,364评论 3 244
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,192评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,985评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,154评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,955评论 2 279

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,111评论 18 139
  • 一、实验目的 学习使用 weka 中的常用分类器,完成数据分类任务。 二、实验内容 了解 weka 中 explo...
    yigoh阅读 8,218评论 5 4
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,540评论 6 13
  • 1. 简介 1.1 什么是 MyBatis ? MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的...
    笨鸟慢飞阅读 5,288评论 0 4
  • 相信每个人都想在股市里面赚钱,我们渴求能够准确对股票进行正确的技术分析,然后决定是买入还是卖出,以求获得正收益。布...
    谷壬峻阅读 2,692评论 0 5