【Scala】抽取器

引子

由于样本类和构造器模式相关联，所以在模式匹配中常使用样本类做数据的解构和分析。
有些情况下，或许希望能够在不创建关联的样本类的前提下编写出类似的模式匹配，此时抽取器（Extractor）可以用来定义与对象表达解耦的模式。

抽取email地址的例子

问题

假设你需要分析一些代表email地址的字符串：对于给定的字符串，首先要判断它是否为email地址，如果是，再分析访问地址的用户名和域名。

def isEmail(s: String): Boolean
def domain(s: String): String
def user(s: String): String

这种方式有些笨拙，使用模式匹配的方式会有效解决这个问题。

s match{
    case Email(user,domain) => println (user + " AT " + domain)
    case _ => println ("not an email address")
}

但问题是String不是一个样本类，于是我们可以借助抽取器为内置的类型定义新的模式。

抽取器基础

Scala里的抽取器就是具有名为unapply成员方法的对象。unapply方法的目的是为了匹配并分解值，apply是其对偶方法，unapply逆转了apply的构建过程，将构建的对象进行分解。

针对email的例子，可以使用如下方式进行编写程序：

object EMail {
    def apply(user:String,domain:String) = user + "@" + domain
    def unapply(str: String) :Option[(String, String)] ={
        val parts = str split "@"
        if(parts.length==2) Some(parts(0),parts(1)) else None
    }
}

使用时是这样的：

scala> EMail.unapply("jasonding@gmail.com")
res1: Option[(String, String)] = Some(("jasonding", "gmail.com"))

scala> EMail.unapply("Jason Ding")
res2: Option[(String, String)] = None

在某种程度上来说，unapply和apply的作用相反，apply方法把两个字符串参数变成一个Email地址，而unapply方法反向变换，把一个字符串分解成两个部分：用户名和域名。unapply方法必须处理不能把一个字符串分解成两部分的情况，这也是为什么这里unapply方法返回Option类型的原因。

apply方法被称为注入方法，因为它可以传入一些参数并生成指定子集的元素。unapply方法被称为抽取方法，因为它可以传入相同子集的元素并抽取其中的部分。注入方法和抽取方法常常处于同一个对象中，因为如此一来，你可以把对象名既当做构造器也当做模式用，这是对使用样本类作模式匹配的惯例的模仿。

无参数和带一个参数的模式定义

上一小节例子中unapply方法在匹配成功时返回一个二元组。这可以很容易的推广到多于两个变量的情况。为了绑定N个变量，unapply方法可以返回一个N元组，封装在Some中。
对于一个只绑定一个变量的情况，为返回一个变量，该变量直接封装在Some中返回。

object Twice {
    def apply(s:String) = s + s
    def unapply(s:String):Option[String] ={
        val length=s.length/2
        val half = s.substring(0,length)
        if(half == s.substring(length)) Some(half) else None
    }
}

一个Extractor也可以绑定任何变量，这种情况下可以返回true和false代表匹配成功与否。比如下面的例子匹配一个字符串是否都是大写字母：

object UpperCase {
    def unapply(s:String):Boolean = s.toUpperCase ==s
}

之后可以利用上面定义的Twice和UpperCase组合构造组合的模式定义：

def userTwiceUpper(s:String) = s match{
    case EMail(Twice(x @ UpperCase()),domain) =>
        "match:" + x + " in domain " + domain
    case _ => "no match"
}

使用效果：

scala> userTwiceUpper("DIDI@hotmail.com")
res1: String = match:DI in domain hotmail.com

scala> userTwiceUpper("DIDO@hotmail.com")
res2: String = no match

scala> userTwiceUpper("didi@hotmail.com")
res3: String = no match

以x @ UpperCase()形式吧变量与UpperCase()模式进行变量绑定。

变参抽取器

针对这种变长类型的匹配，Scala定义了一个unapplySeq方法来支持这种用法，例如：

object Domain{
    def apply(parts:String *) :String = parts.reverse.mkString(".")
    def unapplySeq(whole:String): Option[Seq[String]] =
        Some(whole.split("\\.").reverse)
}

对象Domain定义unapplySeq方法，首先以“.”分割字符串，Split使用正规表达式，因此.需要使用\转义。unapplySeq结果返回一个封装在Some的Seq数据。

然后可以使用Domain抽取器来获取Email地址更详细的信息。比如查找用户名为“tom”，域名为某些含“com”的地址。

def isTomDotCom(s:String):Boolean =s match{
    case EMail("tom",Domain("com",_*)) => true
    case _ => false
}

测试结果：

scala> isTomDotCom("tom@sun.com")
res0: Boolean = true

scala> isTomDotCom("peter@sun.com")
res1: Boolean = false

scala> isTomDotCom("tom@acm.org")
res2: Boolean = false

使用unapplySeq也支持返回一部分固定长度的变量加上后面变长的变量，这个返回值可以表示成一多元组，可变的部分放在最后。比如：

object ExpendedEMail{
    def unapplySeq(email: String)
        :Option[(String,Seq[String])] ={
        val parts = email split "@"
        if(parts.length==2)
          Some(parts(0),parts(1).split("\\.").reverse)
        else
          None
    }
}

中缀表达式中的抽取器

解构列表、流的方法与创建它们的方法类似，都是使用 cons 操作符： :: 、 #:: ，比如：

val xs = 58 #:: 43 #:: 93 #:: Stream.empty
xs match {
  case first #:: second #:: _ => first - second
  case _ => -1
}

Scala允许以中缀方式来使用提取器。所以，我们可以写成e(p1, p2)，也可以写成p1 e p2，其中e是抽取器，p1、p2是要提取的参数。
同样，中缀操作方式的head #:: tail可以被写成#::(head, tail)。一般来说，只有当一个抽取器看起来真的像操作符，才推荐以中缀操作方式来使用它。所以，列表和流的cons操作符一般使用中缀表达。

Scala的#::提取器代码：

object #:: {
  def unapply[A](xs: Stream[A]): Option[(A, Stream[A]) =
    if (xs.isEmpty) None
    else Some((xs.head, xs.tail))
}

如果给定的流是空的，抽取器就直接返回None。因此，case head #:: tail就不会匹配任何空的流。否则，就会返回一个Tuple2，其第一个元素是流的头，第二个元素是流的尾，尾本身又是一个流。这样，case head #:: tail就会匹配有一个或多个元素的流。如果只有一个元素，tail就会被绑定成空流。

抽取器和样本类的对比

抽取器和样本类都可以用来做模式匹配，进行数据的结构和分析。但这两个概念有各自的特点。

抽取器优于样本类的地方

样本类的缺点是它暴露了数据的具体表达方式，如果匹配到样本类的构造器形式，就知道了选择器表达式实际上是特定样本类的实例。抽取器截断了数据表达与模式之间的联系，实现了表征独立（representation independence，让模式与被选择对象的数据类型之间毫无关系）
。在大型开发系统中，表征独立非常重要，因为这可以让修改部件的实现类型不会影响部件的使用者。
如果部件已经定义并导出了一套样本类的话，因为客户代码可能已经包含了对这些样本类的模式匹配，重命名某些样本类或修改类层级都将影响客户代码。但是，抽取器不会出现类似的问题，因为它们代表了数据表现和客户观察方式之间的间接适配层，你仍然可以修改类型的具体实现，只要对抽取器做更新即可。

样本类优于抽取器的地方

首先，样本类更易于建立和定义、需要更少的代码。
其次，它们通常能实现比抽取器更为高效的模式匹配，因为Scala编译器对于样本类模式的优化远胜于对抽取器模式的优化。这是由于样本类的机制是固定的，但抽取器的unapply和unapplySeq方法几乎能做任何事情。
第三，如果样本类继承自sealed基类，那么Scala编译器将采用穷举法检测模式匹配并在模式没有覆盖某种可能的组合值情况下报错，但对于抽取器来说不存在这种穷举检查。

模式匹配采用哪种方法

如果编写的代码是封闭的应用，那么样本类通常更为合适，因为它们更简洁，编写速度更快，而且有静态检查。
如果你决定之后要修改类层级，应用程序需要重构，并且如果你需要把类型暴露给未知的客户，那么抽取器更为合适，因为它们能保持表征独立。
实际上，可以始终以样本类开始，然后如果有新需求，将其改为抽取器。因为抽取器模式与样本类模式在Scala中看上去完全一致，所以你的客户代码中的模式匹配还将能够继续工作。

参考资料

《Scala编程》

转载请注明作者Jason Ding及其出处
jasonding.top
Github博客主页(http://blog.jasonding.top/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

最后编辑于：2017.12.03 03:01:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,847评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,208评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,587评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,942评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,332评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,587评论 1赞 218
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,853评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,568评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,273评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,542评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,033评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,373评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,031评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,073评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,830评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,628评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,537评论 2赞 269