MapReduce算法模式-Bloom过滤器

生活不易，且行且珍惜

过年从家回到工作的地方，突然感觉到自己身上的担子重了许多
父母的白头发越来越多，身体也大不如从前，看着他们，我还有什么理由不努力

Bloom过滤器简介

Bloom过滤器：Bloom Filter 是用一个位数组(数组的每个元素不是1就是0) 来表示一个大的元素集合, 而且通过这个数组就可以判断某个元素是不是属于这个集合（具体的介绍内容可以自行到网上查询）

本文主要介绍的基于hadoop实现的一个简单的Bloom过滤器的实验过程：

本文的过程的思路是：

1.先构建相应的相应的Bloom的二进制文件
2.读取相应的二进制文件进行和输入的数据进行比较的过程
3.MapReduce的处理过程比较Bloom二进制文件产生的结果，如果一致的话就输出相应的结果到Map的输出文件中，由reduce过程处理

程序目录结构

Bloom二进制文件产生

BloomObject函数：

其中的main函数执行可以产生相应的二进制文件；

package Bloom;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.util.bloom.BloomFilter;
import org.apache.hadoop.util.bloom.Key;
import org.apache.hadoop.util.hash.Hash;

import java.io.BufferedReader;
import java.io.DataInputStream;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.net.URI;


/*
* bloom的过滤模式，例子是通过筛选出相应的选择地址在候选列表中的交集的集合
* bloom过滤必须要生成一个二进制数据，作为候选选择和处理的数据部分，定义候选的二进制数据结构：
* 哈希函数个数k、二进制数组大小m、字符串数据n 之间存在着相关性，对于给定的m、n,当k=ln(2)*m/n时出错的概率是最小的。本文后面引用网上的数据证明。
* */
public class BloomObject {
    //对数据进行转换的函数
    public static double k =2.0; //调节二进制数组的相应的参数变量
    public static int getBloomSize(int numbersize ,float falsePosError){
        int bloomsize = (int)(((-numbersize*(float)Math.log(falsePosError)/(float)Math.pow(Math.log(2),2)))*k);
        return bloomsize;
    }

    //获取hash函数的个数
    public static int getBloomHash(float numbersize,float longsize){
        int hashsize = (int)(numbersize/longsize*Math.log(2)*k);
        return hashsize;
    }

    /**
     * 创建bloom过滤器的数据文件，生成相应的二进制数据文件
     * @param fileinput 输入路径
     * @param fileoutput 输出路径
     * @param errorrate 错误率
     * @param numberlong 输入字段长度
     * @throws Exception
     */
    public static void CreateBloomFile(String fileinput,String fileoutput,float errorrate,int numberlong) throws Exception{
        Configuration configuration = new Configuration();
        Path inputpath = new Path(fileinput);
        Path outputpath = new Path(fileoutput);
        FileSystem fileSystem = FileSystem.get(new URI(outputpath.toString()),configuration);
        if(fileSystem.exists(outputpath)){
            fileSystem.delete(outputpath);
        }
        //使用hadoop自带的bloom过滤函数
        int BloomSize = getBloomSize(numberlong,errorrate);
        int BloomHash = getBloomHash(BloomSize,numberlong);

        System.out.println("二进制数据的位数-----"+BloomSize);
        System.out.println("哈希函数的个数-----"+BloomHash);

        BloomFilter bloomFilter = new BloomFilter(BloomSize,BloomHash, Hash.MURMUR_HASH);//定义相应的bloom函数


        //把相应的结果存入到相应的输出文件中，正常情况下是hdfs的路径中，也可以是本地路径
        //利用hadoop的filesystem的系统的命令把相应的数据存储到hdfs的目录中
        FileSystem fileInput = FileSystem.get(new URI(inputpath.toString()),configuration);
        String line =null;
        for (FileStatus fileStatus:fileInput.listStatus(inputpath)){
            //System.out.println(fileStatus.getPath());
            BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(fileInput.open(fileStatus.getPath())));
            while((line=bufferedReader.readLine())!=null){
                bloomFilter.add(new Key(line.getBytes("UTF-8"))); //存入到相应的bloom的API的变量中,bloom存放的是二进制的数据因此需要进行转换
                System.out.println(line.getBytes("UTF-8"));
            }
            bufferedReader.close();
        }
        FSDataOutputStream fsDataOutputStream = fileInput.create(new Path(outputpath+"/bloomtestlog"));
        bloomFilter.write(fsDataOutputStream);
        //fsDataOutputStream.flush(); //写入到缓存中的数据
        fsDataOutputStream.close();
    }

    public static void main(String[] args) throws Exception {
        BloomObject.CreateBloomFile("BloomFile/","BloomFile/outputBloomFile",0.01f,2);

        DataInputStream dataInputStream = new DataInputStream(new FileInputStream("BloomFile/outputBloomFile/bloomtestlog"));
        BloomFilter filter = new BloomFilter();
        filter.readFields(dataInputStream);
        dataInputStream.close();
        //System.out.println();
        //hash函数过多导致即使是不同的数据多次的覆盖之后就会变成0
        String str = "/wp-content/uploads/2013/08/ws4.png HTTP/1.1";
        if(filter.membershipTest(new Key(str.getBytes("UTF-8")))){
            System.out.println(str.getBytes("UTF-8"));
            System.out.println("成功匹配二进制文件数据内容，Bloom二进制文件构造成功！");
        }
    }
}

输出的结果如图：
注意相应的输入文件在相应的目录下只能存在一份数据

结果图.png

BloomMapper函数：

package Bloom;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.util.bloom.BloomFilter;
import org.apache.hadoop.util.bloom.Key;

import java.io.DataInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.StringTokenizer;

public class BloomMapper {
    //bloom过滤器的生成方法，使用mapreduce的方法生成这个过程
    //直接读取二进制文件进行存储的过程，设置setup函数获取bloom产生的热点二进制文件的数据进行处理
    private static String inputpath;

    public static String getInputpath() {
        return inputpath;
    }

    public static void setInputpath(String inputpath) {
        BloomMapper.inputpath = inputpath;
    }

    private static int num=0;
    protected static class BloomMapping extends Mapper<Object,Text,Text,NullWritable>{
        private BloomFilter bloomFilter = new BloomFilter();
        //在执行setup函数的时候把相应的产生bloom二进制数据的过程
        @Override
        public void setup(Context context){
            //初始化bloom二进制文件的过程
            try{
                //调节二进制的数据位数，可以提高过滤的准确性
                BloomObject.CreateBloomFile("BloomFile/","BloomFile/outputBloomFile",0.01f,2);
                DataInputStream dataInputStream = new DataInputStream(new FileInputStream(BloomMapper.getInputpath()));
                bloomFilter.readFields(dataInputStream);
                dataInputStream.close();
            }catch (Exception e){
                e.printStackTrace();
            }
        }
        private Text keyvalue = new Text();
        public void map(Object key,Text value,Context context) throws IOException,InterruptedException{
            //进行map处理的过程,value为要进行判断的数据结果，如果在value中有对应的选择列表中的数据的话，则提取出结果即可
            //对value的每一行的特定位置进行判别，提取数据，以空格区分数据在下标为6的位置上是要进行比较的内容
            String[] str = value.toString().split("/");
            if(str.length>=4 && str[3]!=" " ){
                Key key1= new Key(str[3].getBytes("utf-8"));
                keyvalue.set(str[3]);
                if(key1.getBytes().length>0) {
                    if (bloomFilter.membershipTest(key1)) {
                        context.write(keyvalue, NullWritable.get());
                    }
                }
            }
        }
    }
}

BloomReducer函数没有书写内容，只是使用map函数进行了相应的简单的举例，如果需要reduce的过程可以继续书写相应的过程；

BloomMain函数：

package Bloom;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

public class BloomMain {
    public static void main(String[] args) throws Exception{
        Configuration configuration = new Configuration();
        //需要比对的原始文件的相应的输入路径
        Path inputpath = new Path("BloomInputFile/inputfile");
        //输出数据文件的路径，这个不需要提前
        Path outputpath = new Path("BloomInputFile/outputfile/");

        //对bloom的相应的路径进行赋值操作
        BloomMapper.setInputpath("BloomFile/outputBloomFile/bloomtestlog");

        //做鲁棒性检查
        FileSystem fileSystem = FileSystem.get(new URI(outputpath.toString()),configuration);
        if(fileSystem.exists(outputpath)){
            fileSystem.delete(outputpath,true);
        }

        Job job = Job.getInstance(configuration,"Bloom");
        job.setJarByClass(BloomMain.class);

        //把输入和输出路径的相关信息写入到hadoop的相应的变量中
        FileInputFormat.setInputPaths(job,inputpath);
        FileOutputFormat.setOutputPath(job,outputpath);

        //设置map的类
        job.setMapperClass(BloomMapper.BloomMapping.class);

        //设置map的输出数据类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        //设置reduce输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //提交job
        job.waitForCompletion(true);
    }
}

结果如下：

结果

PS：本人才疏学浅，大家一起进步，需要代码的直接留下邮箱，OK

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

MapReduce算法模式-Bloom过滤器

Bloom过滤器简介

Bloom二进制文件产生

BloomObject函数：

BloomMapper函数：

BloomMain函数：

推荐阅读更多精彩内容