微信昵称emoji表情的过滤

字数 328阅读 1192

前言

微信昵称现在五花八门,可以加入各种表情符号。这些符号存储到mysql数据库时存在一些问题。这里记录下我的解决方法。

问题

  • 第一种方案:修改数据库编码,支持存储emoji表情

mysql的utf8编码的一个字符最多3个字节,但是一个emoji表情为4个字节,所以utf8不支持存储emoji表情
但是utf8的超集utf8mb4一个字符最多能有4字节,所以能支持emoji表情的存储。

数据库字符优先级有:系统级、数据库级、表级、字段。这5个优先级中字段优先级最高

系统级需要修改mysql配置文件,我没尝试。下面提供修改库级和表级。

如果你的数据库还没有发布或者数据较少,建议重新创建,在创建的时候会指定编码。


image.png

如果数据库已经发布,则执行下面的sql

alter database <数据库名> character set utf8mb4;
alter table <表名> CONVERT TO CHARACTER SET utf8mb4;
  • 第二种方案: 过滤emoji表情,不插入数据库。

例如java版本如下。
该类库提供了很多功能,如果只需要过滤则只需要 调用 removeAllEmojis 即可。

  <dependency>
            <groupId>com.vdurmont</groupId>
            <artifactId>emoji-java</artifactId>
            <version>4.0.0</version>
        </dependency>
public static void main(String[] args){
        System.out.println(EmojiParser.parseToAliases("胖飞的幸福时光\uD83E\uDD14"));
        System.out.println(EmojiParser.parseToHtmlDecimal("胖飞的幸福时光\uD83E\uDD14"));
        System.out.println(EmojiParser.parseToUnicode("胖飞的幸福时光\uD83E\uDD14"));
        System.out.println(EmojiParser.parseToHtmlHexadecimal("胖飞的幸福时光\uD83E\uDD14"));
        System.out.println(EmojiParser.removeAllEmojis("胖飞的幸福时光\uD83E\uDD14"));
}
image.png

推荐阅读更多精彩内容