利用 Android 源码,轻松实现汉字转拼音功能

今天和大家分享一个从Android系统源代码提取出来的汉字转成拼音实现方案,只要一个类,560多行代码就可以让你轻松实现汉字转成拼音的功能,且无需其他任何第三方依赖。

需求场景

实际开发过程中需要用到实现汉字转成拼音的场景比较常见,如:通讯录里的联系人字母导航栏,为没有设置头像的用户生成一个名字首字母的头像,国家(省份、城市)字母导航栏,搜索关键字转换成拼音等。

实现方案

Android平台上将汉字转换成为拼音已经有一些开源的第三方实现方案,如pinyin4j和TinyPinyin

pinyin4j:https://sourceforge.net/projects/pinyin4j

TinyPinyin:https://github.com/promeG/TinyPinyin

以上这两个实现方案,都需要引入不少类以及一些相应的编码文件,这里和大家介绍一个比上面两个方案还要精简的实现方案,只要560行代码且无需依赖于其他任何编文件的实现。这个类是从Android系统通讯录源码中提取的,类名为HanziToPinyin,其类文件路径如下:

/packages/providers/ContactsProvider/src/com/android/providers

/contacts/HanziToPinyin.java

这是一个很独立的类,需要使用的项目直接拷贝到自己对应的工程里面即可使用,需要注意的是,我是在Android 4.2.2的系统源码中拷贝出来的,为什么选择4.2.2,一个是4.2.2之后(4.3开始)的HanziToPinyin不再可以独立使用,需要依赖于Transliterator,而这个类我们是无法直接引用的。

而Android 2.x的HanziToPinyin在测试了很多转换的结果发现是错误的,所以选择了最后一个可以采纳使用的版本Android 4.2.2。

如何使用

HanziToPinyin这个类的代码量非常少,结构也非常简单

下面简单的说明一下如何使用,非常简单,只需要把需要转换的汉字传入get方法即可获取返回的拼音结果

其返回的数据结构是一个HanziToPinyin.Token的ArrayList,HanziToPinyin.Token是HanziToPinyin中的一个公共静态外部类,

其分别有type、source、target等三个成员变量,type是标识token的类型,有三种不同的取值1(拉丁文),2(拼音),3(未知),source是输入的中文,target则是中文转换后对应的拼音。这里还有一个细节需要注意一下,只拷贝HanziToPinyin在原生系统上使用是没有问题的,但是在国产手机的ROM上则无法正常使用,需要加上下面三行代码做适配:

否则HanziToPinyin的初始化状态会设置错误,而导致无法实现汉字转换成拼音。

内部实现

了解完如何使用后,我们来简单窥探一下HanziToPinyin内部是如何实现的,先来看一下类中比较耀眼的两个数组UNIHANS和PINYINS(两个类很长,截图没截全,大家自己看代码吧)

其中UNIHANS是一组汉字对应的unicode编码,而PINYINS则是UNIHANS中每个元素对应的拼音的ASCII码,如UNIHANS的第一个元素是\u963f,其对于的中文是,换成拼音则是A,而A对应的ASCII码用十进制表示则是65,对应的就是PINYINS的第一个数组中的第一个元素,至于为什么后面有5个0的元素,主要是因为汉字的拼音最长的有六个字母(例如:chuang),而只有一个a,所以后面的5个空位就需要用0来填充了。我们在调用get方法时将中文以String的形式传入,方法内部会遍历String中的每个元素,为其生成对应的Token,也就是我们最后拿到的那个ArrayList中的结果。

所以最关键的实现是在getToken方法中,这里忽略getToken前面的30来行判断代码,直接看关键部分

通过二分检索的方式,使用java.text.Collator的compare方法不断比对UNIHANS数组中与输入的汉字同音(注意:这里是同音不是完全相同)的字,最终获取其对应的在UNIHANS数组中的下标位置offset。前面我们提到UNIHANS和PINYINS是相互对应的,所以这里也能找到PINYINS中对应读音的一组ASCII码,通过int转换成char,再使用StringBuilder进行拼接,就可以获取对应的拼音了,实现思路上还是很简单清晰的。

性能和不足

在性能上,HanziToPinyin还是比较客观的,毕竟用了二分检索,在实际测试过程中丢了一篇5500多字的文章进行转换,只用了415ms;

在准确率上,拿了一堆人名和一个国家列表数据进行转换,随机抽取数据都没有发现出错的数据,但是按照这个类的实现上看,如果输入的汉字拼音不与UNIHANS中任何一个元素同音,则必然无法得到正确的结果,实际测试中,我随便拿了一些数据测试都没有得到不正确的结果输出,不知道得多生僻的字才能得出个错误结果;

HanziToPinyin这类并不支持多音字,所以如果一定要考虑多音字的问题,这个类就不适合了;

总结

关于HanziToPinyin就介绍到这里,我已经将这个类的代码我已经整理放在Gist上(https://gist.github.com/D-clock/7a6e33f42c0177439a49d85b73f1e600),需要的同学自取 ,如果HanziToPinyin不能满足你的需求,那可以考虑使用前面提到的pinyin4j和TinyPinyin。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,475评论 4 372
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,744评论 2 307
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,101评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,732评论 0 221
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,141评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,049评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,188评论 2 320
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,965评论 0 213
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,716评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,867评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,341评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,663评论 3 263
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,376评论 3 244
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,200评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,990评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,179评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,979评论 2 279

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,598评论 25 707
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,222评论 0 17
  • 我女儿叫张紫暄,名字还是我起的呢,她爸爸希望她像太阳一样积极阳光,所以是日字旁的暄。 离婚四年了,中间很少见面,跟...
    周海双阅读 239评论 0 0
  • 1 阳春三月,乍暖还寒,万物又要开始新一季的轮回。握笔许久又怕言过其实,我思故我在,怕到底是没什么用。...
    A贾瑞朙阅读 218评论 0 2
  • 这天气热的就像有人提前预支了夏天,一样,
    渲染星晴阅读 83评论 0 0