输入法词库解析(四)百度分类词库.bdict(.bcd)

.bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载。

手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.baidu.com/web/iw/index/ 下载。

范围描述
0x70 - 0x73词条数
0x90 - 0xCF词库名
0xD0 - 0x10F词库作者
0x110 - 0x14F示例词
0x150 - 0x34F词库描述

有的词库在 0x250 开始的后 4 个字节是大端序的词条数。

码表偏移 0x350

词库不带拼音表,需要根据词库规纳出来,参考深蓝词库转换。

内部根据是否含有英文分为几种格式

纯中文

https://tucang.cc/api/image/show/9682895a284837224335c5f8447cca9f

#占用字节数描述
a2拼音长,词长
2词频
a*2拼音,(声母索引<24+韵母索引<33)
a*2词,utf-16le 编码

带英文的,结构差不多,声母索引为 0xFF 表示英文字母

https://tucang.cc/api/image/show/7fe0e61c95ce93052a6d18747c28195d

编码使用 ascii

https://tucang.cc/api/image/show/1c5a7c52942eea72aee3bc1a97bafb9f

#占用字节数描述
a2词长
2词频
a词,ascii 编码

拼音不再使用索引,而是直接使用 utf-16le 编码

https://tucang.cc/api/image/show/6e0cad6df09a2a39e1179925155f47c5

#占用字节数描述
a2编码数
2词频
2
b2词长
a*2编码,utf-16le
b*2词,utf-16le

代码实现:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
var bdictSm = []string{
    "c", "d", "b", "f", "g", "h", "ch", "j", "k", "l", "m", "n",
    "", "p", "q", "r", "s", "t", "sh", "zh", "w", "x", "y", "z",
}

var bdictYm = []string{
    "uang", "iang", "iong", "ang", "eng", "ian", "iao", "ing", "ong",
    "uai", "uan", "ai", "an", "ao", "ei", "en", "er", "ua", "ie", "in", "iu",
    "ou", "ia", "ue", "ui", "un", "uo", "a", "e", "i", "o", "u", "v",
}

func ParseBaiduBdict(rd io.Reader) []PyEntry {
    ret := make([]PyEntry, 0, 1e5)
    data, _ := ioutil.ReadAll(rd)
    r := bytes.NewReader(data)
    var tmp []byte

    // 词条数
    r.Seek(0x250, 0)
    ReadInt(r, 4) // 暂时用不上

    r.Seek(0x350, 0)
    for r.Len() > 4 {
        // 拼音长
        codeLen := ReadInt(r, 2)
        // 词频
        freq := ReadInt(r, 2)

        // 判断下两个字节
        tmp = make([]byte, 2)
        r.Read(tmp)

        // 编码和词不等长,全按 utf-16le
        if tmp[0] == 0 && tmp[1] == 0 {
            wordLen := ReadInt(r, 2)
            // 读编码
            tmp = make([]byte, codeLen*2)
            r.Read(tmp)
            code := string(DecUtf16le(tmp))
            // 读词
            tmp = make([]byte, wordLen*2)
            r.Read(tmp)
            word := string(DecUtf16le(tmp))

            ret = append(ret, PyEntry{word, []string{code}, freq})
            continue
        }

        // 全英文的词,编码和词是一样的
        if int(tmp[0]) >= len(bdictSm) && tmp[0] != 0xff {
            r.Seek(-2, 1)
            eng := make([]byte, codeLen)
            r.Read(eng)
            ret = append(ret, PyEntry{string(eng), []string{string(eng)}, freq})
            continue
        }

        // 一般格式
        r.Seek(-2, 1)
        codes := make([]string, 0, codeLen)
        for i := 0; i < codeLen; i++ {
            smIdx, _ := r.ReadByte()
            ymIdx, _ := r.ReadByte()
            // 带英文的词组
            if smIdx == 0xff {
                codes = append(codes, string(ymIdx))
                continue
            }
            codes = append(codes, bdictSm[smIdx]+bdictYm[ymIdx])
        }
        // 读词
        tmp = make([]byte, 2*codeLen)
        r.Read(tmp)
        word := string(DecUtf16le(tmp))
        ret = append(ret, PyEntry{word, codes, freq})
    }
    return ret
}

参考资料:

深蓝词库转换