May 12, 2023
BPE, python,
論文「Neural Machine Translation of Rare Words with Subword Units」 (解説はコチラ) のBPEアルゴリズムをpythonで実装したので、保存用に貼っておきます。
実行
$ python3 BPE.py
before: {'l o w </w>': 5, 'l o w e s t </w>': 2, 'n e w e r </w>': 6, 'w i d e r </w>': 3}
1 : ('e', 'r')
2 : ('er', '</w>')
3 : ('l', 'o')
4 : ('lo', 'w')
after: {'low </w>': 5, 'low e s t </w>': 2, 'n e w er</w>': 6, 'w i d er</w>': 3}