NLP を使わず簡単に中国語と日本語を仕分ける方法

1A23 Studio at 
このブログの他の記事と同じ、この記事も自分のオープンソースプロジェクトを作るときに発見したものである。音楽ライブラリーのタイトル、歌詞などのデータに読みがなをつけたいときに、中国語と日本語のテキストを区別する方法が欲しかった。ボクの音楽ライブラリーに中国語、日本語とアルファベット系の言語しかなかった。アルファベット系の言語は大した処理をいらす、簡単にソートすることができるだが、中国語と日本語はそんなに簡単ではなかった、特に漢字に対する処理の仕方が違う。 タイトルで言ったの通り、これはあくまで簡単かつ荒い方法である。この方法を使うにはいろんな制限があり、正確度も完璧ではない。多くの場合は「まあま……