半角カナを全角カナに変換する方法はありますか？

Question

0 投票

半角のカタカナと全角のカタカナが含まれているようなデータを持っています。これを全角のカタカナに共通化してから自然言語処理の解析を行っていきたいと考えています。

半角カタカナの文字を全角に変換する方法はありますか。

なお、特に難しい点として、半角カタカナの場合に濁音や半濁音が2文字として扱われていますが、全角の場合は1文字として扱われています。例えば半角のゴという文字はコと゛の2文字として扱われます。

文字数も変わるので単純な変換が難しい状況です。

サインインしてこの質問に回答する。

Follow Question

Answer 1

MathWorks Support Team 2018 年 7 月 25 日

MATLAB Online で開く

1 投票

はい、可能です。

半角カタカナは16進数で表現すると FF62 から FF9F になります。対象の文字列に対して double 関数を掛けることで文字配列をASCIIコードに直すことができます。

半角と全角の対応付けはASCIIコードを使うと複雑のため、対応表を使用すると便利です。

具体的には以下のようなコード（回答上部にある添付ファイル convertHalf2Full.m）で、半角カナから全角カナへ、全角英語から半角英語への変換をしています。

function fullW = convertHalf2Full(word) 
% 半角カタカナ → 全角カタカナ 
idx1 = hex2dec('FF61') < double(word); 
idx2 = (double(word) < hex2dec('FFA0')); 
idx = idx1 & idx2; 
word(idx) = half2full_Katakana( word(idx) ); 
word = erase(word, "゛"); 
word = erase(word, "゜"); 
% 全角英語 → 半角英語 
idx1 = hex2dec('FF01') < double(word); 
idx2 = (double(word) < hex2dec('FF5F')); 
idx = idx1 & idx2; 
word(idx) = full2half_EN( word(idx) ); 
fullW = word; 
end 
% ------- 
function halfW = full2half_EN(fullW) 
halfW = char(fullW - 65248); 
end 
% ------- 
function fullW = half2full_Katakana(halfW) 
% 事前に半角と全角のカタカナ表を回答上部にある添付よりダウンロードしてください
filename = 'KatakanaFullHalf.xlsx'; 
Katakana = importKatakanaFile(filename); 
for i=1:length(halfW) 
% 半角カタカナが含まれているインデクスを取得 
idx = contains(Katakana.Half, halfW(i)); 
% 半角を全角で置き換え 
halfW(i) = Katakana.Full(idx); 
end 
% 濁点，半濁点を見つけたら削除 
idx_daku = findstr(halfW, "゛"); 
idx_handaku = findstr(halfW, "゜"); 
halfW(idx_daku-1) = char( double( halfW(idx_daku-1) ) +1 ); 
halfW(idx_handaku-1) = char( double( halfW(idx_handaku-1) ) +2 ); 
fullW = halfW; 
end

なお，実行すると以下のような結果になります．

>> a = '私はﾀﾏｺﾞとＭＩＬＫとｽﾑｰｼﾞｰとﾌﾟﾘﾝを朝ごはんに食べる．１２34'; 
>> fullW = convertHalf2Full(a) 
fullW = 
'私はタマゴとMILKとスムージーとプリンを朝ごはんに食べる.1234'

0 件のコメント
-2 件の古いコメントを表示 -2 件の古いコメントを非表示

サインインしてコメントする。

半角カナを全角カナに変換する方法はありますか？

採用された回答

0 件のコメント
-2 件の古いコメントを表示 -2 件の古いコメントを非表示

その他の回答 (0 件)

カテゴリ

製品

リリース

タグ

Community Treasure Hunt

半角カナを全角カナに変換する方法はありますか？

採用された回答

0 件のコメント -2 件の古いコメントを表示 -2 件の古いコメントを非表示

その他の回答 (0 件)

カテゴリ

製品

リリース

タグ

参考

Community Treasure Hunt

0 件のコメント
-2 件の古いコメントを表示 -2 件の古いコメントを非表示