現在この質問をフォロー中です
- フォローしているコンテンツ フィードに更新が表示されます。
- コミュニケーション基本設定に応じて電子メールを受け取ることができます。
Regular expression for arabic text in matlab
5 ビュー (過去 30 日間)
古いコメントを表示
N Rh
2017 年 12 月 20 日
I used ocr in matlab to read arabic text from image.Now I want to write a regular expression that matches a word in arabic text but it does not work
19 件のコメント
Stephen23
2017 年 12 月 21 日
"...but it does not work"
This tells us nothing about what you have tried so far, nor about what the difference is between working/not working.
What have you tried? Do you get an output? How are you checking this output? If no output, do you get any error message?
N Rh
2017 年 12 月 21 日
the output is "????????" it means that the regular expression does not support the arabic
Guillaume
2017 年 12 月 21 日
"it does not work"
As Stephen's said this is a useless statement if you don't even tell us what the "it" is. How can we know if you've made a mistake with the "it", or if you're using the "it" incorrectly, or if indeed the "it" does not support arabic.
So show us the "it", that is the exact code you're using and ideally an example input where "it" doesn't work.
Guillaume
2017 年 12 月 21 日
Seems to work for me (R2017b):
>> Pattern = '(فاتورة عدد)';
>> Lines = {Pattern(2:end-1); [Pattern(2:end-1), '2015/02 ']; Pattern(4:5)}
>> P = regexp(Lines,Pattern,'match');
>> P = [P{:}]
Lines =
3×1 cell array
{ فاتورة عدد'}
{'فاتورة عدد2015/02 '}
{ 'تو'}
P =
1×2 cell array
{'فاتورة عدد'} {'فاتورة عدد'}
Guillaume
2017 年 12 月 21 日
I don't think it is an issue with your matlab version as it also works for me in R2016a, R2016b and R2017a. It's probably more related to your operating system.
I'm using Win 7 (Enterprise) and didn't have to do anything special to get the above to work.
Walter Roberson
2017 年 12 月 21 日
One thing to note is that if your operating system is set to English, then MATLAB might not store .m files with UTF encoding, so when you save the .m file and close it and open it again, any arabic characters you had in the file might be gone. With newer versions there is apparently a way to force MATLAB to permit UTF-8 for .m files, but it involves editing an obscure configuration file.
Walter Roberson
2017 年 12 月 21 日
Just to be sure we are all referring to the same thing:
It is not possible to use regexp() on an image, only on character vectors or cell array of character vectors or on string() arrays.
Walter Roberson
2017 年 12 月 21 日
Please attach a .mat containing the cell array and also containing the pattern you are trying to search for.
N Rh
2017 年 12 月 21 日
編集済み: Walter Roberson
2017 年 12 月 21 日
this is the used code, you can execute it and the image in the attached file.
clear all;close all;clc;
!tesseract -l eng+ara fac.jpg output
slCharacterEncoding('UTF-8')
fid = fopen('output.txt');
b = fread(fid,'uint8')';
fclose(fid);
a=dec2bin(b);
c=dec2hex(b);
str = native2unicode(b,'UTF-8');
disp(str);
C = textscan(str,'%s');
data=cellstr(C{1});
for i=1:length(data)
if strfind(char(data(i)), 'عدد')==1
fprintf('Numero de la facture : %s\n',char(str(i+1)))
end
end
Walter Roberson
2017 年 12 月 21 日
I had to hunt around for the arabic training files for tessaract; perhaps I did not find the right ones. And I got a whole bunch of messages about
Cube ERROR (ConvNetCharClassifier::RunNets): NeuralNet is NULL
The output.txt file contained only English for me.
N Rh
2017 年 12 月 21 日
because you need files ara.cube.bigrams, ara.cube.fold, ara.cube.lm, ara.cube.nn, ara.cube.params, ara.cube.size, ara.cube.word-freq, ara.traineddata
回答 (0 件)
参考
Community Treasure Hunt
Find the treasures in MATLAB Central and discover how the community can help you!
Start Hunting!エラーが発生しました
ページに変更が加えられたため、アクションを完了できません。ページを再度読み込み、更新された状態を確認してください。
Web サイトの選択
Web サイトを選択すると、翻訳されたコンテンツにアクセスし、地域のイベントやサービスを確認できます。現在の位置情報に基づき、次のサイトの選択を推奨します:
また、以下のリストから Web サイトを選択することもできます。
最適なサイトパフォーマンスの取得方法
中国のサイト (中国語または英語) を選択することで、最適なサイトパフォーマンスが得られます。その他の国の MathWorks のサイトは、お客様の地域からのアクセスが最適化されていません。
南北アメリカ
- América Latina (Español)
- Canada (English)
- United States (English)
ヨーロッパ
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom(English)
アジア太平洋地域
- Australia (English)
- India (English)
- New Zealand (English)
- 中国
- 日本Japanese (日本語)
- 한국Korean (한국어)
