"クライアントからワーカー X への接続が切断されました" というエラーのトラブ​ルシュートの方法はあ​りますか?

11 ビュー (過去 30 日間)
MathWorks Support Team
MathWorks Support Team 2022 年 4 月 7 日
回答済み: MathWorks Support Team 2022 年 4 月 7 日
Parallel Computing Toolbox 使用中に以下のようなエラーとなりますが、トラブルシュートの方法を教えてください。
エラーメッセージ:
クライアントからワーカー X への接続が切断されました。ネットワークの問題が原因であるか、対話型通信ジョブでエラーが発生した可能性があります。
その際、以下のような警告も表示されることがあります。
警告メッセージ:
警告: parfor ループの実行中にワーカーが中止されました。parfor ループは残りのワーカーで再度実行されます。

採用された回答

MathWorks Support Team
MathWorks Support Team 2022 年 4 月 7 日
このエラーの主な原因は 2 つあります。まず、複数起動したワーカーのうちいずれかのワーカーがクラッシュ、強制終了していることが考えられます。以下について確認します。
(1) ワーカーのクラッシュ
ワーカーがクラッシュした際、クラッシュのダンプファイルが残されている可能性があります。
https://jp.mathworks.com/matlabcentral/answers/92074-matlab
Parallel Computing Toolbox ご使用の場合は以下で各ワーカーの出力先を確認いただくことができます。
>> c=parcluster()
>> c.JobStorageLocation
(2) ネットワークの問題
クラッシュダンプファイルが見つからない場合はネットワークの問題が考えられます。
例えば使用するメモリ量が多くメモリスワップが発生しマシンの速度が著しく低下し、ワーカー間の通信信号が遅延することがあります。
ノードの速度低下だけでなく、ネットワークの遅延や接続の切断も発生する可能性があります。
なお、SpmdEnabled によるプールは、ワーカー間またはワーカーとクライアント間の通信が失われると、継続することができません。しかし、ローカルスケジューラやML Job Schedulerを使っていて、 parfor と parfeval しか使っていない場合は、代わりに 'SpmdEnabled' 'false' というフラグを指定することが可能です。
ご参考:
https://www.mathworks.com/help/parallel-computing/parpool.html
このオプションでは、1つのワーカーが接続を失った後でも、残りのワーカーが並列作業を継続します。
このエラーの処理に関してさらにサポートとサポートが必要な場合は、

その他の回答 (0 件)

カテゴリ

Help Center および File Exchange並列 for ループ (parfor) についてさらに検索

Community Treasure Hunt

Find the treasures in MATLAB Central and discover how the community can help you!

Start Hunting!