メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://wb-21fd5541-update-reference-docs-34.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

インタラクティブなキュー監視ダッシュボードを使用すると、launch queue が高負荷なのかアイドル状態なのかを確認し、実行中のワークロードを可視化して、非効率なジョブを特定できます。launch queue ダッシュボードは、計算ハードウェアやクラウドリソースを効果的に使用できているかどうかを判断するのに役立ちます。 より詳細に分析するには、このページから W&B の実験管理 Workspace や、Datadog、NVIDIA Base Command、クラウドコンソールなどの外部インフラストラクチャー監視プロバイダーへのリンクを利用できます。
キュー監視ダッシュボードは、W&B Multi-tenant Cloud のデプロイオプションでのみ利用できます。

ダッシュボードとプロット

Monitor タブを使用すると、過去7日間に発生したキューのアクティビティを確認できます。左側のパネルでは、時間範囲、グループ化、フィルターを設定できます。 ダッシュボードには、パフォーマンスと効率に関するよくある疑問に答える複数のプロットが含まれています。以下のセクションでは、キューのダッシュボードのUI要素について説明します。

ジョブステータス

ジョブステータス プロットには、各時間間隔における実行中、保留中、キュー内、または完了済みのジョブ数が表示されます。キューがアイドル状態になっている時間帯を特定するには、ジョブステータス プロットを使用します。
ジョブステータスのタイムライン
たとえば、固定リソース (DGX BasePod など) を使用しているとします。固定リソースでキューがアイドル状態になっている場合は、sweeps などの優先度が低いプリエンプティブルな Launch ジョブを実行する余地がある可能性があります。 一方、クラウドリソースを使用していて、アクティビティが周期的に集中している場合もあります。このような周期的なアクティビティの集中は、特定の時間帯にリソースを予約することでコストを削減できる可能性を示唆します。 プロットの右側には、どの色がLaunch ジョブのステータスを表すかを示す凡例があります。
Queued の項目は、ワークロードを別のキューに振り分ける余地があることを示している可能性があります。失敗の急増は、Launch ジョブのセットアップで支援が必要なユーザーを特定する手がかりになります。

キュー時間

キュー時間プロットには、指定した日付または時間範囲において、Launch ジョブ がキューに入っていた時間の長さ (秒) が表示されます。
キュー時間のメトリクス
x軸には指定した時間が表示され、y軸には Launch ジョブ が Launch queue に入っていた時間 (秒) が表示されます。たとえば、ある日に 10 件の Launch ジョブ がキューに入っているとします。これら 10 件の Launch ジョブ がそれぞれ平均 60 秒待機した場合、Queue timeプロットには 600 秒と表示されます。
キュー時間プロットを使用すると、キュー時間の長さによる影響を受けているUsersを特定できます。
左側のバーにある Grouping コントロールを使用して各ジョブの色をカスタマイズすると、キュー容量の不足によるしわ寄せを受けているUsersやジョブを特定する際に、特に役立ちます。

ジョブの実行状況

ジョブの実行状況プロットには、一定期間内に実行されたすべてのジョブの開始時刻と終了時刻が表示され、各 run は異なる色で示されます。これにより、特定の時点でキューがどのワークロードを処理していたかを一目で把握できます。
ジョブ実行のタイムライン
下の表に詳細を表示するには、パネル右下の Select tool を使用してジョブの範囲をドラッグして選択します。

CPU と GPU の使用状況

ジョブごとの GPU 使用率ジョブごとの CPU 使用率ジョブごとの GPU メモリジョブごとのシステムメモリのプロットを使用して、Launch ジョブの効率を確認できます。
GPU 使用状況メトリクス
たとえば、ジョブごとの GPU メモリのプロットを使うと、W&B run の完了に時間がかかっていたかどうかや、CPU コアの使用率が低かったかどうかを確認できます。 各プロットの x 軸には、W&B run (Launch ジョブによって作成された) の実行時間が秒単位で表示されます。データポイントにマウスオーバーすると、run ID、その run が属するプロジェクト、その W&B run を作成した Launch ジョブなど、W&B run に関する情報を確認できます。

Errors

Errors パネルには、指定した launch queue で発生したエラーが表示されます。具体的には、エラーの発生時刻、そのエラーの発生元である Launch ジョブ の名、作成されたエラーメッセージが表示されます。デフォルトでは、エラーは新しいものから古いものの順に並びます。
エラーログパネル
Errors パネルを使用して、影響を受けているユーザーを特定し、問題を解消できます。 キュー可観測性ダッシュボードのビューは、すべてのキュータイプで共通していますが、環境固有のモニターに直接移動できると便利な場合がよくあります。そのためには、コンソールでキュー可観測性ダッシュボードから直接リンクを追加します。 外部リンクを追加するには、Manage Links をクリックしてパネルを開きます。追加したいページの完全な URL を入力します。次に、ラベルを追加します。追加したリンクは、外部リンク セクションに表示されます。