Hanzomon AI: 根本原因分析の自動化
インスピレーション
Hanzomon AI のアイデアは、大規模なインフラストラクチャで重大な問題を診断する際に多くの SRE および DevOps エンジニアが直面するフラストレーションから生まれました。仮想マシンとベアメタル サーバーは膨大な量のデータを生成するため、手動でログと指標を精査して根本原因を特定するのは大変な作業です。Hanzomon AI は、このプロセスを効率化し、根本原因分析 (RCA) レポートの生成を自動化してデバッグにかかる時間を短縮するために構築されました。
機能
Hanzomon AI は、サーバーからの時系列データを分析して、PDF 形式の詳細な RCA レポートを自動的に生成します。Isolation Forest などの機械学習モデルを使用して異常を検出し、Google Cloud Document AI を活用してこれらのレポートを要約します。レポートにより、エンジニアは問題をすばやく特定できるため、貴重な時間を節約し、インフラストラクチャの安定性を確保できます。
構築方法
- データ収集: ノードレベルの指標を収集するために、各サーバーに Prometheus と Node Exporter をデプロイしました。
- データ ストレージ: 指標は Google Cloud Storage (GCS) に CSV ファイルとして保存されます。
- データ クエリ: Google BigQuery は CSV ファイルを読み取り、クエリを実行して、データへのリアルタイム アクセスを確保します。
- 機械学習: 15 秒間隔から 2 分間隔にダウンサンプリングされた時系列データで Isolation Forest モデルをトレーニングしました。
- API 統合: FastAPI は、データの前処理、RCA レポートの生成、機械学習モデルの実行に使用されます。
- Document AI: Google Cloud Document AI は、詳細な RCA レポートから簡潔な要約を抽出するために使用されます。
直面した課題
主な課題の 1 つは、複数のサーバーにわたる大量の時系列データの管理と処理でした。リアルタイム機能を維持するには、GCS と BigQuery を介して効率的にクエリを実行する必要がありました。さらに、高次元のラベルなしデータで機械学習モデルをトレーニングするには、広範な特徴エンジニアリングと慎重なモデル選択が必要でした。複雑なレポートを要約するために Google Cloud Document AI を統合すると、レポートの明瞭性を維持しながら重要な分析情報を抽出する際に課題が生じました。
誇りに思う成果
リアルタイムで異常を検出するだけでなく、エンジニアがすぐに対応できる包括的な RCA レポートを生成するエンドツーエンドのシステムの構築に成功しました。Hanzomon AI で実現した自動化により、インフラストラクチャの監視とデバッグの手作業が削減されたことを誇りに思います。
学んだこと
このプロジェクトを通じて、大規模な時系列データの処理、教師なし学習モデルを使用した異常検出、クラウドベースの統合についての理解が深まりました。また、高度な特徴エンジニアリングを適用し、Document AI を使用してレポートの要約を効果的に自動化する方法も学びました。
Hanzomon AI の今後の展望
次のステップでは、異常検出と RCA 用のより洗練されたモデルを組み込むことで Hanzomon AI の機能を拡張し、ディープラーニング手法を探求する予定です。また、リアルタイム処理を強化し、異常が検出されるとすぐにエンジニアが RCA レポートを受信できるようにする予定です。さらに、プラットフォームの機能とスケーラビリティを拡大するために、他のクラウド サービスとの統合も検討しています。
Built With
- big-query
- cloud
- dask
- document
- fastapi
- gce
- gcp
- gcs
- google-big-query
- google-compute-engine
- prometheus
- python
- scikit-learn

Log in or sign up for Devpost to join the conversation.