[Live Webinar] Next-Level O11y: Why Every DevOps Team Needs a RUM Strategy Register today!

CTC + Tocaro Case Study Header

CASE STUDY

CTC開発のTocaro、Coralogix採用を機に、データ利用価値を最大化

50%+

Reduced MTTD/MTTR

20+

Dev Hours Saved/Month

60%

User Adoption

tocaro.im

Tocaroについて

伊藤忠テクノソリューションズ(以下、CTC)が運営するワークプロセスマネジメントプラットフォーム。リアルタイムメッセージ、ビデオ会議、ボイスチャット、タスク管理、ファイル共有、カスタマイズできる強固なセキュリティ機能などが利用可能。

(Read the story in English)

概要

伊藤忠テクノソリューションズ(CTC)は、世界中の組織・団体に対して幅広いITサービスを提供している日本の大手システムインテグレータである。CTCがシリコンバレー拠点として構えるITOCHU Techno-Solutions America, Inc.ではクラウドネイティブとオープンソース技術に特化しており、業界最高のオブザーバビリティ(可観測性)プラットフォームを提供するためにCoralogix とのパートナーシップを開始した。

このパートナーシップの初期段階で、CTCのシリコンバレーチームは、Tocaroの開発・運用を担当するチームに Coralogix を紹介し、オブザーバビリティのスタックに不可欠な要素として Coralogix を採用している。

Tocaroは、幅広い業界で規模を問わず生産性向上を目的として利用できるコラボレーションツールだ。この開発・運用を担当するチームでは、各APIからトレースログを収集・一元化し、500系の HTTPステータスコードなどをはじめとした APIエラーやK8Sクラスタの状態把握、メトリックスの集中管理や、ユーザの利用状況を解析するために Coralogix を利用している。

現在、TocaroのシステムではCoralogix の Logs2Metrics 機能(ログから有用な一部のフィールド抜き出し、ダッシュボード化するなど利活用を可能にする機能)を活用してログを追跡可能なメトリクス(指標)として集約し、深刻なエラー発生時にダイナミックアラートを使ってリアルタイムにアラートを出している。リアルタイムなアラートとログデータ参照により、解決に数時間〜数日かかるようなエラーに対し、発生時の対応時間を短縮しただけではなく、影響範囲の正確な把握と極小化、予防措置などプロアクティブな対応を実現できるようになった。

また、組織内の他チーム(カスタマーサクセスチームなど)にログデータを活用した顧客の利用動向などの分析情報を提供することで、顧客の利便性を高めるためのデータ活用も始めている。

課題

以前まで、Tocaroの開発・運用チームは、 Amazon Cloudwatch を使用してログを集計、エラーを検出していた。Cloudwatch でのログ取得に状況によっては、10分以上の遅れがでることがあり、リアルタイムに障害が特定できないことが課題だった。

また、これに伴い、ソフトウェアのリリースが成功したかどうか即時に確認できなかった。リリース後にエラーが発生していたとしても、それらを発見するのは10分以上経ってからだった。

当初、この課題を解決するために取った方法では、リリース時に必要な作業を倍増させてしまった。
具体的には、リリース時はDataDogのようなツールを別ウィンドウで開き、継続的に待機モニタリングしていた。これにより、リリースによるパフォーマンスエラーが発生した場合、すぐに把握することができた。しかし、実際に問題が発生した際には、問題を完全に理解するために必要な情報が揃っていなかった。

この当時は、ログが集中管理されていない状態であったため、事象の影響範囲の特定が難しかった。さらに、少人数のチーム構成であったことから、運用自動化やクラウド技術の活用の優先順位が高まっていた。

加えて、サービスの利用拡大や、より開発・運用効率の高いマイクロサービス化を推進する中でログ量が増加していた。ログ管理の仕組みのROIを改善できる余地があった。

Coralogixを用いることにより改善したTocaroのトラブルシューティング

Coralogixの実装自体は非常に簡単で、既存のFluent Bitのデーモンセットを移行するだけだった。初期設定の際、TocaroのチームはCTCのシリコンバレーチームやCoralogixのカスタマーサポートと密に連携し、運用を効率化する様々な機能を導入した。

Coralogixの導入により、アプリケーションのリリースプロセスを継続的にモニタリングするためにダッシュボード等を開いておく必要はなくなった。問題が発生した際にはすぐに検知でき、状況把握に必要なすべての情報が揃うためだ。

また、Coralogixのエラー検出、動的アラート、そしてKibanaにおける各APIのステータスの可視化は、アプリケーションの安定性・健全性確立に役立っている。障害発生時は、APIログから生成されたメトリクスが表示されるKibanaダッシュボードを開き、そこから調査が開始できる。

さらに、調査時に追加情報が必要な際は、CoralogixのExplore画面を用いて特定のアプリケーション、サブシステム、エラータイプなどを簡単に絞り込み参照できる。

Kenji Matsuda

松田 賢司
プロダクトマネジメント

直接的な効果は、月20時間程度の人的リソースの削減ですが、今まで把握できていなかったことが分かるようになったので、それ以上の効果があると思っています(松田)

Coralogixの価値を倍増させるために

Coralogixを導入した元々の目的は、重大な問題をリアルタイムで調査・特定するためだ。

しかし、CoralogixのTCO最適化機能を以下のような構成にすることで、当初の目的を果たすだけではなく、蓄積されたデータをビジネスにも活用できるようになった。

まず、監視・アラートに使用されるデータは、TCO最適化機能で定義した「Frequent Search(頻度の高い検索)」領域に保存される。これは、最も効率的に問題を調査し、即時解決するためのデータを保存する領域で、全体の約20%のログデータを保管する。

そして、約10%のデータは「Monitoring(モニタリング)」領域に保存される。このデータはLogs2Metrics機能で処理され、ログデータからシステムトレンド解析のためのメトリクスを生成している。例えば、あるサービスにおいて、特定の時間帯や数ヶ月間に何件程度のエラーが発生しているかなどの傾向が見える。

残りの約70%のデータは「Compliance(コンプライアンス)」領域に割り当て、データをアーカイブしながら、後に必要になったときに利用できるようにしている。結果的に、Tocaroのチームは、開発者の生産性、データ保管コスト、さらに問題の特定と解決に要する時間の短縮という点で、投資対効果を劇的に高めている。

さらに、Monitoring 領域に保存されるデータを用いて「Tocaroユーザのサービス利用動向を理解する」という、Coralogixの新しい活用方法も生み出した。具体的には、利用者動向を測定するメトリクスを生成し、ダッシュボードを作成している。これを参照することで、それぞれの顧客企業で何人のアクティブユーザーがいるのか、またはTocaroプラットフォームをどの様に使っているかなどをカスタマーサクセスチームが把握できる。

その他にも、カスタマーサクセスチームは、ある顧客企業の1日のアクティブユーザーが通常よりも増減している場合、動的アラートを受信する。これにより、潜在的な解約やアップセリングの可能性を知ることができるようになった。このようにCoralogixの利用価値を倍増させている。

結果

Coralogix導入による最大の成果は、リアルタイムのアラートと、即座に関連ログをチェックできるようになったことだ。10分以上の遅延をなくすだけではなく、Logs2Metricsを使用してAPIデータを追跡可能なメトリクスに集約し、監視とアラートができるようになった。

また、運用効率化により、Tocaroチームは問題の検知と解決に必要な時間を5割以上短縮できている。Tocaroの開発と障害対応の両方を同じチームが担っているため、この効果でより多くの時間を新しい革新的機能の開発に割くことができるようになった。

「エラー検出」と「トラブルシューティングの改善」といった当初の導入目的達成に加え、顧客行動を可視化したことで、アプリケーションの健全性とビジネスの健全性に関する理解が深まった。

Hisa Tanaka

田中 久智
CTO, Engineering

自分たちが販売している製品を実際の開発運用現場で利用すること、これを最も重要視しました。これにより、製品技術が上手く活用されることを確認し、プラットフォームの真価を検証した上でお客様に提供すべきと思ったことから、今回チームと共に、Tocaroサービスでの利用を推進しました。(田中)

さいごに

Coralogixの活用により、ログデータのリアルタイム分析、アラートの即時実行、そしてすべてのログデータのダッシュボード表示が実現した。これにより、Tocaroの開発運用チームは、リリース時に発生する問題の即時検知と影響範囲の特定ができるようになった。

以前のログ関連ソリューションに取って代わるだけでなく、高度な機能、柔軟性、コストの最適化により、Tocaroチームはこれまでとは全く異なる新しいCoralogixのユースケースを実現した。今後もデータから引き出せる新しい価値を追求すべく、チャレンジを続ける。

お問い合わせ先: https://www.ctc-america.com/contact

Where Modern Observability
and Financial Savvy Meet.

Live Webinar
Next-Level O11y: Why Every DevOps Team Needs a RUM Strategy
April 30th at 12pm ET | 6pm CET
Save my Seat