Inspiration

Creative decisions in global music are made fast — and cultural missteps are discovered slow.

The ideal scenario is simple: have a specialist in the room for every market. Someone who knows what a halo means in Japan, what "Stella Maris" triggers in France, what eagle motifs evoke in Germany. But that specialist doesn't exist in a single person. Assembling the right expertise for every market costs time and money that most creative teams don't have. And even when specialists are available, the knowledge stays siloed — dependent on whoever happens to be in the meeting.

There's another problem: formality. Cultural risk review tends to happen at the end of the process, as an official checkpoint. By then, the creative is locked in. What's missing is the ability to ask casually, at the idea stage — "Does this feel right? What am I missing?" — and get a thoughtful answer without scheduling a meeting or filing a request.

That's the gap this project fills. Not a report. Not a checklist. Not a formal review.

A conversation. Always available. Across all markets. Simultaneously.


グローバル音楽における創作的意思決定は速く、文化的ミスの発見は遅い。

理想はシンプルだ。すべての市場の専門家を会議室に揃えること。日本でハローが何を意味するか、フランスで「Stella Maris」が何を喚起するか、ドイツでワシのモチーフが何を連想させるかを知っている人物を。しかしそんな専門家は一人では存在しない。各市場に必要な専門知識を集めるには、ほとんどのクリエイティブチームが持っていない時間とコストがかかる。専門家がいたとしても、その知識は属人化する——たまたまその会議にいた人物に依存する形で。

もう一つの問題がある:フォーマリティだ。文化的リスクのレビューはプロセスの終盤、正式なチェックポイントとして行われる傾向がある。その時点ではクリエイティブはすでに固まっている。欠けているのは、アイデア段階でカジュアルに問いかける能力だ——「これは大丈夫?何か見落としていない?」と、会議を設定したりリクエストを提出したりせずに、的確な答えをもらうこと。

このプロジェクトが埋めるのはそのギャップだ。レポートではない。チェックリストでもない。正式な審査でもない。

会話だ。いつでも使える。全市場に対して。同時に。


What it does

Cultural Risk Intelligence is a real-time voice agent that puts a cultural advisor in every creative meeting. Share an image, speak naturally, and get instant cultural risk analysis across four global markets — Japan, US/UK, France, and Germany — simultaneously.

The agent handles interruptions mid-sentence, just like a real conversation. When you ask it to analyze all markets at once, it launches four parallel agents and reads back the results in voice.

While the demo focuses on a costume concept, the agent works with any visual creative — album artwork, stage design, promotional imagery, music videos, brand assets. If it can be seen, it can be evaluated.


Cultural Risk Intelligence は、すべてのクリエイティブ会議に文化アドバイザーを参加させるリアルタイム音声エージェントです。画像を共有し、自然に話しかけるだけで、日本・US/UK・フランス・ドイツの4市場の文化的リスク分析を同時に取得できます。

会話の途中でエージェントに割り込むこともできます——まるで本物の会話のように。「全市場を分析して」と言うだけで4つの並列エージェントが起動し、結果を音声で読み上げます。

デモではコスチュームを例として使用しているが、このエージェントはあらゆるビジュアルクリエイティブに対応する——アルバムアートワーク、ステージデザイン、プロモーション画像、ミュージックビデオ、ブランドアセット。見えるものであれば、評価できる。


How we built it

Architecture:

  • Gemini Live API (gemini-live-2.5-flash-native-audio) for real-time voice conversation with barge-in support
  • 4 parallel Market Agents (gemini-3.1-flash-lite-preview) running simultaneously via an Orchestrator
  • FastAPI + WebSocket for the backend relay
  • Vanilla JS frontend with an SVG world map that lights up as markets are mentioned
  • Google Cloud Run for deployment

The 7-Domain Analysis Framework was developed from years of experience in the global entertainment industry: Culture & Religion, Legal & Regulatory, Social Psychology, Expression & Design, Accessibility & Inclusivity, Humor & Satire, and Trigger Content. Each market persona is defined in a YAML prompt file — adding a new market requires just one file.

Voice Trigger: Saying "analyze all markets" automatically launches the Deep Analysis engine — no button required. The agent announces the analysis start, runs four market agents in parallel, then reads back the synthesized results.


アーキテクチャ:

  • Gemini Live API (gemini-live-2.5-flash-native-audio) — 割り込み対応のリアルタイム音声会話
  • 4つの並列市場エージェント (gemini-3.1-flash-lite-preview) — Orchestratorによる同時実行
  • FastAPI + WebSocket — バックエンドリレー
  • Vanilla JS フロントエンド — 市場が言及されるたびに点灯するSVG世界地図
  • Google Cloud Run — デプロイ

7ドメイン分析フレームワークは、グローバルエンタメ業界での長年の経験から考案した:文化・宗教、法規制、社会心理、表現・デザイン、アクセシビリティ、ユーモア・風刺、トリガーコンテンツ。各市場ペルソナはYAMLプロンプト1ファイルで定義——新市場の追加はファイル1つで完結します。

音声トリガー: "analyze all markets"と話しかけるだけでDeep Analysisエンジンが自動起動。ボタン操作は不要です。エージェントが開始をアナウンスし、4市場を並列分析して結果を音声で読み上げます。


Challenges we ran into

The hardest technical challenge was keeping the Gemini Live API session alive during the 20-30 second Deep Analysis window. The session would silently timeout while the Orchestrator was running. I solved this with an async keep-alive pattern and careful task scheduling.

Other hard-won lessons:

  • --loop asyncio is required for uvicorn — uvloop causes WebSocket handshake timeouts with the Live API
  • api_version='v1beta1' must be set explicitly or connections silently timeout
  • Live API does not support the global location — must use us-central1
  • SVG elements require classList API — className assignment silently fails on SVG <g> elements

最も困難な技術的課題は、Deep Analysis実行中(20〜30秒)にGemini Live APIのセッションを維持し続けることでした。Orchestratorが実行中にセッションが無音タイムアウトで静かに切断される問題を、非同期keep-aliveパターンとタスクスケジューリングで解決しました。

その他の重要な知見:

  • uvicornには --loop asyncio が必須 — uvloopはLive APIとのWebSocketハンドシェイクタイムアウトを引き起こす
  • api_version='v1beta1' を明示的に設定しないと接続が無音でタイムアウトする
  • Live APIは global ロケーションに非対応 — us-central1 を使う必要がある
  • SVG要素には classList APIが必要 — className の直接代入はSVG <g> 要素では無音で失敗する

Accomplishments that we're proud of

The moment that made this feel real: interrupting Gemini mid-sentence and watching it pivot immediately to a different market. That's not a feature — that's a different kind of tool. It stopped feeling like software and started feeling like a conversation.

Beyond that:

  • Voice-triggered Deep Analysis — saying "analyze all markets" launches a parallel 4-agent pipeline with no button required. The boundary between conversation and analysis disappears.
  • Session continuity during parallel analysis — keeping the Live API session alive during a 20-30 second Orchestrator run was the hardest technical problem. Solving it made the whole experience seamless.
  • A framework that generalizes — the 7-domain analysis and YAML-driven market personas work for any visual creative, not just costumes. One file per market, infinitely extensible.
  • Built and deployed end-to-end in 7 days — solo, on a production GCP environment, with a working demo.

これがリアルだと感じた瞬間:Geminiが話している最中に割り込んで、即座に別の市場へ切り替わるのを見たとき。これは単なる機能ではない——別種のツールだ。ソフトウェアではなく、会話のように感じられた。

それ以外にも:

  • 音声トリガーによるDeep Analysis — 「全市場を分析して」と言うだけで並列4エージェントパイプラインが起動。会話と分析の境界が消える。
  • 並列分析中のセッション維持 — Orchestrator実行中(20〜30秒)にLive APIセッションを保持し続けることが最難関の技術課題だった。これを解決したことで全体の体験がシームレスになった。
  • 汎用化できるフレームワーク — 7ドメイン分析とYAML駆動の市場ペルソナは、コスチュームに限らずあらゆるビジュアルクリエイティブに対応する。市場ごとに1ファイル、無限に拡張可能。
  • 7日間でエンドツーエンドに構築・デプロイ — ソロで、本番GCP環境で、動くデモとともに。

What we learned

Live API isn't just a faster chatbot. The barge-in capability fundamentally changes the interaction model — from tool to advisor. The moment a user interrupts Gemini mid-sentence to redirect the conversation, the product stops feeling like software and starts feeling like a colleague in the room.

That's the insight this project is built on: cultural risk isn't a checklist. It's a conversation.


Live APIは単に速いチャットボットではありません。割り込み機能はインタラクションモデルを根本から変えます——ツールからアドバイザーへ。ユーザーがGeminiの発話中に割り込んで会話を転換する瞬間、プロダクトはソフトウェアではなく、部屋にいる同僚のように感じられます。

このプロジェクトの核心はここにあります:文化的リスクはチェックリストではない。会話だ。


What's next for Cultural Risk Intelligence

The immediate next step is expanding the market coverage. The agent is designed so that adding a new market requires only one YAML file. Korea, Australia, Brazil, the Middle East — each is a prompt away.

Longer term:

  • Session memory — right now each conversation starts fresh. Giving the agent memory across sessions would let it build context over a project's creative development.
  • Deeper image analysis — integrating structured vision analysis to automatically identify symbols, color palettes, and design elements before the conversation starts.
  • Team mode — multiple stakeholders in the same session, with the agent mediating between different market perspectives in real time.
  • Integration with creative workflows — connecting to asset management systems so the agent can be invoked directly from the tools creative teams already use.

The core insight won't change: cultural risk is a conversation, not a checkpoint. The goal is to make that conversation available earlier, faster, and to more people.


直近のステップは市場カバレッジの拡張だ。このエージェントはYAMLファイル1つで新市場を追加できる設計になっている。韓国、オーストラリア、ブラジル、中東——どの市場もプロンプト1つで対応できる。

長期的には:

  • セッションメモリ — 現在は会話のたびにリセットされる。セッションをまたいだ記憶を持たせることで、プロジェクトのクリエイティブ開発を通じてコンテキストを蓄積できるようになる。
  • より深い画像分析 — 会話が始まる前に、シンボル・カラーパレット・デザイン要素を自動識別する構造化ビジョン分析の統合。
  • チームモード — 複数のステークホルダーが同じセッションに参加し、エージェントが異なる市場視点をリアルタイムで調停する。
  • クリエイティブワークフローへの統合 — アセット管理システムと連携し、クリエイティブチームがすでに使っているツールから直接エージェントを呼び出せるようにする。

核心は変わらない:文化的リスクは会話であり、チェックポイントではない。その会話をより早く、より速く、より多くの人に届けることが目標だ。


About the Builder

I'm Shinichi Yamada (@syam1977), a digital and AI practitioner with a long background in Japan's music industry. I currently lead AI initiatives at my organization, working to bring these tools into real creative and business workflows.

  • 3rd place at Microsoft Build 2025 Best Instructions Contest (1st among non-US residents)

山田真一(@syam1977)。日本の音楽業界で長くデジタルとAIに携わり、現在は自社のAI推進を担当している。

  • Microsoft Build 2025 Best Instructions Contest 3位(非米国在住者1位)

Try It

🌐 Live: https://cultural-risk-intelligence-121466101834.us-central1.run.app

Suggested prompts:

  • "This is a costume concept — what's your read for the US market?"
  • "What about Japan? How does the interpretation change?"
  • "Can you analyze all markets at once?"

お試しください:

  • 「これがコスチュームのコンセプトです。US市場ではどう見えますか?」
  • 「日本ではどうでしょう?解釈はどう変わりますか?」
  • 「全市場を一度に分析してもらえますか?」

Built With

Share this project:

Updates