Inspiration

  • インバウンドの旅行者が増えた。日本語しか喋れない宿や施設は、外国人の旅行者と摩擦があったり、宿泊を断ったりしている。多言語が自由に喋れるアシスタントが配置されると、訪れる側も、受け入れる側も、もっと円滑にコミュニケーションできるのではないか?

What it does

  • とある情報について詳しく知りたい人が、このボットに問いかけると、話しかけた言語を自動的に判別し、Gemini 1.5 Proが回答する。Google CloudのText to speechが対応する50以上の言語(*1)に対応。 (*1 2024年9月時点)

How we built it

Raspberry Pi 3上で動作するPythonコードが、Google の生成AIを含む各種APIをリクエストする。

ハードウェア

  • Raspberry Pi 3
  • 汎用的なWebマイク
  • AUXで接続する古いスピーカー

ソフトウェア

  • Google Speech to text
  • Google Text to Speech
  • Gemini 1.5 Pro

Challenges we ran into

  • 言語の聞き分けが繊細で、テスターである自分の日本語以外の発話が悪く、ちゃんと聞き取れなかった。そのため残念ながら、動作確認用動画は日本語のみで提出します。

Accomplishments that we're proud of

Raspberry Pi3 ModelB+という、学習用で限られたスペックしかない、しかも6年前の古いマイコンでも、最新の生成AIを使う事ができた。

What we learned

  • Gemini 1.5 flashの応答の速さ
  • Gemini 1.5 Proの思慮深さ

What's next for protocol walker

  • Android OS版への転用 今回はRaspberry Piを使ったが、AndroidOS向けのアプリを作成すれば、店舗で稼働しているAndroid OSのサイネージにも機能を組み込むことができるだろう。

  • 家庭向けの転用 コード内ではコメントアウトしているが、https://elevenlabs.io/ という外部APIと繋ぎ込む事で、自分の声をサンプリングして喋らせる事もできる。GoogleのText-to-Speechと比べて話せる言語数が少ないので、今回のスコープからは除外したが、家庭用の「仏壇」としてしつらえ、自分が死んだ後でも、自分の声で喋らせることができるは面白い。(*2) (*2 ただし、人格をコピーする事の倫理上の問題、および、APIに課金し続けなければならないという課題が存在する。)

  • リモートメンテナンス 大量に製造した場合、リモートからアップデートするような仕組みが必要となる。Raspberry PiにはSSHの機能があるが、一括アップデートや監視の仕組みも必要だと思った。

Built With

Share this project:

Updates