Inspiration
- インバウンドの旅行者が増えた。日本語しか喋れない宿や施設は、外国人の旅行者と摩擦があったり、宿泊を断ったりしている。多言語が自由に喋れるアシスタントが配置されると、訪れる側も、受け入れる側も、もっと円滑にコミュニケーションできるのではないか?
What it does
- とある情報について詳しく知りたい人が、このボットに問いかけると、話しかけた言語を自動的に判別し、Gemini 1.5 Proが回答する。Google CloudのText to speechが対応する50以上の言語(*1)に対応。 (*1 2024年9月時点)
How we built it
Raspberry Pi 3上で動作するPythonコードが、Google の生成AIを含む各種APIをリクエストする。
ハードウェア
- Raspberry Pi 3
- 汎用的なWebマイク
- AUXで接続する古いスピーカー
ソフトウェア
- Google Speech to text
- Google Text to Speech
- Gemini 1.5 Pro
Challenges we ran into
- 言語の聞き分けが繊細で、テスターである自分の日本語以外の発話が悪く、ちゃんと聞き取れなかった。そのため残念ながら、動作確認用動画は日本語のみで提出します。
Accomplishments that we're proud of
Raspberry Pi3 ModelB+という、学習用で限られたスペックしかない、しかも6年前の古いマイコンでも、最新の生成AIを使う事ができた。
What we learned
- Gemini 1.5 flashの応答の速さ
- Gemini 1.5 Proの思慮深さ
What's next for protocol walker
Android OS版への転用 今回はRaspberry Piを使ったが、AndroidOS向けのアプリを作成すれば、店舗で稼働しているAndroid OSのサイネージにも機能を組み込むことができるだろう。
家庭向けの転用 コード内ではコメントアウトしているが、https://elevenlabs.io/ という外部APIと繋ぎ込む事で、自分の声をサンプリングして喋らせる事もできる。GoogleのText-to-Speechと比べて話せる言語数が少ないので、今回のスコープからは除外したが、家庭用の「仏壇」としてしつらえ、自分が死んだ後でも、自分の声で喋らせることができるは面白い。(*2) (*2 ただし、人格をコピーする事の倫理上の問題、および、APIに課金し続けなければならないという課題が存在する。)
リモートメンテナンス 大量に製造した場合、リモートからアップデートするような仕組みが必要となる。Raspberry PiにはSSHの機能があるが、一括アップデートや監視の仕組みも必要だと思った。
Built With
- gemini
- mic
- python
- raspberry-pi
- speaker
- speech-to-text
- text-to-speech

Log in or sign up for Devpost to join the conversation.