【スマホの通話音声は偽物?】電話の声が合成音声である仕組み!

(この記事は2021年9月21日に投稿されました。)

コロナ禍になってから、友達と通話したり、Zoomなどでオンライン上で会話をする機会が増えたかと思います。

ここでいきなり質問なのですが、通話中に電話から聞こえる声は誰の声でしょうか?

結論から言うと、電話の声がはその人が話している本当の声ではないのです。

「それじゃあ裏でモノマネをしている人がいるのか?」

というような考えになるかと思います。

実は、皆さんが通話で聞いている声は端末機器が判断して出力している合成音声のになります。

その為、今回は電話の声が合成音声である仕組みについて解説していきます。

電話の声は自分本来の声ではない?

冒頭でも言いましたが、LINEなどで通話、Zoomなどでオンライン上で話している声は自分本来の声ではなく合成音声になります。

「でも合成音声なんて作る時間なんてないのでは?」

というような考えになるかと思います。

実は、皆さんが通話で聞いている声は端末機器が瞬時に判断して合成音声を作成しているのです。

どのような仕組みで合成音声を作成しているのか?

それでは、どのような仕組みで合成音声を作成しているのでしょうか?

簡単な流れだとこのような感じになります。

伝えられた音声は一度、ロボットが受け取り、そのロボットが判断して合成音声を作成し、断相手の端末へ合成音声が届くような仕組みになっています。

話した瞬間に端末が合成音声を作成しているなんてとてもすごいですよね。

しかし、どのようにしてロボットが合成音声を作成しているのかよく分からないかと思います。

その為、ここではどのようにして合成音声を作成しているのかを紹介していきます。

音声をデジタルデータに変換

話した音声は、「声の特長」と「音韻情報」の2つに分解され、通信できるよう途中でデジタルデータに変換しています。

音韻情報については、デジタルデータに変換することで、通信するデータ量を抑え、通信量を少なくすることで回線への大きな負荷を防いでいます。

Sossy

「声の特長」と「音韻情報」の2つに分解する方法を「ハイブリッド符号化」といいます。
そのままの音声を変換すると、データ量は膨大になってしまい、回線に大きな負荷がかかることになるんですね。

Sossy

また音韻とは、区別される音の総称になります。
例えば、「Rock」と「lock」
実際に発する音は違いますが、母語の音韻的には同じになります。

コードブックで本人の声に近い音声コードを選択

また、声の特長については、数千種類以上の声パターンが登録された「コードブック」という「音の辞書」から、本人の声に近い音声コードを選択しています。

コードブックとはいろんな声が収録された本がある図書館みたいなイメージを思い浮かべた方が分かりやすいかと思います。

そこから一番よく似た声の番号をコードブックから取り出し、電波に乗せて相手に届けています。

Sossy

コードブックには組み合わせのパターンが約43億あると言われています。
43億にもなると、全世界の人の声が再現できますね。

合成音声の仕組みを利用した事例がある

合成音声の仕組みを知ってしまうと、やはり悪用に利用する人が出てきます。

しかし、今まで実現できなかったことが可能になったりもします。

ここでは、合成音声の仕組みを利用して悪用された事例と良かった事例をご紹介していきます。

上司によく似た声を利用して振込みを依頼した

2019年にイギリスのあるエネルギー企業で合成音声の仕組みを利用された被害がありました。

ある日、このエネルギー企業の社長のもとに電話がかかってきました。

ハンガリーのある取引先口座へ24万ドルを緊急で振り込み、この会社が支払いの遅延による罰金を回避するよう親会社の上役から指示がありました。

しかし、この電話の相手がAIで作られた合成音声だったのです。

声は本物そっくりで、声の調子や間合いも似ていて、ドイツ訛りまであったようです。

残念ながら、22万ユーロ(約2600万円)のお金はハンガリーとメキシコの口座に移されてしまい、行方がわからなくなっているそうです。

Sossy

声や訛りまで似せられるとこちらでも流石に気付けませんよね。

加山雄三本人のバーチャル化プロジェクト

2021年の24時間テレビで84歳・加山雄三が自らの発案でAI技術を駆使し自分の分身を創り出す企画に挑戦しました。

このプロジェクトは、加山雄三さんの姿や動きだけでなく話し声や歌声までもバーチャル化し、新しいエンターテインメントの可能性を追求するものでした。

人間の声質・癖・歌い方を高精度に再現できるAI歌声合成技術を用いて、加山雄三氏が過去に収録した歌声をディープラーニングすることで、
どんな曲でも本人そっくりに歌わせることができるようになるようです。

Sossy

国技館ステージで “バーチャル若大将”と自ら名付けた分身が湘南乃風の名曲「純恋歌」を歌い上げていました。
声も姿も加山雄三さんそっくりでした。

まとめ

⚫︎ 電話の声はその人本来の声ではなく合成音声である

⚫︎ 音韻情報については、話している音声は端末を通じて、デジタルデータに変換している

⚫︎ 声の特長については、「コードブック」という「音の辞書」から、本人の声に近い音声コードを選択している