オピニオン
子どもを守る規制を書き換える、リアルタイムのディープフェイク

現在のオンライン上の子どもの安全を守るインフラは、今とは異なるインターネット環境を想定して構築されたものです。 Image: Emily Wade/Unsplash
- 犯罪者は、ゲームプラットフォーム上で子どもになりすますために、リアルタイムの生成AI音声モデルを多用するようになっています。
- 現在の安全対策は、今日必要とされているリアルタイムの音声検証ではなく、事後的な監視に依存しています。
- 法規制の枠組みは、視覚的なディープフェイクにとどまらず、ライブ配信チャンネルにおける合成音声の操作を規制する方向へと拡大されなければなりません。
子どもたちが『Roblox(ロブロックス)』をプレイしている部屋にいた時、スピーカーから聞こえてきたある音に、私は凍りつきました。それは子どもの声のように聞こえますが、間違いなくそうではありませんでした。話し方のリズムが不自然だったのです。親ならすぐ気付くほど感情表現に乏しいその声に、プラットフォーム側は気付いていないようでした。
その時、私は自分が何を耳にしているかを完全に理解しました。他のプレイヤー、おそらくは大人が、オンラインゲームやソーシャルプラットフォーム上で子どもに見えるよう、リアルタイムAI音声モデルを使用していたのです。
ゲームプラットフォーム、特に子どもたちが利用するプラットフォームにおけるリアルタイム音声通信のこのような悪用は、決して新しいことではありません。20年前に初めてリリースされた同ゲームは、1日あたりのアクティブユーザー数が1億4400万人を超え、16歳未満の米国の子どもの約半数が利用。未成年者を悪意ある接触から守るための安全対策が不十分であるとする一連の訴訟を受け、2026年1月に年齢確認を義務化しました。
ただしこれは、他にも数多く存在する類似プラットフォームの一つに過ぎません。「Discord(ディスコード)」や「フォートナイト」、その他数十のプラットフォームには、数百万人のユーザーと多くの若年層に広く利用されているリアルタイム音声チャット機能があります。そして、これらのプラットフォームもまた、我が家で観測されたような恐ろしいリスクに間違いなく直面しています。
今とは異なるネット環境を想定して構築された、現在の安全対策
オンライン上の子どもの安全を守るためのインフラの多くは、登録時に本人確認を行い、投稿されたコンテンツを監視し、利用規約に違反するアカウントを通報するという、基本モデルを前提としています。このモデルは、導入当初から回避策との戦いではありましたが、リスクが主にテキストでのコミュニケーションにあった時代には理にかなっていました。
近年、生成AIによって、リアルタイムで声を操作することが極めて容易になっています。2年前には技術的な専門知識を必要とした、オープンソースの音声クローン作成ツールが、今では一般ユーザー向けのアプリとして動作しているからです。FBIの『2025年インターネット犯罪報告書(2025 Internet Crime Report)』では、1年間で2万2,000件を超えるAI関連の苦情を記録。特に、音声クローンはなりすまし手段として増加傾向にあると指摘されています。
結果として起こっているのは、現実の脅威と対策の間にあるギャップであり、これは毎月のように拡大しています。プラットフォームは、登録時の自撮り写真でユーザーの年齢を確認したとしても(それ自体、ディープフェイクで容易に回避可能です)、実際の会話が行われる音声チャンネルを分析することはありません。つまり、成人が視覚的な本人確認を通過した後、その後のあらゆるやり取りで合成された子どもの声を使用することが可能なのです。
モデレーションチームの備えは不十分
コンテンツモデレーションでは、「このコンテンツは有害かどうか」が問われます。ここでは、コンテンツが本物であることを前提として判断が行われます。しかし、声そのものが合成されたものである場合、最初に問うべきは「この人物は、見た目通りの本人か」です。
この問いは、根本的に異なる技術的課題を提起します。事後的に報告された投稿を審査するのではなく、音声ストリームをリアルタイムで分析する必要があるのです。
データは、現在のアプローチが課題に追い付いていないことを示唆しています。2024年、全米行方不明・被搾取児童センター(NCMEC)の窓口「サイバーティップライン」に寄せられた生成AI関連の通報件数は、4,700件から67,000件へと1,325%増加。また、性的目的で成人が子どもとコミュニケーションをとる行為を含む、オンラインでの誘引に関する通報は54万6,000件を超え、前年から192%増加しました。2025年半ばには、生成AI関連の通報がわずか6カ月で44万件以上と急増しています。
私が米国上院司法委員会で、ディープフェイクが社会に及ぼす脅威について証言した際、同意のないディープフェイク映像の標的は圧倒的に少女や女性であり、高校生でさえこの技術を利用して同級生や教師を傷つけていると指摘しました。
この証言は選挙の公正性や合成メディア全般に焦点を当てたものでしたが、その後、脅威は既存の枠組みでは対処しきれない領域へと移行しています。それは、大人がAIを利用してリアルタイムで子どもになりすますライブ音声チャンネルです。
捏造されたコンテンツから捏造された身元へ、あるいは事後的に目にするものからリアルタイムで交流する相手へと移行したことは、新たな対応を必要とする変化です。
変える必要があるもの
3つの様々な転換が、現実の脅威と対策の間のギャップを効果的に解消するでしょう。
第一に、プラットフォームはライブ音声動画チャンネルに対し、アップロードされたコンテンツに適用するのと同じ厳格な基準で対処する必要があります。リアルタイム音声は今や、何百万人もの子どもたちにとって主要な交流の場となっています。検知インフラは、その現実に合わせて整備されなければなりません。
第二に、AI生成の音声をリアルタイムで識別する技術はすでに存在しますが、「Roblox」のようなプラットフォームがこうした事案を大規模に検知するためには、導入されていません。このようなプラットフォームは、10年前にコンテンツ分類基準を導入したのと同様に、合成メディアの検知機能を安全信頼対策業務に統合する必要があります。ただし、そのような機能を一から構築する必要はありません。最も必要とされる場所に、実績のある検知技術を適用すればよいのです。
第三に、政策が追い付く必要があります。2025年5月に法制化された「テイク・イット・ダウン法」は、同意のないディープフェイク映像を犯罪とし、プラットフォームにその削除を義務付けるという点で、意義深い一歩でした。同法に基づく最初の有罪判決は、2026年4月に下されました。ただし、同法は主に公開された視覚コンテンツに焦点を当てており、ライブ配信チャンネルにおけるリアルタイムの音声なりすましには対処していません。これこそが、信頼が築かれ、グルーミングが行われる経路であるにも関わらずです。特に未成年者が利用するプラットフォームにおいて、リアルタイムの音声操作を規制対象に含めるよう立法の範囲を拡大すれば、最も喫緊かつ最も規制が不十分なこの課題に対処することができるでしょう。
今こそ立法化の時
リアルタイム音声合成の品質は、モデルがリリースを重ねるごとに向上し、コストはアップデートのたびに低下しています。また、子どもたちが利用するプラットフォームにおいて、音声機能は減少するどころか、ますます充実しています。
これらはいずれも、技術そのものを恐れるべきだという意味ではありません。AI音声ツールは、アクセシビリティ、創造的な表現、コミュニケーションにおいて、極めて優れた用途を持っています。一方、同じツールがライブ会話の中で子どもの同級生になりすますために利用され得る以上、私たちには、やり取りのスピードに合わせて機能する本人確認インフラが必要なのです。
従来の子どもの安全保護ツールは、有害なコンテンツが投稿された後に検知できるという考えに基づいて構築されていました。次世代のツールでは、信頼関係が築かれる前に、リアルタイムで真正性を検証する必要があります。
事後対応型のモデレーションからリアルタイム検証へのこの転換こそが、プラットフォーム運営者や政策立案者が今すぐ行うべき最も重要なインフラ投資です。最終的に、その音声チャンネルの向こう側にいる子どもたちは、その直面する脅威と同じくらい高度な安全対策に守られるべきだからです。
このトピックに関する最新情報をお見逃しなく
無料アカウントを作成し、パーソナライズされたコンテンツコレクション(最新の出版物や分析が掲載)にアクセスしてください。
ライセンスと転載
世界経済フォーラムの記事は、Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International Public Licenseに基づき、利用規約に従って転載することができます。
この記事は著者の意見を反映したものであり、世界経済フォーラムの主張によるものではありません。
最新の情報をお届けします:
正義と法
「フォーラム・ストーリー」ニュースレター ウィークリー
世界の課題を読み解くインサイトと分析を、毎週配信。
