
ここでは過去にWIDEプロジェクトがメンバー向けに発信してきた主な活動報告をダイジェストでご紹介します。発信当時の内容に加え、新たな動きや状況の変化に応じて随時追記・更新していきます。
世界のインターネット技術の方向性やインターネット全体のアーキテクチャに関する議論を行っているIAB(The Internet Architecture Board)に、WIDEプロジェクトのメンバーも参加しています。ここでは、生成AIのデータアクセスとその制御をテーマに2024年9月19日から2日間にわたって行われたワークショップの議論を概説します。
IABは、インターネットの関係する社会課題に対する戦略や将来のインターネットアーキテクチャを検討するワークショップを不定期で開催している。本ワークショップは、2023年頃から急速に普及が進んでいる大規模言語モデル(LLM:Large Language Model)などの生成AIについて取り上げ、AI学習に用いられるインターネット上のデータへのアクセスとその制御のあり方を議論するために開催された。
AI学習データの収集に利用されるCrawlerの制御方法としては、robots.txt(Robots Exclusion Protocol(RFC 9309)によるものがRFCとして定義されている。しかし、robots.txtは検索エンジンでの制御を目的とするもので、AI学習のような利用方法については想定されていなかった。本ワークショップでは、そのような制御手法を含めたAIとインターネットを取り巻く技術的課題について議論が行われた。
ワークショップ開催にあたり、まず参加者から募集したポジションペーパーの発表に基づき議論が行われた。そこではEUのAI Actのような各国・地域の法規制との関係に関する指摘もあり、アクセス制御技術だけでなく、その技術が必要とされるシーンに対するポリシーやガバナンスについても議論の対象となった。また、データの著作権(copyright)の課題にも議論が及んだ。論点をまとめると以下の3点となる。
議論に不可欠な問題であるが、AIのあまりに急速な発展により用語の定義が定まっておらず、コンセンサスを得るには今後も議論を要する。
生成AIは、例えばLLMでは学習データの内容と類似した文章を出力することがある。画像や動画でも同様である。そのため、生成AIの学習に使われることを防ぐためにCommon CrawlのようなAI学習用途に限定されないcrawlerのcrawling自体を拒否するケースが見られる。また現状の生成AIでは推論結果が商用利用禁止とされるコンテンツに基づくものであるかを判別することが難しい。これらを扱う仕組みについても検討する必要がある。
制御技術が適切に処理され、実効力を持たなければ、コンテンツ提供者は広い範囲でのデータ利用を制限することになり、それがインターネット・Web技術の発展自体を阻害するおそれがある。コンテンツ提供者の意図が正しく反映され、実効力を持つことも重要である。
これらの議論を受け、第121回IETF Meeting (IETF121)においてAI Preferences(aipref)ワーキンググループの新設が承認され、活動を開始した。生成AI技術が著しい発展を見せる中、日々変化する状況に対応しながらメーリングリストで活発に議論が行われている。今後も動向を注視しながら、WIDEプロジェクトの知見をもとにワーキンググループに貢献していく。
【 2025年12月 】