月刊OPTRONICS 特集序文公開

AI時代の光ネットワークに向けた 光デバイス,実装技術

AI時代の光ネットワークと光技術 著者:LitAhead Consulting 高井厚志

1. はじめに:AI時代の幕開けと光技術

AI(人工知能)が社会生活や企業活動に大きな変革を起こしつつある。2023年1月末にOpenAIのChatGPTの実ユーザーが開始2ヶ月で1億人に達したことが発表され世界に衝撃を与えた。2023年は情報社会の転換の年とされ,新しい時代が始まったとの興奮が世界中を駆け巡った。その後の巨大AI/MLデータセンターへの投資競争を引き起こし,新しい情報を目にしない日はない。

この巨大AIシステム実現のために光技術が必須であり,その中心となるのが光電集積化技術(光電融合技術)である。OEICに始まる50年もの長い歴史の光電集積技術が光インターコネクトとして巨大AIデータセンターで結実されようとしている。

本稿では,主にAI/MLデータセンターにおけるネットワークとそれを実現する光技術に関して述べる。

2. 大規模AI/ML データセンター

人間がAIを活用する現実空間(社会)がある。スマートフォンやパソコンでの家庭や業務での利用だけではなく,顔認証や防犯監視が実用化され,さらには自動運転や遠隔ヘルスケアなどの研究開発・実証実験が実施され,Society5.0のスマートシティ実現に向けて進んでいる。企業活動でも開発やIndustrie4.0を実現するスマートファクトリーへ移行していくだろう。

このような“AI Everywhere”といわれる現実空間の実現に向け,新しいAIを中心としたインフラストラクチャが構築されつつある(図1)。

図1 AI 時代のインフラストラクチャ

AI時代の現実空間を支える要素のひとつがネットワークである。IoTといったデバイス接続技術や5G/6Gといった移動無線技術に加え,光ネットワークが重要であるが本稿では触れない。

多数のユーザーやデバイスをサポートし,その情報データをローカルに処理するエッジデータセンターが伝送遅延時間を考慮して分散的に構築される。情報セキュリティ向上にも寄与するといわれている。

さらに,自動運転のようなデジタルツイン(Digital Twin)システムでは広範囲に分散されたエッジデータセンターが集めた情報をつなぎ合わせるグローバルな上位のAIデータセンターが必要である。

ところで,AIの利用とはAI ModelにBig Dataで学習(ML:Machine LearningあるいはTraining)させ,得られたパラメータを使用して推論(Inference)させることである。この学習には膨大な計算力が必要であるが,単発的なプロセスである。学習では,自前ではなく,大規模なストレージと計算能力を有する計算サービスを利用するほうが経済的である。

この最上位の巨大AI/MLデータセンターの構築が進められている。本稿ではこの大規模並列コンピュートデータセンターにおける光技術に焦点を合わせる。

このデータセンターでは数百万のリンクが必要であり,大きな市場規模となるが,新しい光技術・製品が期待されている。開発された技術・製品はエッジデータセンターや他のネットワークに適用されていくと考えられる。

3. 大規模AI/MLシステムの光技術

3.1 計算システムの大規模化

2020年にOpenAIからLarge Language Model(LLM)の学習(Training)の方向性を示す論文が発表された1)。AIの推論結果の誤り率を下げるには,⑴計算量,⑵学習データ量,⑶パラメータ数の増大が有効であることを実証した。

このことは,計算量増大を可能とする(Scalable)計算システムと膨大な学習データとパラメータを効率よく計算チップ(xPU)に供給する仕組みが必要であることを示唆している。

計算量増大動向に関しては,2022年の論文2)によれば2016年のAlphaGO(碁対戦AI)以降に学習計算量が大きいAIが増え11ヶ月に2倍の傾向で計算量が増大しているという。Large Scale Eraの始まりとしている。

図2は論文中の計算量年次動向にStanford大学の“AI Index Report 2025”3)から2021年以降で計算量1023FLOPs以上のデータを追加したものである。2021年以降増加傾向は8ヶ月に2倍の傾向となっている。

図2  学習計算量の増大動向(文献2の2022年までの図に文献3の2021年以降計算量1023 FLOPs以上のデータを追加した)

計算量はその時利用可能なxPUの性能と数量,メモリー量,経済性で決まると考えられる。この増大傾向はAI向けアクセラレータ(xPU)の性能改善の目安であるMooreの法則を超えている。そのギャップは文献2の場合で毎年1.5倍,文献3の場合で毎年2倍となる。

システムのxPU数増大はこのギャップを埋める有効な手段である。図3に主要なAIシステムのxPU数の動向を示した。その増加傾向は先に述べた毎年1.5倍と2倍の間にあることが分かる。さらに,この傾向が続けば2030年頃に1M個(百万個)のxPUのシステムの実現が期待される。

図3 xPU 数量とスーパーコンピュータノード数動向

図3には並列コンピュータの代表であるスーパーコンピュータのノード数も示した。100K個の天井が示唆され,大規模AI/MLシステムは数年先にはこれを越える。これに光技術が寄与することを期待している。

3.2 Composable Disaggregated System

大規模AI/MLシステムの実現には他にも多くの課題がある。光技術による寄与が期待されているのが,2つの課題解決に向けた大規模Composable Disaggregated Systemの実現である。

一つめはMemory Wallと言われる課題である4)。先に述べたようにAIではパラメータ数が多いほど精度が高まる。xPUにはこれを収納する高速メモリーHBM(High Bandwidth Memory)がパッケージ内に実装されている。このHBMの容量がパラメータ数の増加傾向に追いついていないという。

二つめは運用と経済(投資)的課題である。日進月歩でAIが開発されているが,AIが要求するxPU数量,メモリー量などの必要な計算リソースやxPUの接続方式もAI毎に異なる。AI毎にリソースと接続を割り当てる仕組みが合理的であり,Composable Disaggregated Systemが有望視されている。

Resource Disaggregationは新しくはないが,大規模なリソースをプールして,AI/ML毎に効率よく無駄なく配分し,接続して実行するには運用ソフトウェアだけではなく,高速・広帯域の接続が必要である。ここに光技術が期待される。

Composable Disaggregated System接続の標準化が行われている。2019年に立ち上げられたCXL(Computer Express Link)5)は既にメモリーやxPUとの接続のプロトコルを発表し,現在それに沿ったチップやモジュールの開発が進められている。

3.3 Scale-up とScale-out

大規模AI/MLシステムの光技術を考える上でScale-upとScale-outが重要である。

AI/MLではxPUはデータ・テンソル・パイプラインなどの並列計算を行う。このため,xPUを中断なく動作させる工夫が必要である。

Scale-upは低遅延で接続した蜜結合(Tight Connection)サブシステムのxPUの数量を増大することである。5m程度の狭い空間に多数のxPUが搭載されるため消費電力の制限もある。NVIDIAの最大72台が実用化されているが500台以上が計画されている。

Scale-up接続としてNVIDIAのNVLINKが実用化されているが,Open StandardとしてUALink6)の標準化が進められている。UALinkでは最大1024個(将来は4096個)のxPUが接続可能である。

また,このScale-up空間に学習データやパラメータを効率よく供給する仕組みとしてメモリープールを中心としたComposable Disaggregated Systemとなっていく。

Scale-outはこのScale-upサブシステムを多数接続し並列計算可能なxPUの大規模化を実現することである。xPUは空間や電力の制限などの理由で複数のビルに配置されることが想定されている。ビル内(Intra Data Center Network)と6km程度のビル間(Campus Network)のScale-out接続が必要である。

このNetwork方式としてNVIDIAのInfiniBandが実用化されているが,Open StandardとしてEthernetを拡張したUltra Ethernet7)の標準化が進められている。

3.4 4 つのネットワーク

これまで紹介した大規模AI/MLシステムでは4つのネットワークが想定される(図4)。

⑴ サーバー保存のBig Data(学習データ)やパラメータなどを供給するFrontend Network
⑵ 計算リソースの柔軟な配置を可能とし,データをxPUに効率よく供給するComposable Disaggregated Systemネットワーク
⑶ xPUを低遅延・高速・広帯域で接続し,蜜結合を可能とするxPU Scale-upネットワーク
⑷ Scale-upサブシステムを多数接続して大規模xPUからなるAI/MLシステムを実現するScale-out Backendネットワーク。

経済性や供給性から光モジュールは可能な限り統一したい。100m以上数km以下接続の⑴と⑷はEthernet向け光モジュールで統一できそうである。数m接続の⑵と⑶はシステムサイドからは同一光モジュールにしたいとの意見も学会などで表明されているが8),これからである。

図4 大規模AIML システムの4 つのネットワーク

4. 新しい光技術の展開

4.1 光インターコネクト

経済性や供給性から光モジュールは可能な限り統一したい。100m以上数km以下接続の⑴と⑷はEthernet向け光モジュールで統一できそうである。数m接続の⑵と⑶はシステムサイドからは同一光モジュールにしたいとの意見も学会などで表明されているが8),これからである。

一方,低遅延・高速・広帯域の光インターコネクトは新しい要求であり,新技術・製品が期待されている。この光モジュールはxPUのモジュラーボードやSwitchボードに搭載されるので小型軽量,さらに低消費電力が要求される。また,並列計算ではリンクの故障が全体に影響を与える。実行を停止し,リソースの立て直しを行って再開する。このため故障率に対する要求はEthernetモジュールよりハードルが高くなっている。

表1に学会などで議論されている,実現可能性を考慮した光インターコネクトの仕様をまとめた。

表1 光インターコネクトの要求仕様

4.2 多チャンネル光インターコネクト

並列計算ではTorusやDragon Flyなど様々なネットワーク形式があるが,AI/MLネットワークではNVLINKの例を見ても分かるようにCross-Bar Switchを用いたShuffle Networkを想定している。

最新のSwitch ICの交換容量が100Tbit/sであるが,1000台のxPUをShuffle Networkで接続するには1ポート(ファイバー)当たり100Gbit/sとなる。8Tbit/sの広帯域には80本のファイバーが必要となる。このように光インターコネクトでは中速多チャンネルあるいはFaster-Widerが特徴となる。

多チャンネル実現のためには光電集積化技術が重要であり,この研究開発が活発に行われている。Si-photonicsは有望な技術とみられており,40チャネル以上を目指している。ファイバーやレーザーの実装が課題である。

また,100Gbit/s程度の中速であることからアレイで実績のあるVCSELの使用も検討されている。短距離であり,マルチモードファイバーとの組み合わせで低消費電力,低コストを実現できるとしている。さらに長波長化で高速性や信頼性向上を狙っている。

新しい市場を目指して様々な研究開発が活発化している。特に多チャンネル実装技術に注目が集まっている。

5. まとめ

大規模AI/MLシステム実現に向け新しいネットワークとそれに沿った新しい光技術・製品が期待されている。特に,多チャンネル光インターコネクトが必要とされ,実装を含む光集積化技術が重要となっている。

参考文献

1)Kaplan, Jared et al “Scaling laws for neural language models.” arXiv preprint arXiv:2001.08361 (2020)
2)J Sevilla et al “Compute trends across three eras of machine learning,” IJCNN, 2022
3)“The AI Index 2025 Annual Report,” Stanford University
4)A. Gholami, Z et al “AI and Memory Wall,” in IEEE Micro, vol. 44, no. 3, pp. 33-39, May-June 2024
5) CXL: https://computeexpresslink.org/
6) UALink: https://ualinkconsortium.org/
7) Ultra Ethernet: https://ultraethernet.org/
8)Ram Huggahalli “Challenges to deploying Optics in the AI Scale-up Domain,” M2B, OFC 2025

 

新着ニュース

人気記事

編集部おすすめ

 
  • オプトキャリア