GCL情報理工学特別講義Iの第9回(その2)：LINEの大規模AIモデルに向けて

2022年7月2日
2022年7月3日
メディアコンテンツ
LINE, Privacy Preserving Data Synthesis, Differential Privacy, Perspective API, CLOVA Note, 国立国会図書館, GPT, Transformer, eKYC
146view

メディアコンテンツ

1 はじめに
2 大規模AIモデルに向けて
3 まとめ

はじめに

前回は、GCL特別講座の第9回の講師をして頂いたLINE株式会社AI開発室室長兼コンピュータビジョンラボ長の井尻善久さんのプロファイルや、LINEの現状、LINEが取り組むAI研究の方向性などについてまとめた。今回は、その延長でのさまざまな技術革新の動向や、今後の大規模AIモデルに向けて取り組みについてまとめてみたい。

その１：LINEにおけるAI研究とビジネス化（前回の投稿）
その2： LINEの大規模AIモデルに向けて　（⇨ 今回の投稿）
その３：これからのAIと見えてくる可能性　（次回の投稿）

大規模AIモデルに向けて

AIカンパニーが提供する３つのサービス

LINEが考えるAIプロダクトの代表は次の３つだ。

・LINE AI Call：人間味溢れる自然な会話を目指す。
・LINE eKYC：スマートなお客様認証を目指す。
・CLOVA OCR：世界最高水準の文字認識を目指す。

（出典：YouTube）

LINE AiCall

講義では、会話のトーンを柔軟に制御可能な音声合成のデモをしてもらった。話している内容は同じでも、明るい調子で話すのと暗い調子で話すのでは聞いている印象は全く異なる。さらに性別の設定や、年代の設定なども可能だ。受け答えのコンテンツの自然さに加えて、会話の自然さが高まれば、コンタクトセンターの自動化はさらに進むのではないだろうか。コンタクトセンター対応のうち人で無くても良い部分をAIで対応することで、お客さまにを待たせることなく、エフォートレスな環境をご提供するだけでなく、センター運営のコストの多くを占める有人対応コストを削減することができれば事業的にも意義が大きい。LINEの「りんな」との受け答えを時々楽しんでいる。会話は微妙に噛み合っているような、噛み合っていないような感じだけど、何しろレスポンスが速いのが素晴らしい。そのうちガールストークのお相手や、お年寄りの会話のお相手はAIが行うのが普通の時代になるような気がした。

（出典：YouTube）

LINE eKYC

KYCはKnow Your Customerの略で顧客認証という意味だ。プライバシーを保護した安全なデジタル処理基盤の上に個人認証をAIで行うサービスとなる。これまでの顧客認証は、窓口での顔と運転免許証の顔を見比べて本人確認していた。最近は、マイナンバーカードでも一部認証が可能となりつつある。eKYCはそれをもっと進化させるイメージだ。リアルな世界だけではなく、バーチャルな世界でのIDも統合して、その活動履歴をトレース可能とすれば、不正利用を防いだり、より確実で簡単な本人確認が可能となるかもしれない。利用者がデジタルサービスを使う上でのアンカーサービスとなれば、金融サービス、旅行サービス、商品の販売サービスなどを安全に提供することが可能となると期待される。個人の個性や好みまでを含めたデジタル化だ。銀行の口座開設やクレジットカードの発行時に必要な本人確認を、店舗への来店や郵送をすることなくオンラインで完結し、今まで郵送などで時間がかかっていた手続きが、スマホやWEB上で完結するため、スピーディに本人確認を行うことが可能となれば、これは便利だと思う。

（出典：LINE AI Day）

CLOVA OCR

LINEのCLOVAというと、音声認識によりデバイスの操作を可能にするAIアシスタントを連想する。2017年3月に発表され、ニュースや、天気、占い情報、カレンダーなどのサービスを会話で楽しむことができる。CLOVAは音声の認識や合成だが、CLOVA OCRは文字認識を行うサービスだ。活字や手書きテキストの画像、写真で取り込まれた文書、風景写真、画像内の字幕をOCR(Optical character recognition)機能で認識するものだ。応用範囲は広く、パスポートの読み取りから、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物の読み取りまで多彩だ。初期のシステムは特定の書体を読むトレーニングが必要であったが、現在は、ほとんどの書体を高い識字率で認識できるという。CLOVA OCRの日本語認は、2019年3月19日時点で世界No.1の認識精度を誇っている。CLOVA OCR Readerは契約完了から最短2営業日で利用開始可能という。API連携もできるのでシステムへの組み込みなどの応用範囲も広い。

（出典：LINE CLOVA）

2.2 大規模AIモデルの技術革新

技術革新その１：TRANSFORMER(2017)構造の単純化

Transformer モデルは、文章に含まれる単語と単語の関係を追跡し、文脈ひいては意味を学習するニューラルネットワークでだ。Transformerモデルは、進化する一連の数学的手法を適用して、同じ系内にある隔たったデータ要素間の微妙な相互影響や相互依存関係を見つける仕組みだ。Transformer[Vaswani+,arXiv2017[によると単純にAttention+FFNを重ねるだけで精度が上がるという。Transformerは、これまでのAIモデルの中でも強力なモデルの一つだ。

（出典：NVIDIA）

技術革新その２：教師なし事前学習(Bert(2018),GPT(2018))

従来はタスクと後に入力と正解を与える必要があった。2018年10月に発表されたGoogleのJacob Devlinらの論文で提唱された自然言語処理モデルBRET(Bidirectional Encoder Representations from Transformers) は、日本語で言えば、「Transformerによる双方向のエンコード表現」か。翻訳、文書分類、質問応答など自然言語処理の仕事の分野などのタスクをここに処理するのではなく、事前学習(Pre-trained one big model)とチューニング（Fine tuning)で実現した。BERTの教師なし事前学習のイメージは、与えられた文章から穴埋め問題や接続問題を自動で作り出し、その知見に基づいて学習するものだ。１教えたら１０を学ぶような優秀な学生のようなロジックと言える。
（出典：NVIDIA）

技術革新その３：大規模言語言語モデルにおける汎用事前学習の開発競争

LINEが進める大規模汎用モデル型対話システムは、HyperCLOVAと呼ばれる。大規模汎用言語モデルや出力を確認するためのユーザーインターフェイスなどを含んだシステムの総称だ。HyperCLOVAは、LINEが韓国の親会社であるNAVERと共同で運用している。下の図にあるように英語ベースのアルゴリズムが先行しているが、日本語及び韓国語ではHyperCLOVAが頑張っている。82Bと言えば820億個のパラメータをもつ機械学習(LM)だ。データサイズは1.8TBであり、新聞の情報に換算すると2700年分のデータで学習したという。これはすごい。
(出典：講義資料より）

さまざまな取り組み

会話を目で見るAI音声認識アプリ「CLOVA Note」

会社で会議を主催したときには議事録を作成する。新入社員の頃は1時間の打ち合わせの議事録を作成するのに数日かかったこともあるけど、最近では事前にアジェンダを取り交わしておいて、それに沿って会議を行うと会議が終わる頃には議事録ができている。そんな文字起こしを自動化するのがCLOVA Noteだ。実際にスマホにアプリをインストールして使ってみると、これはすごい。ほぼ正確に聞き取っていて、文字に変換している。会話の内容や講義の内容、会議の内容を録音するときには関係者の同意を得た上でマナーを守る必要があるけど、これは便利だ。というか、凄すぎる！

（出典：CLOVA Note）

対話システムライブコンペティションで優勝

各社が競って開発する対話システムをさらに切磋琢磨するためのコンペティションとして「対話システムシンポジウム」が開催されている。従来は対話システムシンポジウムの中で開催されていたが、2017年からは独立した国際イベントとなっている。コンペティションはオープントラックとシチュエーショントラックの2部門がある。オープントラックは任意の話題についてオープンドメインでユーザと雑談を行う能力を競う。一方、シチュエーショントラックでは、所定のシチュエーションの中で状況にあった人らしい対話を行う能力を競う。2021年11月に開催された第４回大会では、両トラックでLINE株式会社のLP(HyperCLOVA)が最優秀賞を受賞している(下の図参照)。これは素晴らしい快挙だ。なお、今年度は2022年9月16日にエントリ〆切があり、10月3日に予選開始、10月17日に結果通知、10月下旬に発表申し込み、そして2022年11月下旬にライブイベントが開催される。連覇なるかどうかが期待される。
（出典：LIVE Competition)

国立国会図書館の文献デジタルアーカイブ化

LINE Clova OCRの技術を活用して国立国会図書館のアナログな図書をデジタルの情報として読み込むプロジェクトにLINEが入札した。LINE株式会社 AIカンパニーでは、国立国会図書館が保有する247万点、2億2300万枚を超えるデジタル化に取り組み、2022年3月に完成した。図書の読み込みでは、横書きもあれば、縦書きもある。図書のタイトルなどもある。様々な字体が活用されている。古書では古い自体も使われている。様々な困難を克服して、2022年3月には、247万点のデジタル化資料が完成しているという。

（出典：LINE）

言語モデル自身がテキストの有害性を評価

「可愛い」という意味で子供がLINEに投稿した「可愛くない」を、文字通りに受け取っていじめのトラブルに進展するというリアルな話をケータイ教室ではよく使った。AIが創造する投稿でも非人道的な発言や、現在の世の中のモラルから見て不適切な発言をしてしまうとそのAIはダメだというレッテルを貼られたオワコンとなるリスクがある。そのため、AIが考えたメッセージをそのまま投稿するのではなく、一度その内容をチェックして問題ない可動かを吟味した上で投稿するというダブルチェックに仕組みを導入しているという。実際には、下の図にあるように、考えたテキストのスコアを計算して以下の手順で評価される。① 提出ファイルの所定のテキスト同士がペア化され、スコアの大小関係に基づきless_toxicとmore_toxicの列に振り分ける。②あらかじめ人間により作成された正解データと比較され一致度を計算する。言語モデルの急速な発展に伴い、有害文検知の技術が進化している。Perspective API（有害文を検知するAPI）を提供するJigsawは有害文検知コンペティションを2018年から毎年開催している。LINEのTrustworthy AIチームも日本語での有害文検知モデルの構築を最重要課題となると考えて、挑戦してきた。2021年11月からKaggleで開催された「Jigsaw Rate Severity of Toxic Comments」にTrustworthy AIチームが参加し、2,301チーム中147位で銅メダルを獲得したという。素晴らしい。

（出典：LINE Engineering)

Differential Privacy(DP)

DPとは、ハッシングやサンプリング、ノイズ加算などのランダム化を通して、ユーザをプライバシー保護しながら、統計や機械学習などを実現する技術だ。すでにappleやGoogleはDPを利用してユーザのプライバシーに配慮した形で、データや統計値を収集している。なお、DPは2020年の米国の国勢調査に採用されているようだ。DPを詳しく説明している動画があったの下に引用しておく。まだまだ各社・各国での研究が同時進行的に進んでおり、将来の可能性の大きな技術だと言える。

（出典：YouTube）

Privacy Preserving Data Synthesis

下の図(左)は、プライバシーを守りながらデータマイニングするだけではなく、暗号したままデータ解析を行うという「Encryption Based AI Service」だ。一方、下の図(右)は、データを一箇所に集めることなく、異なるサーバーで独自に処理を行って、その学習結果だけを持ち寄って大きな成果をあげる仕組みだ。そして、この２つの技術は次のダークデータの活用に必須な技術となっている。

（出典：Logmi）

まとめ

LINEのAIカンパニーが考える未来のサービスは沢山あるけど、そのコアは人間味溢れる自然な会話が可能なLINE AI Call、スマートなお客様認証が可能なLINE eKYC、そして世界最高水準の文字認識が可能なCLOVA OCRの３つだ。しかし、それに派生するサービスは本当に様々だ。問題発言をして炎上しないように発言を考えるスキームとそれをチェックするスキームはとても人間的だ。現代の人間は、右脳と左脳が機能分化していて、この２つの脳が考えることは同一ではないと。心の葛藤や悩み、意志などは脳が機能分化したためではないかと個人的には考えている。高度な知能を持つイルカも右脳と左脳で機能分化されていない。マグロなどと同じで24時間活動できるように左右の脳で処理分散している。一体、人間の左右の脳はいつから機能分化したのだろう。そして、コンピュータの世界でも２つのAIが答えを議論し始めると、AIの世界ももう一段高いレベルに昇華する可能性があるのではないかと感じる。そんな意図から講義の最後に質問した。

以上

最後まで読んで頂きありがとうございました。

参考：コンテンツの続き

その３：これからのAIとそれにより見えてくる可能性
大規模言語モデルにおける汎用事前学習の開発競争
対話システムのライブコンペティション
＿解説から俳句を生成するプロンプティング
＿商品解説文からキャッチコピーを生成するプロンプティング
＿メモ文から営業日報を自動生成するプロンプティング
＿考え方を教えることで推論精度を高めるプロンプティング
目的志向特化型AIの先に見える汎用AI
＿MiLAI:Mixed LINE AI
＿マルチモーダル(2021年2月)
＿Flamingo(2022年4月)
＿Imagen(2022年5月)
＿Gata(2022年5月)
＿Parti(Pathways AutoRegressive Text-to-Image model:2022年6月)
スケーリング効果
強いAIと弱いAI
汎用人工知能
AGI survey 2020