「データアナリティクスで社会課題を解決する研究」を発表する場の提供
「データがあふれる世界をインテリジェンスに満たされる世界に変える」というSASのビジョンを実現していくにあたり、大学をはじめとする高等教育機関、および研究機関の果たす役割は大きい。特に研究の領域において、現在SASでは「社会実装を視野に入れたプラクティカルな側面を重視した研究支援に注力している」と竹村氏は言う。
「日本のアカデミアでは、どちらかといえば基礎研究に重きが置かれており、データサイエンスのような学問領域を、そのほかの分野にどう応用すべきかといった研究や実践は、まだまだ少ない。米国ではそうした分野が日本以上に進んでおり、SAS Japanとしても、その領域を開拓する研究に対して、積極的にサポートを行っている」(竹村氏)
今回のSAS FORUMでは、大学とSASによる共同研究の成果を発表するセッションが設けられた。いずれも、専門的な課題に対して、データアナリティクスによるアプローチを社会課題の解決へとつなげようとするものだ。
「オープンデータを用いた少子化問題の要因分析」(同志社大学大学院文化情報学研究科)
同志社大学の研究は、日本を含む先進諸国で喫緊の社会問題となっている「少子化」に対して、データサイエンス的なアプローチで、背景にある要因を明確化しようとする試みだ。少子化問題に対しては、政府もこれまで、さまざまな数値目標の設定や、法律の新設・改定などを行っている。しかし、それらの施策が「どれだけ客観的な原因分析や費用対効果分析に基づいて立案されたのかが不明瞭」な点が問題だと研究グループは指摘する。単なるデータの基礎的な集計からは見えてこない「出生力」に影響を与えている社会的要因を、統計分析によって明らかにし、より効果的な施策の立案に生かすことが研究の目的という。
研究では、政府のオープンデータから複数のデータを抽出。それらを元に、都道府県を合計特殊出産率(1人の女性が生涯に生む子どもの人数)が「高」「中」「低」の特長を持つ3つのクラスターに分類し、各クラスターがどのような変数(食料物価や住宅物価、光熱費といった社会要因)に強く影響を受けているかを統計的に推定した。
分析においては、クラスター分析と回帰分析の同時推定を行う「Sparse clusterwise regression」や、複数の変数間の関係性を推定する「ベイジアンネットワーク」といったさまざまな統計分析手法が用いられているが、その際「SAS Viya(サス・バイヤ)」によるデータ処理やビジュアライズが、結果の検討や考察を容易にしたという。
「ディープラーニングを用いた乳房超音波画像のコンピュータ支援診断システムに関する研究」(日本たばこ産業)
この研究は、発表者である田中大樹氏が東北大学大学院医学系研究科に在籍していた当時より、SASのバックアップを受けて取り組んできたものだという(参考:プレスリリース)。乳がんの診断においては「マンモグラフィー」が広く用いられているが、乳房組織が密な女性の場合は精度が不十分なため、エコー(超音波)検査を併用した診断が行われている。しかし、エコー画像の読影(画像を人の目で見て診断すること)は、読影者のスキルや主観に結果が左右されやすく、偽陽性率(良性腫瘤を悪性と診断する割合)も高い傾向があり、追加検査による、患者の精神的・肉体的負担が増しがちなことが課題になっているという。
研究では、画像を高い精度で識別できるディープラーニング手法である「CNN」(Convolutional Neural Network)を用いて、エコー画像から、人間が気付きにくい腫瘤の特徴を発見できる精度の高い診断支援システムを作成することが目的となる。研究の過程では「SAS Viya」を利用し、あらかじめ用意されている画像識別の学習済みモデルなども活用しながら、モデルの構築と精度の検討を繰り返したという。
結果的に、感度(悪性腫瘤を正しく悪性と識別する割合)が90.9%、特異度(良性腫瘤を正しく良性と識別する割合)が87.0%、AI(機械学習)の評価指標として用いられるAUC(Area Under the Curve)が0.951という、高精度の識別モデルを実現した。臨床現場への導入にあたっては、まだ解決すべき課題が残されているものの、AIによる高精度の診断支援システムにより、医師や患者の負担軽減、医療費削減につながることが期待されているという。
これらの研究を進めるにあたり、SASではツールの提供および技術的な側面からの支援を行っている。その目的について、竹村氏は「データサイエンス、アナリティクスについての最新のテクノロジーと知見を、各専門分野の課題に適用することで、SASが活用される領域を広げると同時に、専門領域とアナリティクスの双方に明るいエキスパートを育成することを目指している」とする。
さまざまな発表の場を通してデータを活用した研究を支援
自らの研究領域に、データアナリティクスを活用している研究者や学生に対し、その発表の場を提供するのも、SASによる「支援」の一部だ。SAS Japanでは、今回の「SAS FORUM JAPAN」や、国内のSASユーザーが集う「SASユーザー総会」、全世界のSASユーザーが集う年次イベント「SAS Global Forum」(2020年以降はオンラインのみで開催)などを通じて、その機会を提供している。
今回のSAS FORUMでは、「SAS Student Ambassador Award」を受賞した、大阪大学大学院医学系研究科博士後期課程の筒井杏奈氏が、受賞の経緯と研究内容を紹介した。「SAS Student Ambassador Award」は、SASが「自身の研究領域でSAS技術を革新的な方法で活用している学生を表彰するプログラム」である。SAS Student Ambassador Awardの受賞者には、賞状とトロフィーのほか、「SAS Global Forum」への招待、SASの出版する書籍やトレーニングの無償提供といった特典が与えられる。
プログラムに申請するにあたっては、研究抄録や論文の提出、SASから課題として出される英語小論文の作成など、いくつかのステップを経て準備を進め、審査を受ける必要がある。筒井氏は、2019年の「SASユーザー総会」での論文発表をきっかけに、同プログラムへの応募を勧められ、申請を行ったそうだ。2020年の受賞者数は14人。プログラムは2006年にスタートしているが、日本からの受賞は筒井氏が初めてという。
筒井氏の研究内容は「SASによる経路探索Webサービスを用いた医療アクセシビリティ評価」と題するもの。これは、全国にある15の小児がん拠点病院に対する、患者の「アクセスしやすさ」を、シミュレーションベースで調査するというものだ。シミュレーションにあたってはSASを利用し、Web API経由でGoogleマップの地理データと経路探索結果を自動的に収集した。手作業による大量のデータ入力を行わずに、移動にかかる時間を算出している。この手法を用いることで、データの収集から処理までのプロセスを効率化できたという。こうしたシミュレーションは、小児がんだけでなく、さまざまな特定の疾患を持つ患者や地域住民の通院・移動実態の把握、移動負担を軽減するための方策を検討する際に応用できるとしている。
筒井氏は、日本のSASユーザーのプレゼンス向上のためにも、より多くの人にSAS Global Forumへの参加、SAS Student Ambassador Awardへの応募を検討してほしいと述べた。
データを通じた社会貢献を目指す「Data for Good」への取り組み
近年、企業においては、商業的利益を目指す事業と社会貢献的な事業活動の双方にデータアナリティクスを活用する動きがあり、こうした取り組みは「Data for Good」と呼ばれている。SASはグローバルで「Data for Good」に取り組んでおり、SAS Japanでも近年、その取り組みを加速している。
SASによるData for Goodへの取り組み事例としては「人類の食糧供給に影響を与えるミツバチの個体数の保全・保護プロジェクト」「アマゾンの熱帯雨林保護プロジェクト」「動物の足跡のデジタル画像解析を通じた、絶滅危惧種の識別・監視プロジェクト」などがある。前述の、東北大学との共同研究による、ディープラーニングを用いたエコー画像の診断支援システムもそのひとつだ。
「ビジネス課題へのデータアナリティクスの適用は、既に多く行われている。一方で、医療、健康、教育、人権、福祉、環境といった、より社会的な課題に取り組む研究は、企業単独では難しい側面もある。“Data for Good”を拡大していくにあたっては、特にアカデミアとの連携が重要だ」(竹村氏)
SAS Japanでは、Data for Goodへの取り組みの一環として、2018年末に「Student Data for Good Community」を発足した。このコミュニティでは、データアナリティクスを活用した社会課題の解決に関心のある学生に対し、勉強会の場やツールを提供している。
「理系、文系を問わず、幅広い領域の学生に、アナリティクスのアプリケーションをどう使えばいいのか、それをどう社会に実装し、意思決定に活用できるかを事例や実践を通して学んでほしい。そして、もしアカデミアを離れた場合でも、その知識を生かしてほしい」(竹村氏)
Student Data for Good Communityでは、参加者がそれぞれにSDGsの中から関心のあるテーマを選定して個人研究を行っている。今回のSAS FORUMでは、コミュニティのメンバーである学習院大学大学院文学研究科の齋藤友花氏が「日本における相対的貧困率の高さと、教育格差との関連」についての研究を紹介した。
2020年は、新型コロナウイルスの影響もあり、対面での勉強会や企業との共同研究プロジェクトなどが思うように実施できなかったというが、今後は「このコミュニティを通じたコンペティションや、研究発表の機会も数多く作っていきたい」(竹村氏)という。