banner

ブログ

Dec 03, 2023

医療における AI イノベーションを推進するための堅牢なベンチマークを開発する

Nature Machine Intelligence volume 4、916–921 ページ (2022) この記事を引用する

5730 アクセス

2 引用

21 オルトメトリック

メトリクスの詳細

機械学習テクノロジーは、ヘルスケア分野への応用が増加しています。 主な推進力は、オープンに利用可能な医療データセットと、このより保守的な分野での知識発見と技術進歩のためにその力を利用したいというコミュニティからの一般的な関心です。 ただし、この追加分には、得られた結果に意味があるのか​​、結論は正確なのか、さまざまな疑問や懸念が生じます。 最先端の技術が向上したことをどうやって知ることができるのでしょうか。 臨床上の問題は明確に定義されており、モデルはそれに対処していますか? この分野で最も問題が発生すると思われるエンドツーエンドのパイプラインの主要な側面を振り返り、これらの問題の再現を回避するためのいくつかの優れたプラクティスを提案します。

私たちの対象読者は、医療分野の機械学習 (ML) に関するベンチマーク実験を実行し、その結果をカンファレンスやジャーナルに投稿する人です。 これらの会場をレビューしている人も。 臨床ベンチマークとは、組み合わせたプロセスに従うことを指します。

医療分野の問題を選択する。

付随するデータセットの使用または作成。

一連の ML モデルとそれに対応するインフラストラクチャを開発します。

これらのモデルが元の問題をどの程度解決するかについての一連の基準に基づいて評価します。

適切なベンチマークを見つけるという問題は、ヘルスケア分野でより一般的です。これは、ベンチマークが実際に何を構成するのかについて十分な調整が行われていないためです1。 一般的な研究サイクルでは、ML が新しい医療分野に初めて適用されると、モデルのパフォーマンスを測定し、その問題に対する基準を設定する出版物が作成されます。 新しいテクノロジーが実際にどのようなことができるのかを見ることに多くの関心が寄せられているため、データセット、グラウンド トゥルース、メトリクス、またはコードは、従来の ML ほど常に精査されているわけではありません。 定義、設定、評価のばらつきが結果の多くの誤った表示につながる可能性があるだけでなく、この分野の初心者が研究結果を比較する方法について混乱を招く可能性があるため、ベンチマーク論文はさらに精査されるべきであると私たちは主張します。

次の 4 つのセクションでは、2 つの異なるベンチマーク出版物間の相違点のほとんどが存在すると思われる領域 (データセット、ツールと実践、問題の定式化と結果) について説明します。 私たちの見解では、進歩を定量化するのがはるかに簡単になるため、そのような変更は臨床応用全体に影響を与える可能性があります。 参考文献からインスピレーションを受けました。 2 では、提案を必要、推奨、奨励の 3 つのカテゴリに分類します (ボックス 1 ~ 4)。 各セクションは前のセクションに基づいて構築されており、その影響と実装の難しさの組み合わせを考慮して、特定のバケット内に配置されます。 この分類に全面的に同意できない人もいるかもしれませんが、私たちは、この分野に変化が見られるこれらのトピックを中心に会話を始めることを期待しています。

この分野では、レポート標準 (STARD-AI3、TRIPOD-AI4 など) を定義したり、モデル開発や技術レポートに関するベスト プラクティスを指定したりする既存の作業が行われています5。 これらの方向性は両方とも、採用された手法に関して不確実性を減らすために、最終的な作業に追加の詳細を含めることを奨励します。 私たちは、エンドツーエンドのパイプラインを検討し、ツールやインフラストラクチャなどのあまり調査されていないトピックに取り組むことで、私たちの取り組みがこれらの取り組みを基礎にして拡張されると信じています。

医療研究の ML ではデータ共有が標準ではないため、大規模で高品質、多様性があり、十分に文書化された健康データセットを入手するのは困難です6。 まず、健康データセットには非常に機密性の高い情報が含まれているため、厳しく規制されており、最近の研究では、健康データの共有に対する患者の態度を理解することが検討されています7,8。 このため、これらのデータセットは一般に公開前に匿名化され、そのプロセスでは患者の名前、識別番号、データ収集の日付、場所が削除されます。 それでも、最近、匿名化された磁気共鳴画像法 (MRI) またはコンピューター断層撮影データを使用して患者の顔を再構成できることが示され9、現在の匿名化基準が安全な公開データ公開に十分であるかどうかについて疑問が生じています。 第二に、そのようなデータセットの収集、保守、キュレーションには多大な労力、時間、費用が必要です。 さらに、データセットは競争上の商業的利点とみなされており、データセットの独占的使用を中心に企業が設立されるケースもあります。 したがって、それらは大きなビジネス価値を持つ傾向があり、そのためデータ収集者にとって自分の成果を自由に共有する魅力が低くなります。 ただし、非公開データセットに関する研究を公開する影響を拡大し、再現性を促進するために、データ キュレーターは、フェデレーテッド ラーニングなどのプライバシーを保護する ML 技術を使用してコミュニティがモデルを開発できるインフラストラクチャをセットアップすることができます 10、11、12。 この設定では、データ コントローラーは、トレーニング フェーズと検証フェーズの両方で、独自のガバナンス プロセス、関連するプライバシー ポリシー、およびアクセス管理戦略を定義します。 これにより、データのプライバシーを維持しながら、外部の研究者による健康データセットの探索が可能になり、進歩が加速します。 ただし、この設定には急な学習曲線が必要であり、これらの方法が比較的新しいことを考えると、このようなシステムを信頼するのは難しいことを私たちは認めています。 したがって、最初は、データキュレーターが精査された外部のデータサイエンティストと協力することが望ましいかもしれません。 ビジネス価値の維持に有望なもう 1 つの分野は、データセットのメンバーがモデルのトレーニングに使用されるときのトレースです。 この例には、特定のデータセットに「透かしを入れる」ことでトレーニングされたモデルの識別を容易にする最近の研究 13 や、メンバーシップ推論などの技術が含まれます 14。 この分野はまだ確立されていないため、この方法に進む場合は注意が必要であることに注意してください。

公衆衛生データセットの可用性が低いため、コミュニティはアクセス可能な 1 つまたは 2 つのデータセットを中心に結集することが多く、その結果、少数のアプリケーションに過度に集中することになります。 たとえば、MIMIC-X シリーズなどの広く使用されている電子医療記録データセット 15、16、17 には主に集中治療室のデータが含まれており、これらのデータは頻繁に記録されますが、入院患者の母集団のほんの一部にすぎません。 さらに、MIMIC-X は単一のサイトから厳選されているため、公平で包括的な ML モデルが生成される可能性は低くなります。 そのため、これらのデータセットに基づいて開発されたモデルは、必ずしも他の病棟に一般化されたり、病院全体に応用できるとは限りません。 外部の研究者や開発者がデータの品質を評価し、論文で提案されている方法論をユースケースに拡張できるかどうかを判断するには、データの徹底的な特性評価が必要です。 これは、望ましくない人口統計上の偏り (たとえば、年齢、性別、社会経済的地位の偏った分布) を特定するのにも役立ちます。 このデータの特徴付けは、データセット (非公式に表 1 データと呼ばれます 18) 内のさまざまな特徴を細分化することで実現できます。 これを達成する方法については、ボックス 1 の「必要な」セクションでさらに提案を提供します。

もう1つの例は、2020年から2021年にかけて、さまざまな論文が新型コロナウイルス感染症モデリングのために胸部X線写真を含むデータセットでモデルをトレーニングし、小児患者の画像が対照群を表したことです。 ただし、そのようなモデルは単に子供と大人を検出しているだけであり、本質的に偏っているため、パフォーマンスが高すぎる可能性があります19。 新型コロナウイルス感染症のパンデミックの初期にこのデータセットが利用できただけで、コミュニティは研究課題に適切かどうかを慎重に検討せずに過剰インデックスを作成してしまいました。 このようなケースは、データセットに紙とともに透明性アーティファクト (Healthsheet20 など) が付属していれば回避できます。 たとえば、Healthsheet のアンケートには、収集プロセス、構成、配布、クリーニング、推奨される使用例など、データセットのさまざまな側面に関する具体的な質問が含まれています。 このようなアーティファクトは、データセットとデータキュレーターの透明性と説明責任を大幅に向上させ、モデル予測に悪影響を与える可能性のある技術的な不均衡 (不適切な取得プロトコル、機器メーカーなど) を表面化させます。 研究者は厳しい締め切りに向かって作業することが多いため、原稿とともに追加のアーティファクトを作成するには時間がかかることを私たちは認識しています。 作業負荷を管理するために、研究者は提出後にそのようなアーティファクトを共有することを選択する場合があります。

必要

データセットの出所、人口統計、および内容 (表 1 データなど) についての詳細な説明を提供します。

最終作業には、数値 (平均、分散、最小、最大、相関行列など) および/またはグラフィック (散布図、ヒストグラム、ヒートマップ、次元削減など) の探索的データ分析を適用して含めます。

欠落している特徴、不均衡なデータ、重複インスタンス、サンプリングの偏り、その他のデータセット固有の問題を説明することにより、データセットの品質がどのように検証されたかの詳細を含めます。

推奨

紙とともに標準化されたアンケート テンプレート (Healthsheet20 など) を使用して、透明性アーティファクトをリリースします。

推奨 (プライベート データセットのみ)

Openmined21 などの非営利団体によって開発された堅牢なインフラストラクチャを使用して、健康データセットをホストおよび管理します。

ML 研究のあまり知られておらず、あまり語られていない側面の 1 つはインフラストラクチャです。 私たちは「インフラストラクチャ」という用語を、システムの設計と、システムを形成する基盤となるコード (システムが実行される環境や使用されるソフトウェア ライブラリなど) を指すのに使用します。 地味だと思われがちですが、これは絶対に必要であり、結果の品質と再現性を左右する可能性があります。

優れたコーディングとシステム設計の実践の役割は、運用環境や展開環境での役割についてこれまでに検討されてきましたが、出版物に使用されるライブラリやパイプラインについての詳細な説明はまだ不足しています。 これは、医療分野では特に重要です。影響力のある発見はすぐに報道機関に取り上げられ、真実として広まったり、他の研究者が将来の調査の基礎として使用したりするためです。 誤りを含むヘルスケア分野の最近の機械学習論文の撤回データベースを調べてみると、著者らが「PDの診断とその管理に革命をもたらす可能性がある」と主張する「優れたパーキンソン病予測因子」など、厄介な例が見つかる。 後の検査で、データの誤り、方法の誤り、結果の誤り、分析の誤りが判明した。 これらはすべて、詳細な「使用されているインフラストラクチャ」セクションで危険信号が発生した場合、レビュー プロセスの早い段階で発見される可能性があります。 著者には、その実装とシステム設計についてさらに詳しく説明することをお勧めします。 モデリング パイプラインの詳細な図を追加したり、開発されたマッピング ツールなどのデータ処理モジュールの厳密な説明を含めたりすることは、私たちが期待するものの例のいくつかです。 これは軽量の提案であり、作成者にとってのオーバーヘッドはわずかであり、非常に簡単に採用できるはずです。

これをより広範に実施するために、カンファレンスに「この実装はどのように検証されましたか?」という項目を追加することを奨励したいと考えています。 提出用のセクション。 著者は、作品の正確性を保証するためにどのような措置を講じたかを説明する必要があります。 必要に応じて、コード レビューは作業の健全性をチェックする優れた方法であり、確実ではありませんが、手遅れになる前に問題を発見するのに役立ちます。 さらに、単体テストの追加とコード カバレッジのチェックを推奨したいと考えています。 予想される動作を検証するという直接的な利点とは別に、コードが実際にどのように使用されているかを確認することにより、コードの一部を理解するのがはるかに早くなり、テストはこれを垣間見ることができます。 私たちの推奨事項はコーディングに大きく依存していますが、特定の手法が既存の実装を再利用していることを認識しています。 元の作品とパフォーマンスが一致しているかどうかを確認するなど、テストの代替方法も対象になります。 このセクションを追加すると、レビュー担当者と作成者の両方にオーバーヘッドが生じますが、全体的な再現性の目標に貢献し、コミュニティ全体にグッドプラクティスを広めることにつながります。

それでも、報告された調査結果が公表された後にその正確性を調査するには時間とリソースがかかり、多くの場合、論文の設定全体を一から再構築する必要があります。 これを容易にするために、会議や雑誌にはコードの可用性に関するセクションが追加され始めており、研究者が自分の研究をオープンソース化することを奨励しています。 これは大きな前進であり、まだ広く採用されていないにもかかわらず、コード公開の重要性は研究コミュニティによって受け入れられています。 一例として、Machine Learning for Health (ML4H) カンファレンスでは、コードがリリースされる提出物の数に関する統計が収集されます。 2020 年に、そうするつもりだと報告したのは応募作品の 66% のみでした。 この数字は 2021 年には 73% に増加しました。

これに加えて、カンファレンスでは「実験環境」と呼ばれる追加のセクションを要求する必要があると考えていますが、これはページ数制限にカウントされるべきではありません。 これは「コードの利用可能性」チェックボックスのスーパーセットとなり、作成者は使用されているすべての公的に利用可能なライブラリとそのバージョンをリストする必要があります。 使用されるツールに精通していることが信頼性の大きな要素となるため、これは重要であると考えています。 特にプロジェクトが大きくなり、数百とは言わないまでも数十のライブラリが使用される可能性がある場合、これが最初は面倒な作業になる可能性があることは理解していますが、これがなければ真の再現性はありません。

何よりも、コードをオープンソース化することは、コミュニティが結果を確認するための最も透明な方法であり続けます。 これは、コードを実行するスクリプトと、可能性に応じて実際のデータまたは合成データと一緒にリリースされると強化されます。 合成データの場合、さらなる推奨事項についてはデータセットのセクションを参照してください。

必要

本文または付録のいずれかに実装セクションを追加します。

「この実装はどのように検証されましたか?」を追加します。 提出用のセクション。

推奨

最終的な作品に「実験環境」セクションを追加します。これはページ制限にはカウントされません。

勧められた

オープンソース コードへのリンクとそれを実行する方法を提供します。

医療文献の ML の大部分を構成する教師あり予測問題として提起された臨床問題に焦点を当てます。

ヘルスケアにおける教師あり学習の最も重要なステップは、どの臨床ラベルを予測するかを決定することです。 ラベル付けにおけるエラーや偏りは ML では一般的であり、標準以下のモデルにつながる可能性があります。 一般的なデータセットのテスト セットには、平均して少なくとも 3.3% のラベル エラーが含まれていると推定されています22。 これらのラベルを修正すると、低容量のモデルが一般的に報告されている最先端のモデルよりも優れたパフォーマンスを発揮できるようになります。

医療データセット内のインスタンスに適切なアノテーションが付けられるかどうかは、通常、医療専門家の専門知識に依存します。 通常、ラベルは臨床医によって完全に定義されるか、臨床ガイダンスを組み込んだルールベースの方法を使用して半自律的に生成されます。 前者の例としては、皮膚科画像診断による皮膚の分類 23、マンモグラフィーによる乳房病変の検出 24、光干渉断層撮影による紹介推奨 25、マルチパラメータ MRI によるリンパ節のセグメント化 26、EEG データを使用した発作検出 27 などが挙げられます。 専門家ガイドによるラベルには、通常、特定の条件を識別するためのルール セットの開発と、そのルール セットを使用したデータセット全体に注釈を付けることが含まれます。 例としては、急性腎障害 28、人工呼吸器 29、投薬指示 30、継続的腎代替療法 31 などの電子健康記録データによる有害事象や介入の予測が挙げられます。 どちらの場合も、ラベルは臨床医のワークフローを厳密に反映しており、ラベル付けの目的は、医療専門家が意思決定を行うプロセスを文書化することです。 したがって、Phenotype KnowledgeBase32 にあるような既存のラベルの使用または改善を強くお勧めします。

専門家が定義したラベルの場合、使用されるラベル付けプロセスの詳細な説明が文書に含まれることが不可欠です。 ラベルが専門家によって完全に定義されている場合でも、インスタンスの注釈については医療専門家の間でばらつきがある可能性があることに注意してください。 研究者は、症例にラベルを付けたのが 1 人の臨床医/専門家なのか専門家の委員会なのか、また後者が評価者間の合意を報告する場合は報告する必要があります。 完全さを証明するために、作成者は各インスタンスに注釈を付けるのにかかった平均時間を報告する必要があります。 研究者は人間レベルのパフォーマンスを共有することでベンチマークを提供することもできます。 これらの提案は網羅的なものではなく、研究者を導くために含まれていることに注意してください。 このレポートは、評価者間のラベル付けにおける主観性を捉え、ラベル付けプロセスの堅牢性と信頼性のアイデアを提供します。 また、このデータセットで定義された他のタスクのラベル付けに、後続の研究がどのようにアプローチすべきかについての基準も設定します。

ルールベースまたは専門家主導のラベルの場合、個々のインスタンスに異常が含まれたり、ラベルの漏洩が発生したりすることが多いため、ラベルを検証するには堅牢なプロセスが必要です。 各ラベルの分布に関する分析を実行することをお勧めします。これには、各ラベルクラスに対応するコホートの患者人口統計、被験者またはインスタンスごとのラベル数、分布統計 (平均、中央値、パーセンタイル、分散) が含まれます。 さらに、時間データ内の連続ラベルの場合、ラベル開始時間の分布とラベル持続時間の分布も報告する必要があります。 ラベル分布の異常を検出するには、これらを専門の臨床医と相互参照する必要があります。

また、研究者には、問題の定式化にラベル漏洩の可能性があるかどうかを調査することをお勧めします。 これは通常、誤った高いパフォーマンスにつながり、特定して解決するにはドメインの知識が必要です。 ラベルの漏洩は、検証セットまたはテスト セットのデータがトレーニング セットに漏洩した場合に、さまざまな理由で発生する可能性があります。 この問題は、同じインスタンスが複数の分割に存在するかどうか、およびインスタンスの重複があるかどうかをチェックし、論文に含めるための最終結果が計算されるまでブラインド テスト セットがロックされたままであることを確認することによって、比較的簡単に解決できます。 ラベルの漏洩は、特定の操作上の特徴または観察上の特徴によってラベルの状態が望ましくない形で明らかになった場合にも発生する可能性があります。 研究者は、疑わしい関係を検査するために特徴重要度分析を実行する必要があります33。 特定された場合、そのような特徴が実際に望ましくない真実の指標であるかどうかを確認するために臨床医と検討する必要があります。

理想的には、これを、手動による特徴検査、ラベル統計、ケースレビューで構成される多段階のラベル品質フレームワークに組み合わせることができます。 系統的なアプローチにより、研究者はプロセス全体を通じて一貫性を確保できます。 このアプローチは、時間はかかりますが、オープンソース化されている場合、コミュニティが同じデータセット上の他のタスク、さらには他のドメインのデータセットにも適用でき、長期的には作業負荷が軽減されます。

専門家が定義したラベル

必要

論文で使用されているラベル付けプロセスの詳細な説明を追加します。

専門家のガイドによるラベル

必要

本文に「ラベル分析」セクションを追加します。

データ内の「ラベル漏れ」を調査し、その結果を付録または補足情報に含めます。

推奨

手動による特徴検査、ラベル統計、ケースレビューから構成される多段階のラベル品質フレームワークを実装します。

多くの医療研究の最終目標は臨床実践を何らかの形で支援することであるため、モデルの結果を調査して比較することが勝敗を分けるステップとなります。 これを実現するには、そのモデルが現在の状態を悪化させたり、新たな問題を引き起こしたりすることによって、いかなる害も引き起こさないという確信が必要です。 さらに、提案された方法が臨床実践から遠ざかるほど、それが実際に機能するというより多くの証拠が必要になります。

医療における ML の公平性と堅牢性の評価に注目が集まっている分野が成長しており、モデル レポートにさらに公平性の指標を含めることを多くの研究が提唱しています。 これを行う 1 つの方法は、TensorFlow モデル分析などのモデル評価ツールを利用することです。 このようなツールには、分析に関して一貫性の層を追加することに加えて、公平性測定用の API (アプリケーション プログラミング インターフェイス) を提供するという追加の利点もあります。 これらの結果を使用して報告することで、完全なテストセットのパフォーマンスを超えて検討することが一般的になる可能性があります。 幅広いメトリクスを包括的にレポートすることで、モデルのさまざまな側面に疑問を持ち、理解できるようになります。 たとえば、クラスの不均衡を確認し、ラベル スキューに基づいてメトリクスを表示することは重要です(たとえば、受信機の動作特性の下の領域だけでなく、適合率 - 再現率曲線の下の領域をレポートするなど)。さらに、次のような臨床的に関連するメトリクスも含めます。感度と特異度34.

公平性と堅牢性に関しては、いくつかの重要な問題が表面化し続けています。(1) サブグループ間のパフォーマンスが異なる。 (2) トレーニング分布からのずれがあると、同様にパフォーマンスを発揮するモデルが予期せぬ方法で異なる動作をします。 最近の研究では、一部の公平性の問題に対して開発された一般的な緩和手法は、医療アプリケーションに関してはあまりうまく応用できないことがわかっています35。 リファレンスと一緒に。 36 では、モデル調査中に実行された多数のストレス テストが紹介されており、手遅れになる前にそのような問題を表面化するために、通常のベンチマーク ルーチンの一部として実行する必要があると主張しています。 MIMIC-III1 に関する一般的なベンチマーク研究では、公平性と一般化可能性に関して問題があることが最近判明しました 37。 したがって、コミュニティがさまざまな状況におけるモデルのパフォーマンスをよりよく理解することの重要性を強調し、ストレス テストを含めたいと考えています。 将来の改善では、トレーニング セットでの基本モデルのパフォーマンスをターゲットにするだけでなく、現実世界のコンテキストに直面したときにどのテクニックが最も回復力があるかを確認することもできます。

メトリクスやテーブルを確認するだけでなく、視覚化もモデルのパフォーマンスを調査するのに役立ちます。 いくつかの提案としては、アクティベーション アトラス 38、アテンション ヒートマップ 39、グランド ツアー 40、統合勾配 41、またはコンセプト アクティベーション ベクトル 42 などがあります。 これらは、モデルが何を学習しているのかを特定するのに役立ち、さまざまなコンテキストでこれらの手法をテストするのに役立ち、将来の研究の方向性に貴重なデータを提供します。 モデルの説明可能性と解釈可能性の分野では、結果が誤解される可能性があることを認めておきたいと思います 43,44 。また、研究者には、誤用を避けるためにさまざまな手法とその失敗モードをよく理解することをお勧めします。

最後に、研究論文を完成させる際には、常にやるべきことがまだ残っていることを私たちは認識しています。 多くの場合、著者が実行したかったが、さまざまな制約のために実行できなかった実験が残っています。 いくつかは制限事項のセクションにリストされていますが、通常、これらはすでに述べた実験の続きに対処します。 私たちは、著者に省略された正確な実験をさらに書き留めるよう依頼することで、その研究を拡張し、重要なテストの認識を広めることの両方に役立つと信じています。

必要

モデルの評価中に、公平性の測定、キャリブレーション スコア、ラベル依存のメトリクスを含めます。

ベースライン モデルとの比較を含め、モデルの複雑さに関してバイアスと分散のトレードオフを調整します。

推奨

障害分析を実行する - モデルが失敗するインスタンスを特定し、その共通点を調査します。 構造化故障分析には「医療アルゴリズム監査」フレームワークなどの手法を推奨します45。

勧められた

実行する必要があるが実行されなかった実験についての徹底的な説明を含めます。

結果として得られた調査にモデルの視覚化を追加します。

革新的な ML モデルが医療向けに開発されてきましたが、実際に応用できるものはほとんどありません 46,45。 ML ベースの臨床ツールに関する最近の調査では、開発段階で良好なパフォーマンスを達成している十分に検証されたモデルが、日常的なケアと比較した場合、患者にとって臨床上の利点を示さない可能性があることが示されています47。

いくつか例を挙げると、規制、インセンティブ、評価の欠如、一般化可能性への懸念などが導入の障壁となるため、研究者にとって医療分野での ML の導入は困難であることを私たちは認識しています。 さらに、前向き検証研究には時間と費用がかかり、大きな課題となる可能性があります。 このような状況では、さらに一歩を踏み出し 47,48 、何らかの形で検証研究を示した論文は積極的に区別されるべきです。

ML ツールの臨床的有効性を研究する論文は、研究のさまざまな側面を厳密に報告する必要があります。これには、研究設定、対象の基準、人間とアルゴリズムの相互作用とその下流効果、継続的な学習の方法、そして最も重要なことに、それらとの比較が含まれますが、これらに限定されません。既存の臨床実践。 レポートの品質を向上させるために、著者は、CONSORT-AI および SPIRIT-AI 運営グループによって発行されたチェックリストなどの検証済みのガイドラインに従うことをお勧めします45,49。

現在のベンチマーク論文は、ヘルスケアにおける臨床研究の上流のデータ サイエンス ベンチマークの作成に重点を置いていますが、応用ヘルスケア研究の将来では、この分野が理論から実践へと移行するにつれて、臨床展開の側面がより重視されるようになるだろうと私たちは強く信じています。そしてそれに関連する一連の課題がより深く調査されています50,51。

Hartyunyan, H.、Khachatrian, H.、Kale, DC、Ver Steeg, G. & Galstyan, A. 臨床時系列データによるマルチタスク学習とベンチマーク。 科学。 データ6、96(2019)。

記事 Google Scholar

ハイル、B.ら。 ライフサイエンスにおける機械学習の再現性の基準。 ナット。 方法 18、1132–1135 (2021)。

Viknesh, S. et al. AI 介入を評価する診断精度研究のための具体的な報告ガイドラインの開発: STARD-AI ステアリング グループ。 ナット。 医学。 26、807–808 (2020)。

コリンズ、GSら。 人工知能に基づく診断および予後予測モデル研究のためのレポートガイドライン (TRIPOD-AI) およびバイアスリスクツール (PROBAST-AI) の開発プロトコル。 BMJ オープン 11、e048008 (2021)。

Kakarmath, S. et al. 医療関連の人工知能論文の著者のためのベスト プラクティス。 npj 数字。 医学。 3、134(2020)。

Hulsen, T. 共有は思いやりであり、医療におけるデータ共有の取り組みです。 内部。 J.Environ. 解像度公衆衛生学 17、3046 (2020)。

記事 Google Scholar

アトキン、C.ら。 患者、介護者、医療スタッフの間では、匿名データの使用に対する認識とNHSデータのオプトアウトに対する意識が高まっています。 解像度関与。 エンゲージメント。 7、40 (2021)。

Chico, V.、Hunn, A.、Taylor, M. 公的利益と私的利益が混在する場合の匿名化された患者レベルのデータの共有に関する一般の見解 (メルボルン大学、2019 年)。

シュワルツ、CG et al. 顔認識ソフトウェアを使用した匿名の MRI 研究参加者の識別。 新しい英語。 J.Med. 381、1684–1686 (2019)。

Rieke, N. et al. フェデレーテッド ラーニングによるデジタル ヘルスの未来。 npj 数字。 医学。 3、119(2020)。

Kaissis、G. et al. エンドツーエンドのプライバシーを保護する多施設医療画像処理のディープラーニング。 ナット。 マッハ。 知性。 3、473–484 (2021)。

Ngong, I. 差分プライバシーによる医療データのプライバシーの維持。 OpenMined ブログ https://blog.openmined.org/maintaining-privacy-in-medical-data-with-fferential-privacy/ (2020)。

Sablayrolles, A.、Douze, M.、Schmid, C. & Jegou, H. 放射性データ: トレーニングによる追跡。 手順マッハ。 学習課題 119、8326–8335 (2020)。

Sablayrolles, A.、Douze, M.、Schmid, C.、Ollivier, Y. & Jegou, H. ホワイトボックスとブラックボックス: メンバーシップ推論のためのベイズ最適戦略。 手順マッハ。 学習課題 97、5558–5567 (2019)。

ジョンソン、A.ら。 MIMIC-IV (バージョン 1.0) PhysioNet https://doi.org/10.13026/s6n6-xd98 (2021)。

ジョンソン、AEWほか MIMIC-III、自由にアクセスできる救命救急データベース。 科学。 データ 3、160035 (2016)。

リー、J.ら。 集中治療研究用のオープンアクセス MIMIC-II データベース。 会議手順 IEEE Eng. 医学。 バイオル。 社会 2011、8315–8318 (2011)。

Hayes-Larson, E.、Kezios, K.、Mooney, S. & Lovasi, G. それにしても、この研究には誰が参加しているのでしょうか? 有用な表に関するガイドライン 1. J. Clin. エピデミオール。 114、125–132 (2019)。

ロバーツ、M.ら。 胸部 X 線写真や CT スキャンを使用して、機械学習を使用して 新型コロナウイルス感染症 (COVID-19) を検出および予測する場合の一般的な落とし穴と推奨事項。 ナット。 マッハ。 知性。 3、199–217 (2021)。

ロスタムザデ、N. 他 Healthsheet: 健康データセットの透明性アーティファクトの開発。 2022 年の公平性、説明責任、および透明性に関する ACM 会議 1943 ~ 1961 年 (Association for Computing Machinery、2022)。

スカリー、D. et al. 機械学習システムに隠れた技術的負債。 上級神経情報プロセス。 システム。 28、2503–2511 (2015)。

Northcutt, C.、Athalye, A. & Mueller, J. テスト セットにおける広範囲にわたるラベル エラーは、機械学習ベンチマークを不安定にします。 第 35 回神経情報処理システム会議 (NeurIPS 2021) データセットとベンチマーク 1 (2021) を追跡します。

エステバ、A.ら。 ディープ ニューラル ネットワークを使用した皮膚科医レベルの皮膚がんの分類。 ネイチャー 542、115–118 (2017)。

鯉井哲 ほかコンピューター支援によるマンモグラフィー病変検出のための大規模ディープラーニング。 医学。 アナル画像。 35、303–312 (2017)。

De Fauw、J. et al. 網膜疾患の診断と紹介のための臨床応用可能な深層学習。 ナット。 医学。 24、1342–1350 (2018)。

Zhao、X.ら。 直腸がんに対するマルチパラメトリック MRI での深層学習ベースの完全自動化されたリンパ節の検出とセグメンテーション: 多施設研究。 eBioMedicine 56、102780 (2020)。

ロイ、S.ら。 頭皮脳波データの迅速かつ正確な注釈付けにより神経内科医を支援するための人工知能システムの評価。 eBioMedicine 66、103275 (2021)。

トマシェフ、N. 他将来の急性腎障害を継続的に予測するための臨床的に適用可能なアプローチ。 ネイチャー 572、116–119 (2019)。

Wang, S. et al. MIMIC-Extract: MIMIC-III のデータ抽出、前処理、および表現パイプライン。 Proc. 健康、推論、学習に関する ACM カンファレンス 222–235 (Association for Computing Machinery、2020)。

ラフ、K.ら。 電子医療記録データから入院患者の薬剤オーダーを予測します。 クリン。 薬理学。 それで。 108、145–154 (2020)。

ロイ、S.ら。 連続サブネットワーク ルーティングを使用した、集中治療室における臓器機能不全のマルチタスク予測。 混雑する。 医学。 知らせる。 准教授 28、1936 ~ 1946 年 (2021)。

カービィ、JC 他 PheKB: 可搬性のための電子表現型アルゴリズムを作成するためのカタログとワークフロー。 混雑する。 医学。 知らせる。 准教授 23、1046–1052 (2016)。

Kaufman, S.、Rosset, S.、Perlich, C.、Stitelman, O. データ マイニングにおける漏洩: 定式化、検出、および回避。 ACMトランス。 知ってください。 ディスコブ。 データ 6、15 (2012)。

ヒックス、SA et al. 人工知能の医療応用の評価指標について。 科学。 議員12、12(2022)。

Schrouff, J. et al. 配布シフト全体にわたる公平性の維持: 現実世界のアプリケーションに実行可能なソリューションはありますか? arXiv https://arxiv.org/abs/2202.01034 (2022) でプレプリント。

ダムール、A. 他過小仕様は、最新の機械学習の信頼性に課題をもたらします。 Journal of Machine Learning Research 23、1–61 (2022)。

Röösli, E.、Bozkurt, S. & Hernandez-Boussard, T. ブラック ボックスを覗いてみると、MIMIC-III ベンチマーク モデルの公平性と一般化可能性がわかります。 科学。 データ9、24(2022)。

Carter, S.、Armstrong, Z.、Schubert, L.、Johnson, I.、Olah, C. アクティベーション アトラスを使用したニューラル ネットワークの探索。 蒸留 https://distill.pub/2019/activation-atlas/ (2019)。

Rocktäschel, T.、Grefenstette, E.、Hermann, KM、Kočiský, T. & Blunsom, P. 神経的注意による含意についての推論。 arXiv https://arxiv.org/abs/1509.06664 (2016) のプレプリント。

Li, M.、Zhao, Z. & Scheidegger, C. グランド ツアーによるニューラル ネットワークの視覚化。 蒸留 https://distill.pub/2020/grand-tour/ (2020)。

Sundararajan, M.、Taly, A.、Yan, Q. ディープ ネットワークの公理的帰属。 第 34 回機械学習国際会議の議事録、PMLR https://doi.org/10.48550/arXiv.1703.01365 (2017)。

Mincu, D. et al. 電子医療記録の概念ベースのモデルの説明。 Proc. 健康、推論、学習に関する会議 36–46 (コンピューティング機械協会、2021 年)。

アデバヨ、J. et al. 顕著性マップの健全性をチェックします。 第 32 回神経情報処理システム国際会議議事録(2018 年)。

アルン、N.ら。 医療画像における異常の位置を特定するための顕著性マップの信頼性を評価します。 ラジオル。 アーティフ。 知性。 3、e200267 (2021)。

Liu、X.ら。 人工知能の介入を評価する臨床試験の報告ガイドラインが必要です。 ナット。 医学。 25、1467–1468 (2019)。

ルー、C.ら。 臨床機械学習を導入しますか? 以下を考慮してください…。 arXiv https://arxiv.org/abs/2109.06919 (2021) でプレプリント。

Zhou, Q.、Chen, ZH、Cao, YH & Peng, S. 人工知能予測ツールを評価する介入を含むランダム化対照試験の臨床的影響と質: 体系的レビュー。 npj 数字。 医学。 4、12 (2021)。

Biswal, S. et al. SLEEPNET: 深層学習による自動睡眠ステージング システム。 arXiv https://arxiv.org/abs/1707.08262 (2017) のプレプリント。

Liu、X.ら。 人工知能を伴う介入に関する臨床試験報告の報告ガイドライン: CONSORT-AI 拡張。 ナット。 医学。 26、1364–1374 (2020)。

Ryffel、T. et al. プライバシーを保護する深層学習のための汎用フレームワーク。 arXiv https://arxiv.org/abs/1811.04017 (2018) のプレプリント。

Liu、X.、Glocker、B.、McCradden、MM、Ghassemi、M.、Denniston、AK、Oakden-Rayner、L. 医療アルゴリズム監査。 ランセットディジット。 健康 4、e384–e397 (2022)。

記事 Google Scholar

リファレンスをダウンロードする

この論文を査読する際に協力と意見を提供してくれた臨床医、L. Hartsell および M. Seneviratne に感謝します。 また、我々の同僚および共同研究者である N. トマセフ、K. ヘラー、J. シュロウフ、N. ロスタムザデ、C. ガート、L. プロレエフ、L. ハートセル、N. ブローストル、G. フローレス、および S. プフォールに感謝します。私たちの意見のレビューとベータテストにご協力ください。

Google Research、ロンドン、英国

ダイアナ・ミンク & スブラジット・ロイ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

Diana Mincu または Subhrajit Roy への通信。

著者は両方とも Google UK に雇用されています。

Nature Machine Intelligence は、この研究の査読に貢献してくれた匿名の査読者に感謝します。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

Springer Nature またはそのライセンサー (協会や他のパートナーなど) は、著者または他の権利所有者との出版契約に基づいて、この記事に対する独占的権利を保持します。 この記事の受理された原稿バージョンの著者によるセルフアーカイブには、かかる出版契約の条項および適用される法律のみが適用されます。

転載と許可

Mincu, D.、Roy, ​​S. ヘルスケアにおける AI イノベーションを推進するための堅牢なベンチマークを開発しています。 Nat Mach Intell 4、916–921 (2022)。 https://doi.org/10.1038/s42256-022-00559-4

引用をダウンロード

受信日: 2022 年 6 月 1 日

受理日: 2022 年 10 月 7 日

公開日: 2022 年 11 月 15 日

発行日:2022年11月

DOI: https://doi.org/10.1038/s42256-022-00559-4

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

共有