banner

ブログ

Nov 08, 2023

一貫性のない人間による注釈が AI 主導の臨床意思決定に及ぼす影響

npj デジタルメディスン 第 6 巻、記事番号: 26 (2023) この記事を引用

2596 アクセス

18 オルトメトリック

メトリクスの詳細

教師あり学習モデルの開発では、クラス ラベル (アノテーション) を提供するためにドメインの専門家がよく使用されます。 注釈の不一致は、経験豊富な臨床専門家でも同じ現象 (医療画像、診断、予後状態など) に注釈を付ける場合によく発生します。これは、専門家の固有の偏見、判断、失言などの要因が原因です。 それらの存在は比較的よく知られていますが、このような「ノイズの多い」ラベル付きデータに教師あり学習を適用する場合、現実世界の設定ではそのような不一致の影響はほとんど研究されていません。 これらの問題を明らかにするために、私たちは 3 つの現実世界の集中治療室 (ICU) データセットに対して広範な実験と分析を実施しました。 具体的には、個々のモデルは共通のデータセットから構築され、グラスゴー クイーン エリザベス大学病院 ICU コンサルタント 11 人によって独立して注釈が付けられ、モデルのパフォーマンス推定値は内部検証を通じて比較されました (Fleiss の κ = 0.383、つまり公正な一致)。 さらに、これら 11 個の分類器の広範な外部検証 (静的データセットと時系列データセットの両方) が HiRID 外部データセットで実行され、モデルの分類のペアごとの一致度が低いことが判明しました (平均コーエンの κ = 0.255、つまり最小限の一致)。 。 さらに、彼らは死亡率の予測 (フライスの κ = 0.267) よりも、退院の決定 (フライスの κ = 0.174) について意見が一致しない傾向があります。 これらの矛盾を考慮して、ゴールドスタンダードモデルを取得し、コンセンサスを決定する際の現在のベストプラクティスを評価するために、さらなる分析が行われました。 この結果は、次のことを示唆しています。(a) 急性期の臨床現場には常に「スーパーエキスパート」が存在するとは限らない(内部および外部の検証モデルのパフォーマンスを代用として使用)。 (b) 標準的な合意形成 (多数決など) を求めると、常に次善のモデルが生成されます。 しかし、さらなる分析により、アノテーションの学習可能性を評価し、コンセンサスを決定するために「学習可能な」アノテーション付きデータセットのみを使用することで、ほとんどの場合に最適なモデルが得られることが示唆されています。

古典的な教師あり機械学習では、クラス ノイズや不正確さの存在を無視して、トレーニング サンプルのラベルがすべて正しいと想定されます。 ヘルスケアでは、ノイズの程度、観察者の主観、バイアスが含まれるため、経験豊富な臨床医がこれらのラベルを提供した場合でも、この仮定が当てはまらない場合があります。 機械学習意思決定支援システム (ML-DSS) のトレーニングで注釈の不一致が無視されると、グラウンド トゥルースの任意の部分バージョンが生成され、その後、誤った分類などの予測できない臨床結果が生じる可能性があります 2、3、4。

理想的には、クラス ラベルは、知識ベース システム (KBS) を構築するために、これらのグラウンド トゥルース ク​​ラス ラベルの基礎となる適切な「ゴールドスタンダード」を選択することを含む、知識獲得プロセスを通じて取得されます。 ヘルスケアおよび生物医学の設定では、臨床分野の専門家がこれらのラベルを提供するためによく使用されます5。 しかし、多くの臨床分野では、医学に固有の病態生理学的、診断的、予後的不確実性のため、これらの真実を見つけて定義することは困難です2,6。

認知心理学は、人間(したがって専門家)は、たとえば認知の過負荷や偏見によって「失言」をしてしまうことを実験的に示しています。 一方、エキスパートシステムとKBSの分野では、(ほとんどの)分野において「滑りのない」高度なスキルを持つ専門家が存在すると想定されており、そのような専門家を客観的または主観的にどのように識別できるかが重要な課題となっている。 しかし、文献から得られる証拠の増加により、一般的な一連のタスク(分類など)に関して、専門家のグループが互いに大きく意見を異にすることがよくあることが示されています5、7、8。 2021 年に、カーネマンら 9 は、「ノイズ: 人間の判断の欠陥」と呼ばれるこのトピックへの主要な貢献を発表し、多くの分野の専門家仲間が実際に異なることを説得力を持って主張しています。 これらの著者9は、判断と意見を区別しており、前者では専門家が(固定された)選択肢のセットから回答を提供することが期待されているのに対し、意見ははるかに自由回答である。 この論文では、さまざまな専門家の判断が必要なタスクを扱います。

アノテーションの不一致の主な原因は 4 つあります 2、8、10、11、12、13、14、15、16、17。 (b) ドメインの専門知識が不十分である。 (c) 人的エラー (つまり、スリップや騒音)。 (d) ラベル付けタスクにおける主観性 (つまり、判断と偏見)。 この研究では、経験豊富な臨床アノテーターが使用され、アノテーションが必要な 60 のインスタンスでラベル付けタスクがよく理解されていましたが、調査された不一致の主な原因は、観察者のバイアス、判断、ノイズから生じる評価者間の変動であると考えられます。 このペーパー全体を通じて、「ノイズ」をシステム ノイズ、つまり理想的には同一であるべき判断における望ましくないばらつきとして定義します9。

Kahneman et al.9 は、医療専門家における個人間のノイズ (つまり、評価者間変動) は、ルーチンまたは主に機械的な診断 (つまり、セットのテストや定量的な診断からなる) に従う場合とは対照的に、臨床医が判断を下す必要がある場合に最も一般的であると指摘しています。ルール); カーネマンら。 一連の例を概説します。 ジェインら、18. らは、乳房の増殖性病変の診断において、病理学者間の合意は「公正な」合意のみであることを発見しました(フライスのκ = 0.34)。 Regier ら 19 は、高度な訓練を受けた専門精神科医が「大うつ病性障害」の診断に同意する確率は 4 ~ 15% のみであることを示しました (Fleiss の κ = 0.28)20。 Halford et al.21 は、ICU の連続 EEG 記録における周期的放電の特定について、EEG 専門家の間で最小限の一致を示しました (ペアごとの平均コーエンの κ = 0.38)。 Moor et al.22 は、世界中の ICU における主な死因である敗血症の定義に関する意見の相違という重大な問題について説明しています。 Zhang et al.23 は、救急科 (ED) の臨床医による入院患者チームへの紹介を調査し、入院患者の 39.4% で、患者は最初に ED から紹介された入院チームとは異なる入院チームに入院していることが判明した。 Xia と Yetisgen-Yildiz 24 は、胸部 X 線レポートから肺炎を特定する臨床アノテーター間での一致がほとんどないことを示し (コーエンのκ = 0.085)、「医学的訓練だけではアノテーター間の高い一致を達成するには十分ではない」と述べました。 騒音の存在は、ICU 環境を含むさまざまな医療領域に明らかに蔓延しています。

知識ベースを確立するためにそのような臨床医を使用すると、どの専門家が使用されるかに応じて、真実が「変化する」ことになります。 トレーニング データのラベル ノイズは、分類精度の低下、推論モデルの複雑さの増加 (決定木のサイズの増加など)、必要なトレーニング サンプルの数の増加、および機能選択の難しさ。 私たちの知る限り、この論文は、外部検証データセットを使用して、急性期臨床意思決定シナリオ (ICU 設定) におけるかなりの数 (11 人) の臨床医の間の偏見/不一致を調査した最初の研究の 1 つです。

ML 開発では、クラス ラベル ノイズに対処するために 2 つのアプローチがよく使用されます。 1 つ目は、トレーニング前にノイズのあるラベルを特定し、再ラベル付け/削除するデータ クレンジング手法の利用です。 2 つ目は、ラベル ノイズ耐性アルゴリズムを使用することです。学習中にラベル ノイズが考慮されます 10、12、29。 さらに、これらの方法を適用すると、アノテーターのクラス ラベル間の微妙で潜在的に重要な違いが失われる可能性があります。 (この後者の問題については、「今後の作業」セクションで説明します)。 明確な注釈ガイドラインの確立 24 や人間の専門家の注釈エラーのモデル化 30 など、臨床ラベルの品質を向上させる方法について議論している有益な文献がいくつかあります。 ただし、この文献のほとんどは画像分類タスクを考慮しており、医療注釈タスク内の記号ラベルの品質向上に関する実証研究が不足しています。

この研究の目的は、AI モデル開発における人間によるアノテーションの(不)一貫性と、ICU 設定における現実世界の臨床意思決定への影響を評価することです。 全体的なクラス ラベルの品質は、アノテーター間の意見の相違によって大きく影響されます。 この研究の焦点は、「グラウンドトゥルース」を形成するための判断の逸脱を解決するのではなく、ML モデルの開発における専門家の意見の相違(注釈を介して)の影響と効果的な利用を調査することにあります。 私たちは、臨床専門家アノテーター間の判断の違いがどのようにして分類モデルのパフォーマンスにばらつきをもたらすか(したがって、臨床有用性が異なる)、また AI 主導の臨床意思決定を促進するために、そのような違いから最適なコンセンサスを得る方法を実証する広範な実験を実施しています。 具体的には、Sleeman ら 5,7 は、集中治療室 (ICU) 患者の重症度を 6 つの臨床変数の値に基づいて 5 段階評価 (AE) でラベル付けする場合、臨床専門家の間で意見が異なる場合があると報告しています。 現在の研究は、「これらの判断の違いが、結果として得られる分類子モデルのパフォーマンスと実際の ICU 臨床意思決定にどのような影響を与えるのか?」という質問に取り組んでいます。 したがって、我々は、M 人の臨床専門家によって個別にラベル付けされたデータセットから導出された M 分類器が、関連する外部データセットに適用された場合に一貫した分類を生成するという仮説を提案しました。 この研究の目的は次のとおりです。 1) 個別に注釈が付けられた 11 個のクイーン エリザベス大学病院 (QEUH) ICU データセットから分類器を構築します。 2) 外部 ICU データセット: HiRID における現実世界の退院結果 (ICU から生きて退院し、ICU で死亡) に対する分類器のパフォーマンスを評価します。 3) 注釈の不一致に対処するためのさまざまなアプローチを評価します。これらの不一致により、最適ではない AI モデルが作成されることがよくあります。

この研究は、以下で説明するように、ICU コンサルタントが日常的に遭遇する臨床上の意思決定の問題を促進するために AI テクノロジーを使用するシナリオに焦点を当てています。

「患者の状態はどの程度ですか?」という質問に 5 段階の ICU 患者スコアリング システム (ICU-PSS) スケール (AE) を使用できますか。ここで、E は重度の心血管不安定性を表し、A は比較的安定した患者を表します。 図 1a は ICU-PSS スケールの説明を示し、補足表 1 にはさらなる詳細が含まれています。

ICU-PSS アノテーション カテゴリ。 b QEUH ICU アノテーション付きデータセットのインスタンスの例。

トレーニング データセットは、グラスゴー クイーン エリザベス大学病院 (QEUH) ICU 患者管理システムから取得しました。 これには、2 つの薬剤変数 (アドレナリンとノルアドレナリン) と 4 つの生理学的パラメーター (FiO2、SpO2、平均動脈圧 (MAP)、および心拍数 (HR)) の 6 つの臨床的特徴によって記述された 60 のデータ インスタンスが含まれています。 6 つの変数は、臨床医が特定の患者の病気の程度を評価するために ICU で定期的に使用する変数であることに注意してください。 注釈の例を図 1b に示します。 QUEH データセットには、外傷および非外傷の ICU 患者データが含まれる場合があります。

私たちの主な目的は、AI モデル開発のための人による注釈の(不)一貫性と、ICU 設定における現実世界の臨床意思決定への影響を評価することです。 これは次の側面に分類されます。

評価セットアップ: (a) ML モデルは QEUH アノテーション付きデータセットを使用して開発されます。 (b) 外部検証データセットが準備され、すべてのモデルのパフォーマンス評価がこれらのデータセットに対して実行されます。

一貫性の定量化: アノテーターの AI モデルが同じカテゴリを同じインスタンスに割り当てる程度を測定するために、Cohen の κ スケール 31,32 と Fleiss の κ 33,34 を選択します。 これらのスケールの値が高いほど、より強いレベルの一致を示します。 コーエンのスケールは次のように要約できます: 0.0 ~ 0.20 (なし)。 0.21 ~ 0.39 (最小); 0.40 ~ 0.59 (弱); 0.60 ~ 0.79 (中程度); 0.80 ~ 0.90 (強); > 0.90 (ほぼ完璧)。

現実世界の意思決定への影響: 2 つの実際の ICU 意思決定シナリオを選択しました。どちらもバイナリ分類タスクです。 まず、患者を次の 1 時間以内に ICU から退室させるべきかどうか。 第二に、患者が今後 1 時間以内に ICU で死亡するかどうか。 私たちは外部検証の 2 つの方法を調査します。1 つは患者データの 1 時間ごとのスナップショット (静的データ) を使用するもの、もう 1 つは時系列データ (時間データ) を使用するものです。

ゴールドスタンダードを取得するための現在の「ベストプラクティス」を評価します。(a) 意見の相違が生じた場合にその判断をゴールドスタンダードとして使用すべき「スーパー専門家」がいるかどうか。 (b) ゴールドスタンダードを達成するために、すべての専門家の判断からコンセンサスが得られるかどうか。

上記の実験アプローチの概要を図 2 に示します。

左側のコンポーネント (3 つのボックス) は、データセット、モデル、内部検証方法を含むモデルの導出を示しています。 2 つの緑色のボックスを持つ上部のコンポーネントは、外部検証データセットの選択と準備を示します。 中央のコンポーネント (破線で囲まれた) は、外部検証実験を示しています。 右側のコンポーネント (4 つのピンクのボックス) は、一貫性のない測定、合意形成を求める方法、変化するパターンを考慮した意思決定など、外部検証実験の詳細を説明します。

この研究の中心的な仮説は次のとおりであることを思い出してください。M 個の分類器は、M 人の臨床専門家によって個別にラベル付けされたデータセットから導出され、関連する外部データセットに適用されると同一の分類を生成します。

デシジョン ツリー (DT) 分類器とランダム フォレスト (RF) 分類器は、両方とも臨床機械学習の文献で一般的な選択肢であることもあり、QEUH アノテーション付きデータセットから構築されました。 DT が選択されたのは、結果として得られるツリー プロットを使用して、学習されたモデルの意思決定プロセスを推測したり、アノテーター モデル間のさまざまな複雑さを比較したりできるためです。 RF は、(DT と比較して) より強力なモデルによって不整合がそれほど顕著にならないかどうかを比較するために使用されました。これは、後のサブセクションで事実ではないことを示します。

11 の分類子は、11 人のコンサルタントのそれぞれの注釈付きデータセットから導出されました。このデータセットには、6 つの臨床変数 (アドレナリン、ノルアドレナリン、FiO2、SpO2、MAP、HR) と重症度クラス ラベル (AE) のデータが含まれています。 図 3a に示すように、60 個のトレーニング インスタンスにわたるアノテーション ラベリング (AE) は、11 人のアノテーター間で異なります。 トレーニング前に、注釈付きデータセット内のクラス ラベルのバランスを取るクラス バランシング手法を試しましたが、パフォーマンスに大きな違いが生じなかったことに注意してください (補足表 2 を参照)。 したがって、元のアノテーション付きデータセットを使用して分類器を構築することにしました。 QEUH データセットに注釈を付けた 11 人のコンサルタントには、以前の Sleeman et al.5 の研究での注釈演習の後、匿名のコード名 (C1 ~ C11) がランダムに割り当てられました。 これらのコード名は、この文書全体で参照されます。 各コンサルタントの対応する RF 分類子は Cn-RF と呼ばれます。ここで、n はコンサルタント 1 ~ 11 を指します。

a すべてのコンサルタント (C1 ~ C11) のラベル付き QEUH トレーニング データセットにわたるアノテーションの分布。 b HiRID 検証データセット上で実行された、コンサルタントの RF マルチクラス モデル全体に​​わたる予測ラベル分布。 c 外部 HiRID 検証データセットのマルチクラス RF モデルによって作成された予測ラベルのすべてのコンサルタント ペアにわたるペアワイズ コーエンの κ 値。

トレーニングされたモデルは、患者の ICU-PSS ラベル (AE) を予測し、重症度のレベルを示します。 複数のアノテーション付きデータセットにわたる標準的な内部検証実験では、まずグラウンド トゥルースを確立する必要があり、これはおそらく各インスタンスのすべてのアノテーター間で多数決を取ることによって行われます。 次に、トレーニングされた各コンサルタント モデルをこのグラウンド トゥルースに対して実行して、内部検証パフォーマンスを確立します。 私たちは、この研究により関連性の高い別の方法を開発して利用しました。この方法では、トレーニングされた各モデルが、学習した元のアノテーションに対して実行されます。したがって、これらの内部検証結果は、元のアノテーション付きデータセットの「学習可能性」、つまり、アノテーションがどの程度適切に学習されているかを示します。属性変数と提供されたアノテーションの間の関連性を学習できるため、アノテーターの意思決定をいかに簡単に再現できるかがわかります。 図 5a に示すように、これらの内部検証 F1 (マイクロ) スコアは 11 個の RF 分類器全体で 0.50 ~ 0.77 の範囲にあります。 図 4 に示すように、6 つの予測変数にわたる特徴の重要度は分類器ごとに異なります。

X 軸は 11 個の分類子をリストし、Y 軸は 0 ~ 1 の範囲の重要度の値です。1 は最大の重要度を示します。

すべての外部検証実験では、2 つの極端な臨床シナリオ (ICU から生きて退院するか、ICU で死亡する) を予測することに焦点が当てられています。 この最初の外部検証実験では、同じ 6 つの臨床変数のデータを含む 2600 件のインスタンスの重症度ラベル (AE) を予測するために、トレーニングされたモデルが HiRID テスト データセットで実行されました (これらのインスタンスのうち 1300 件は、生存して退院した患者に対応します) ICU、そしてその ICU でさらに 1,300 人の患者が死亡した)。 私たちの焦点は 2 値 (退院状態) 分類タスクであるため、次のように多クラス AE 重症度ラベル分類を 2 値の退院/死亡分類にマッピングしました。

患者が ICU から退院 (生存) する前の最後の 1 時間における、ICU-PSS スケールでの分類は「A」です。

ICU で患者が死亡する前の最後の 1 時間では、ICU-PSS スケールでの分類は「E」になります。

HiRID データセットでは、「A」分類のすべての患者が次の 1 時間以内に退院したわけではないことに注意してください。 同様に、「E」分類のすべての患者がその後 1 時間以内に死亡したわけではありません。 ICU に到着した患者の多くは重度の状態にあり、多くの場合「E」と評価されます。

図 3b に示すように、2600 個の HiRID テスト インスタンスにわたる予測ラベルはアノテーターによって異なります。 この図を検討すると、専門家のモデルの分類には大きなばらつきがあり、同等のラベルを持つモデルは少数であることが明らかです。 コーエンのスケールを使用した、これらの AE 予測ラベルに対応するペアワイズ アノテーター間合意 (IAA) は、アノテーター モデル全体で -0.01 (低/なし) から 0.48 (弱) の範囲であり、図 3c に示されています。 ペアごとのコーエンの平均 κ スコアは 0.255 (最小一致) です。 これらの予測されたラベルの Fleiss の κ は 0.236 (公正な一致) です。 IAA は、この文書全体を通じて「Inter-AnnotatorAgreement」の略語として使用されていることに注意してください。

これらの結果は、11 人のコンサルタントの注釈付きデータセットでトレーニングされたランダム フォレスト分類器 35 を使用して得られました。 デシジョン ツリー アルゴリズム 25 を使用して取得された対応する分類子は、同等の結果をもたらしました。参考文献を参照してください。 36. 補足図 3 に示すように、XGBoost と SVM を使用してトレーニングされた分類子も RF モデルと同等の結果をもたらしました。

さらに、11 人の QEUH コンサルタントからの分類子が HiRID 検証データセットに関して下した実際の決定には、次の 1 時間で生きて退院する患者に対応する 1300 件のインスタンスが含まれていたと考えています (つまり、ICU-PSS ラベル「A」)。 '、上記のマッピングで概説されているように)、およびその後 1 時間以内に患者が ICU で死亡した 1,300 例 (つまり、ICU-PSS ラベル「E」)。 これらの結果を図 5a にまとめます。 思い出してください。トレーニングされた分類子は、患者の重症度レベルを示す ICU-PSS 分類ラベル (AE) を予測します。 この最初の外部検証実験では、トレーニングされたモデルを 3 つのクラス (CL1 = A、CL2 = B/C/D、および CL3 = E) を予測するものとして扱います。図 5a で報告される外部検証 F1 スコアは、F1 マイクロを使用して計算されます。平均 – 真陽性、偽陰性、および偽陽性の合計をカウントすることにより、全体的な平均 F1 スコアを計算します。 F1 スコア 37 は分類器の精度と感度の調和平均であり、スコアが高いほどモデルのパフォーマンスが高いことを示します。

a コンサルタントの RF モデルの内部および外部の検証パフォーマンス。 各分類子について、HiRID 外部データセット上で正しく分類された「Discharged Alive」および「Discharged Dead」ラベルの数が報告されます。 b コンサルタント 1 の外部検証混同行列プロット。5 つのクラス (AE) にわたる HiRID データセットの真のラベルと RF モデルの予測ラベルを示します。0 = ICU-PSS ラベル 'A'、4 = ICU-PSS ラベル 'E'。

図 5a は、11 個の分類子すべてにわたって正しく分類された「生存退院」ラベルと「死亡退院」ラベルの数を示しています。 これらの結果は、C10 が患者の退院に「最も消極的」であり、正しく予測された入院のうち 1 時間以内に生きて退院した数を指す「生きて退院」分類の数が最も少ないことを示唆しています。 対照的に、C2 と C4 は患者を退院させる可能性が「最も高い」ものであり、正しい「生きて退院」のケースが最も多くなります。

患者が生きて退院した場合のみに焦点を当てると、平均ペアごとのアノテーター間一致 (コーエンのκ) が 0.21 (最小一致) であることが観察されます。 これらの予測されたラベルの Fleiss の κ は 0.174 (わずかに一致) です。

ここで、患者が ICU で死亡した事例に焦点を当てると、ペアごとのアノテーター間の平均一致 (コーエンのκ) が 0.28 (最小一致) であることが観察されます。 これらの予測されたラベルの Fleiss の κ は 0.267 (公正な一致) です。

これは、臨床領域の専門家が退院の決定を下す場合と比較して、死亡率を予測する場合に同意することが多いことを示唆しています。 注釈付きデータセット全体で「E」ラベルの数が少ないため、これらの予測された「死亡」ラベルについて推測できる洞察と比較は限られていることに注意してください。 今後の関連研究では、この問題に対処するために、より多くのクラスバランスの取れたデータセットを取得する予定です。

図 5b は、あるコンサルタント (C1) の混同行列プロットの例を示しており、HiRID 検証データセットで実行した場合の RF 予測ラベルの分布の概要を示しています。 予測ラベル 0 ~ 4 は、それぞれ ICU-PSS ラベル AE に対応します。 真のラベル = 0 は、患者が次の 1 時間以内に ICU から生きて退院することに対応します (つまり、ICU-PSS ラベル「A」)。 真のラベル = 4 は、その後 1 時間以内に ICU で死亡した患者に対応します (つまり、ICU-PSS ラベル「E」)。 この混同マトリックスは、C1-RF が 337 件の患者を「生存退院」として正しく分類し、229 件の患者を「死亡退院」として正しく分類したことを示しています。 トレーニングされたモデルは、CL1 = A、CL2 = B/C/D、および CL3 = E の 3 つのクラスを予測するものとして扱われました。

QEUH トレーニング データは患者の生理学的/薬理学的測定値の 1 時間ごとのスナップショットで構成されているため、同様の静的データを含む HiRID 検証データセットを使用してこの外部検証実験を実行しました。 ただし、図 5a は、外部検証のパフォーマンスが内部検証のパフォーマンスよりも大幅に低いことを示しています。 これは、ICU での極端な意思決定 (退院/死亡の予測) には継続的なモニタリング (つまり、時系列データの使用) が必要になる可能性があることを示している可能性があります。これについては、後のサブセクション「時系列外部検証方法の評価」でさらに詳しく説明します。 さらに、図 3a に示すアノテーション分布は、人間のアノテーターがマルチクラスのラベル付けタスクを提示された場合に極端なラベル カテゴリ (つまり、A または E) を選択する可能性が低く、その結果、これらのシナリオを予測する際のパフォーマンスが低下する可能性があることを示唆しています。

高い内部検証パフォーマンスを備えた分類子 (C2-RF、C4-RF、C8-RF) の場合、これらのコンサルタントの注釈付きデータセットは高度に学習可能であったと推測できます (「学習可能性」とは、入力変数間の関連性がどの程度良好であるかを示していることを思い出してください)そして、提供されたアノテーションを学習することができ、その結果、アノテーターの臨床理論的根拠をいかに簡単に再現できるかがわかります。 コンサルタント C2 と C8 は、同様に高い内部検証パフォーマンスを持っているにもかかわらず、図 3a と図 4 に概説されているように、最初の QEUH アノテーション分布とその後の特徴重要度分布が異なり、その結果、HiRID 検証データセット上の予測ラベルの分布が異なります。 図1、2に示すように。 図6aおよび6bに示すように、C2 QEUH注釈付きデータセットは3.3%の「C」ラベルと10.0%の「E」ラベルで構成されていますが、C8注釈付きデータセットは36.7%の「C」ラベルと1.7%の「E」ラベルで構成されています。 推論された C2-RF 分類器の予測ラベルは 1.4% の「C」ラベルと 11.2% の「E」ラベルで構成されますが、推論された C8-RF 分類器の予測ラベルは 12.5% の「C」ラベルと 1.5% の「E」ラベルで構成されます。 全体として、C2-RF 分類器と C8-RF 分類器は、HiRID データセットで実行した場合、分類全体で最小限の一致を示します (ペアワイズ コーエンの κ = 0.27)。

a C2、C4、および C8 の QEUH ラベル付きデータセット全体にわたるアノテーションの分布。 b HiRID 検証データセットで実行した場合に、分類器 C2-RF、C4-RF、および C8-RF によって生成される予測ラベル分布。

このサブセクションでは、複数のドメインの専門家からゴールドスタンダードを取得するための 2 種類のベスト プラクティスを評価します。

(a) スーパーエキスパート: 意見の相違が生じた場合には、より上級のアノテーターのラベルを使用するか、裁定者の決定を使用します。 (b) 多数決: グラウンドトゥルースとして、すべての異なる判断から合意を求めます38、39、40。

「スーパーエキスパート」の仮定に関しては、データセットが匿名化されているため、どのアノテーターがより上級であるかわからないため、この評価を直接行うことはできませんでした。 これを回避するために、内部モデルと外部モデルのパフォーマンス間の相関関係を代理指標として使用します。 これは、超専門家の仮定が成り立つ場合、内部パフォーマンスが高い (または低い) モデルは、外部検証でもパフォーマンスが高い (または低い) 可能性が高いと想定できるためです。 図 5a は、内部および外部の検証結果を示しています。 2 つの結果間のピアソン相関は 0.51 であり、強い関連性がないことを意味します。 この分析の結果は、超専門家の仮定、つまりゴールドスタンダードは常に最上級の同僚によって提供できるという考えが必ずしも真実ではないことを示唆しています。 内部検証では良好なパフォーマンスを示したモデルでも、外部データセット (C4-RF や C8-RF など) ではそれほどパフォーマンスが良くないことが観察されています。 実際、QEUH データセットの最初のアノテーションには、HiRID 検証データセットで示されているのと同様のレベルのコンサルタント間の不一致が示されています。 後で示すように、多くの場合、選択的多数決のアプローチで多様な判断を考慮することで、より優れたモデルを達成できます。

さらに、すべての専門家の注釈のコンセンサスをとること (一般的な方法) を調査しました。 図 5a は、QEUH データセットにわたるさまざまな内部検証パフォーマンスを示しており、11 個の注釈付きデータセットにわたる学習可能性の違いを示しています。 内部検証パフォーマンスが高いモデルは学習が容易であることを示し (C8 など)、これはより一貫性のあるアノテーション ルールとより単純な意思決定プロセスを反映している可能性があります。 内部パフォーマンスが低いモデルは、学習可能性が低いことを示し、分類ルールの一貫性が低く、より複雑になる可能性があります (C7 など)。

コンセンサス取得の信頼性を評価するために、11 個すべてのアノテーション付きデータセットにわたる多数決ラベルから構築されたコンセンサス多数決 (MV) モデルの外部検証パフォーマンスを、次のデータセットから構築された上位多数決 (TMV) モデルと比較しました。成績上位のコンサルタント モデル全体の多数決ラベル (内部検証 F1 マイクロ > 0.7)。 図 7 は、TMV (F1 micro = 0.438) が MV (F1 micro = 0.254) よりも大幅に優れたパフォーマンスを示していることを示しています。 実際、TMV はほぼすべてのコンサルタント モデルよりも優れたパフォーマンスを発揮します。 これは、学習可能性の低い(専門家の)判断はパフォーマンスの低下につながることが多いため、コンセンサスを作成する前に各ドメインの専門家の判断の学習可能性を評価することが重要であることを示しています。

多数決 (MV) は、合計多数決のコンセンサス モデルを指します。 Top Majority Vote (TMV) は、成績上位のコンサルタント モデル全体の多数決ラベルから構築されました。

ICU専門家とのさらなる議論の結果、ICUコンサルタントの臨床意思決定では、評価前の期間(たとえば、過去5〜10時間)にわたる患者の生理学的および薬理学的パラメーターの傾向が一般に考慮されることが確立されました。 したがって、この 2 番目の外部検証実験に時系列コンポーネントを組み込み、これが QEUH 分類器のパフォーマンスにどのような影響を与えるかを調査しました。 この実験は、(単一のスナップショットではなく) 一定期間にわたる患者パラメータの読み取り値に基づいて退院状態を分類するというより現実的なタスクを提供するため、この実験はエキスパート モデルのより臨床的に適切な評価であると考えています。

この 2 回目の外部検証実験では、QEUH アノテーション付きデータセットでトレーニングされた DT 分類器のパフォーマンスを、静的 HiRID データセットと時間的 HiRID データセットの両方で比較しました。 静的 HiRID 検証データセットには、(1064 人の固有の患者の) 1064 レコードが含まれており、すべてのデータ インスタンスは、患者が生きて退院する前 1 時間以内 (つまり、ICU-PSS ラベル「A」) または患者が死亡する前 1 時間以内の読み取り値 (つまり、ICU-PSS ラベル「E」)。 一時的な HiRID 検証データセットには、患者あたり 5 つのレコード (退院/死亡前の 5 時間ごとに 1 つの読み取り値) で構成される 5,320 レコード (同じ 1,064 人の固有の患者にわたる) が含まれています。

時間的検証データセット上でトレーニングされた DT 分類器のパフォーマンスを評価するために、各患者の時点で 5 つの (時間ごとの) ICU-PSS 予測の加重合計が計算され、平均値が取得されました (その結果、時間的検証データセット内で 1,064 の重症度分類が得られました)データセット)。 これらの AE 予測ラベルは 1 ~ 5 の順序スケールとして扱われたため、加重合計値はすべて 1 ~ 5 の範囲内でした。 ここでも、トレーニングされたモデルは、CL1 = A、CL2 = B/C/D、および CL3 = E の 3 つのクラスを予測するものとして扱われました。加重合計値 (1 ~ 5) をこれら 3 つのクラスにマッピングする 2 つの方法を検討しました。以下に示すように、カットオフが異なります。 詳細については、「方法」セクションで説明します。

「エクストリーム」: CL1 = 1、CL2 = > 1 ~ 4、CL3 = > 4。

「ニュートラル」: CL1 = ≤ 3、CL2 = > 3-<4、CL3 = ≥ 4。

この実験では、MV および TMV コンセンサス モデルに加えて、追加の「ファジー コンセンサス」(FC) モデルが構築されました。 この FC モデルは、時間的外部検証データセット (生存退院 vs 死亡) に対するバイナリ分類タスクの信頼値として出力を考慮することで、個々のモデルの出力を組み合わせて構築されました。 AE 予測ラベルを 1 ~ 5 の順序スケール (つまり、A = 1、B = 2、C = 3、D = 4、E = 5) の予測として扱いました。 このスケールでは、A は次の 1 時間以内に生きて退院したことを示し、E は次の 1 時間以内に死亡したことを示します。 このコンセンサス手法では、各患者の全体的な退院状態予測を計算する際に、すべての予測が「あいまいな」ラベル 41 として取得および解釈されます。 患者ごとの時間ごとの予測について、モデル出力 (1 ~ 5) が平均されましたが、この計算では「3」 (つまり「C」) の予測ラベルは除外されました。 「3」は、この信頼度の値が 1 ~ 5 スケールの中心に位置するため、「不確実」と解釈されるため除外されます。 この平均計算に続いて、各患者の時点について、上で概説した「極端」と「中立」の両方のカットオフを使用して、5 つの (時間ごとの) ICU-PSS 予測の加重合計が計算されました。 結果を図8aに示す。 FC モデル計算の詳細については、「方法」セクションを参照してください。 「トップ ファジー コンセンサス」(TFC)モデルも、成績上位のコンサルタント モデル全体の多数決ラベルから構築されました(内部検証 F1 マイクロ > 0.7)。

a 静的 HiRID 検証データセットと時間的 HiRID 検証データセットでの外部検証パフォーマンスの比較。 b 静的および一時的な HiRID 外部検証データセットに対して作成された、正しく分類された「生存退院」ラベルと「死亡退院」ラベル。 c HiRID でトレーニングされたロジスティック回帰モデルのオッズ比分布は、退院/死亡の 1 ~ 5 時間前にラベルを予測しました。

図 8a は、すべてのアノテーター モデルが、時間的 (極端) および静的データセットと比較して、時間的 (中立) 検証データセットでより優れたパフォーマンスを示していることを示しています。 極端なマッピング方法では、CL1 クラスと CL3 クラスからはるかに多くの患者データポイントが除外されるため、モデルは、より極端なマッピングと比較して、より中立的な分類マッピングで生成されたデータセットで高いパフォーマンスを示します (CL1 クラスと CL3 クラスのみが除外されることを思い出してください)。 HiRID 検証データセットに存在します)。 次のカットオフを使用して追加のマッピングを調査しました: CL1 = ≤ 2、CL2 = > 2-< 4、CL3 = ≥ 4、これらの結果については補足図 1 を参照してください。

図 8a に示すように、内部検証で良好なパフォーマンスを示したモデル (C4-RF および C8-RF) が、外部の時間外部データセットで実行されるとそれほどパフォーマンスが低下することがわかります。 内部検証結果と一時的 (極端な) 外部検証結果の間のピアソン相関は 0.64 であり、これらは強い関連性がないことを意味します。 同様に、内部検証結果と時間的 (中立) 外部検証結果の間のピアソン相関は -0.51 です。 これは、超専門家の仮定が急性期の臨床現場では必ずしも当てはまらない可能性があることを示すさらなる証拠を提供します。

図 8a は、前の実験で観察されたように、静的検証データセット上で上位多数決モデル (TMV) がコンセンサス多数決モデル (MV) よりも大幅に優れたパフォーマンスを示していることを示しています。 また、TMV は、時間的 (極端な) データセットでは MV よりも大幅に優れたパフォーマンスを示し、時間的 (ニュートラル) データセットでは MV よりわずかに高いパフォーマンスを示します。 これはさらに、グラウンドトゥルースとしてのコンセンサスを得る前に、ドメイン専門家の判断の学習可能性を評価し、学習可能性の低い専門家の注釈を除外することの重要性を示唆しています。 トップ ファジー コンセンサス (TFC) モデルも良好なパフォーマンスを示しており、個々のモデルの学習可能性に基づいてモデルを選択した後、コンセンサスが一貫して改善されていることを示しています。

図 8b は、静的および一時的な HiRID 検証データセットで実行された、11 個の分類子すべてにわたって正しく分類された「生存退院」ラベルと「死亡退院」ラベルの数を報告します。

患者が生きて退院した場合のみに焦点を当てると、平均ペアワイズ IAA、つまりコーエンの κ が時間的 (極端な) データセットで 0.239 (最小一致) であることが観察されます。ここで、これらの予測されたラベルのフライスの κ は 0.211 (正常) です。合意)。 時間的 (中立) データセットで実行した場合、平均ペアワイズ IAA は 0.284 (最小限の一致)、Fleiss の κ は 0.294 (公正な一致) です。

ここで、患者が ICU で死亡した例に焦点を当てます。時間的 (極端な) データセットにおける平均ペアワイズ IAA は 0.327 (最小一致) であり、これらの予測ラベルのフライスの κ は 0.326 (かなり一致) であることが観察されます。 時間的 (中立) データセットで実行した場合、ペアごとの平均 IAA は 0.587 (弱い一致)、Fleiss の κ は 0.579 (中程度の一致) です。 これはさらに、臨床分野の専門家が退院の決定を下す場合と比較して、死亡率を予測する場合の方がより同意する可能性があることを示しています。

私たちは、時間 HiRID データセット上で (DT 分類器によって) 生成された予測ラベル (AE) でトレーニングした後、教師あり学習モデルが患者の退院状態を分類する際にどのように機能するかを調査するために追加の分析を実施しました。 これには、各患者の退院/死亡前の 5 時間にわたる各コンサルタントの DT 分類子予測ラベル (AE) に関するデシジョン ツリーとロジスティック回帰 (LR) モデルのトレーニングが含まれます (つまり、5 つの予測子特徴)。補足図 2 を参照。

オッズ比分布は、患者の退院状態分類 (生きて退院したか死亡したか) を作成する際の 5 つの時間変数にわたる重み付け (つまり、重要度) の違いを示します。 退院/死亡の 5 時間前の予測は、MV と TMV だけでなく、ほとんどのコンサルタント モデルにわたる LR モデルの退院状態分類でも最も重要でした。 大多数のモデルでは、退院/死亡の 1 時間前の予測は、最終的な退院状態の分類を行う際に最も重要ではありませんでした。これは、退院/死亡の時間に近い退院予測が最終的な退院状態を示すという直観的な仮説に矛盾するため、注目に値します。排出状況。

この研究は、臨床アノテーター間の意見の相違を評価し、ICU 設定内で結果として得られる ML モデルのパフォーマンスに対するこれらの意見の相違の影響を評価することに焦点を当てました。 特に、コンセンサスを求める現在の「ベストプラクティス」を評価しましたが、その結果は、これらが急性期の臨床現場ではうまく機能しない可能性を示唆しています。 私たちの分析は、コンセンサスを求める前に学習可能性を評価するという、斬新でより信頼性の高いアプローチを指摘しています。

図 3b に示すさまざまなラベル分類と、図 3c の低いペアごとの一致 (平均コーエンの κ = 0.255、つまり最小一致) は、中心仮説を棄却するのに十分であり、分類器は 11 個のラベルで個別にラベル付けされたデータセットから派生したものであると結論付けられます。臨床専門家は、関連する外部データセットに適用した場合に一貫した分類を生成しません。 2 つの ICU 意思決定シナリオをさらに分析したところ、状況によって矛盾が異なることが示されました。これらの臨床領域の専門家は、死亡率の予測など、より重要な状況についてはより高い同意を示しているようです。

グラウンドトゥルースを取得する際の現在の実践の評価を深く掘り下げると、2 つの実用的な提案が得られます。 (a) スーパーエキスパート (他の誰よりも信頼できる) は急性期の臨床現場には存在しない可能性があり、最適な情報を取得するには多様な対応の方が信頼できる可能性があります。モデル。 (b) 学習可能性 (内部検証パフォーマンスとして定量化される) は、ドメイン専門家の判断に基づいて評価される重要な指標であり、学習可能性が低い判断を回避することで、グラウンドトゥルースの向上、ひいては外部検証パフォーマンスの向上につながる可能性があります。

ポイント b) にさらに加えて、注釈ルールを一貫して適用しない専門家を検出して除外するアプローチは、次のように要約されます。すべての専門家は、同じセットの (トレーニング) インスタンスに注釈を付けます。 これらの注釈付きデータセットから、各専門家に対して分類子が推測されます。 各分類子の「学習可能性」は、トレーニングされたモデルが元の注釈に対して実行される k 分割相互検証などの適切な方法を通じて取得されます。これは、各専門家の注釈ルールの一貫性のチェックです。 次に、事前定義されたしきい値を超えてパフォーマンスを発揮しないすべてのモデル (つまり、学習可能性の低い注釈付きデータセットから構築されたモデル) を除外します。 結果を図1〜3に示す。 図7、および8aは、この方法が、より高性能のコンセンサスモデル(すなわち、TMVおよびTFC)を生成する際に臨床アノテーター間の不一致を利用するために適用できることを示している。

学習性の低いモデルを除外した後、「結果」セクションで概説したように、個別のエキスパート モデル (C2-RF や C8-RF など) によって行われた分類に大きな違いがある可能性があることがわかりました。 これは、一部のアノテーターはラベル付けがより極端になる傾向があり、他のアノテーターはより穏健であるという Welinder らの観察と一致します。 分類子 C2-RF と C8-RF は学習可能な注釈付きデータセット (良好な内部検証パフォーマンスによって示される) から推論されたため、結果として得られる予測ラベル分布の違いがコンサルタントの判断の違いに起因する可能性があることを示唆しています。 したがって、これらは無視できない有効で臨床的に有用な違いである可能性があります。 トレーニング データセット内のラベル ノイズに対処する現在の ML アプローチには、データ クレンジング (つまり、ノイズのあるラベルの削除) またはノイズ耐性/ノイズ耐性アルゴリズムの利用が含まれます。 これらの方法を適用すると、アノテーターの判断間の有用な粒度の違いが失われる可能性があります。 さらに、多数決または上位多数決のアプローチ (「結果」セクションで説明) を適用すると、アノテーターの判断間の微妙な違いが失われる可能性があります。 この問題については、「今後の作業」セクションで対処する予定です。

この研究で構築された分類器のほとんどは、現実世界の意思決定の貧弱さを反映して、内部および外部の検証パフォーマンスが不十分です。 ただし、このパフォーマンスの低下はさまざまな理由によるものである可能性があります。トレーニング データセットが小さい、バランスが取れていない、選択された特徴が最も予測的ではない、複数の時点で患者を評価する必要がある、ICU 設定間の違いなどです。この現実世界の非ランダムノイズの特性をさらに調査し、モデルのパフォーマンスへの影響や、提案されたコンセンサス探索方法(すなわち、コンセンサスを求める前に学習可能性を評価する)。 これには、英国のかなりの数の ICU からの臨床アノテーターの非常に大規模なコホートが含まれ、多様な判断セットを提供するとともに、さまざまな国からの複数の外部検証データセットが提供され、さまざまな設定でモデルがどのように機能するかを評価する必要があります。

これらのより大きなアノテーション付きデータセットを使用して、アノテーター間での不一致の背後にある理由 (バイアス、判断、ノイズ、特徴選択の制限など) とこれらを解決する方法を中心にさらなる分析を行う必要があります。 これには、簡単なケース (アノテーター間での同意が高い) と難しいケース (アノテーター間での不一致が大きい) の特徴を含め、コンサルタントの意見の相違を分析する必要があります。 さらに、ラベル付けタスクの説明/提示を強化することで、(臨床)専門家間の意見の相違のレベルを減らすことを目的とした研究も考慮されるべきです5。

議論された結果に続いて、専門家のアノテーター内の一貫性を検出および調査するためのさらなる研究が計画されています。 アノテーター内の一貫性は、アノテーションを付けるデータセットに繰り返し項目を含めることで簡単に検出できます。これにより、一貫性のない専門家をさらなる分析から除外できます。 さらに、トレーニング前に「学習性が低い」アノテーション付きデータセットを削除すると、アノテーター間の合意が増加し、より良い外部検証結果が得られるかどうか、より一貫した意思決定が得られるかどうかをさらに調査していきます。 これが真実であると判明した場合、個々の専門家の判断の学習可能性を評価することが ML モデルのトレーニングにおける重要なステップであることが検証されます。つまり、「ゴールドスタンダード」を取得するために利用可能なすべての専門家の判断から直接コンセンサスを求める現在の慣行を修正する必要があることを意味します。学習しにくい判断は、真のゴールドスタンダードに到達する際に問題を引き起こす可能性があります。

さらに、実際には、人々は経験豊富な(「スーパー」)専門家をより信頼する傾向があるため、「ゴールドスタンダード」を取得する際には彼らの判断がより重要な役割を果たします。 アンサンブル モデルが個々の経験豊富なドメイン専門家よりも優れたパフォーマンスを発揮するかどうかを確認するには、さらなる調査が必要です。

さらに、さらなる研究では、各コンサルタントに各注釈に 0 ~ 1 の間の信頼度係数を割り当てるよう要求することで、注釈タスクを変更できる可能性があります。 さらに、各アノテーターのスキル レベル (経験年数や専門分野に基づく) を取得できます。 これらは、モデルのトレーニング中に重み付け係数として使用され、信頼性の低いラベルの影響を軽減し、コンセンサスの計算における高度なスキルを持つ専門家の貢献を増やすことができます。 さらに、これらの信頼値は、簡単なケースと難しいケースの分析を容易にします。 Nettleton ら 41,43 は、応答を捕捉する際に重み付け係数と信頼係数を利用して広範な実験を実施しました。

ML 意思決定支援システムが安全性が重要であると考えられる場合、どの個別のエキスパート分類器を使用するかを確立するために、さらにいくつかの分析を含めることが重要です。 たとえば、専門家パネルによって事前に指定されたタスクとソリューションのペアのセットに対して各分類子を実行し、事前に定義されたパーセンテージ未満で正しく解決した分類子/専門家を除外します。 このようなフィルターの有効性は、パネルが選択したインスタンスに大きく依存します。 ただし、これは、2 つ (またはそれ以上) のクラス間の違いはわずかだが、誤分類の影響が大きい (安全性が重要な) 領域で作業する場合に使用するのに適切なアプローチです。 このアプローチは、IBM の Jeopardy システム 44 や、それ以前の KRUST システム 45 で広く使用されてきました。 (このステップは、前に説明した統計/数値ステップと同様に実行する必要があります。)

図 8c は、非常に興味深い洞察を提供します。つまり、ほとんどのエキスパート モデルにおける LR モデルの退院状態分類では、退院/死亡の 5 時間前の予測重症度ラベル (AE) が最も重要であったのに対し、退院/死亡 1 時間前の予測は最も重要でなかったということです。重要 – これはやや直観に反する発見です。 ここでは、ICU専門家と協力して、退院/死亡前の期間にわたる生理学的測定値の傾向を退院状態の予測にどのように使用できるかを調査するさらなる研究が必要です。

この研究は、意見の相違がかなり一般的かつ避けられない現実世界の ICU 意思決定シナリオをシミュレートし、これらの臨床医の意見の相違が結果として得られる機械学習モデルに及ぼす影響を調査することに焦点を当てています。 この目的を達成するために、実験的アプローチ (図 2 に概要を示す) のあらゆる側面が慎重に検討されました。 主な要因については以下で説明します。

クイーン エリザベス大学病院のトレーニング データセットは、6 つの記述変数にわたる ICU 患者データの 60 インスタンスで構成されています。 臨床医間で意見の相違はよくあることなので (理由は多要素であり、「はじめに」セクションでまとめられています)、アノテーター間での内部および相互の不一致を最小限に抑えるために、限られた特徴とデータ インスタンスのセットで構成される単純な分類タスクを選択しました。 したがって、この研究の基礎として選択された注釈タスクは臨床的に関連性がありながら、より研究に焦点を当てたものであり、臨床医の意思決定プロセスを正確に把握できるようになりました。

ICU PSS スケール (2000 年から 2005 年に開発)46 を使用すると、臨床医は、限られた数の 6 つの記述子に基づいて、特定の時点での患者の状態を判断できます。 医学では、部分的な情報に基づいて意思決定/判断を下さなければならない状況が数多くあります。この文書で扱うのはこのシナリオです。 ICU-PSS スケールには 5 つのアノテーション カテゴリがあり、これらはカテゴリ的ではありますが、患者の重症度ステータスに関する各アノテーターの信頼スコアとして見ることができます (A = より安定しており、すぐに退院できる可能性が高く、E = 非常に不安定で重要な薬理学的サポートが必要な患者) 。 したがって、この AE 信頼度スケールは、「時系列外部検証メソッドの評価」サブセクションで説明されているように、バイナリ外部検証タスクに適用できます。 さらに、この ICU-PSS スケールは、代替の臨床スコアリング ツール (SOFA47 など) と比較してシンプルで理解しやすいため、分類タスクが単純になり、各臨床医の意思決定/注釈ルールをより適切に把握して比較できるようになります。

以前の研究で数人の ICU 専門家と協力して、6 つの臨床変数が選択され、ICU 患者 (AE) の 5 項目の定性的記述が開発されました。 4 つの基本的な生理学的パラメーター (FiO2、SpO2、平均動脈圧、心拍数) は、患者の状態の明らかな改善または悪化の指標として臨床医によって使用されます。 薬物フィールド (アドレナリンおよびノルアドレナリン) は、患者が必要とする薬理学的サポートの量を示します。 これらの ICU-PSS カテゴリの詳細な説明は、補足表 1 にあります。

学習中のラベル ノイズの問題に対処できる、ノイズ耐性のある ML 分類アルゴリズムが複数あります 10、12。 この研究では、デシジョン ツリー (DT) 分類器とランダム フォレスト (RF) 分類器がより適切な選択となりました。これは、どちらも臨床現場で広く使用されているためです。 さらに重要なのは、結果として得られるツリー プロットを使用して、学習されたモデルの意思決定プロセスを推測したり、アノテーター モデル間のさまざまなアノテーション ルールや複雑さを比較したりできるため、DT が選択されたことです。 RF は、より強力なモデルによりこれらの不一致がそれほど重要でなくなるかどうかを比較するために使用されました (事実ではないことが示されました)。

コンサルタントのモデルのパフォーマンスを比較するために、HiRID 検証データセットを使用して外部モデル検証が実行されました。 QEUH 分類器は、5 段階 AE ICU-PSS スケールでの判断を予測するために構築されました。 ただし、HiRID 検証データセットは、次の 1 時間の退院/死亡を予測するという 2 値分類タスク (つまり、ICU-PSS スケールの A または E 値) に焦点を当てていました。 HiRID データベースには、ICU-PSS のグランド トゥルース値も、同様のマルチクラス重大度評価も含まれていません。 したがって、ICU-PSS AE は患者の退院状態の信頼スコアに匹敵するため、グラウンド トゥルースの退院状態が検証分類タスクとして選択されました (A = 1 時間以内に生きて退院、E = 1 時間以内に死亡)。 この研究の焦点は、ラベルの品質やモデルのパフォーマンスの向上ではなく、臨床アノテーターの不一致がモデルのパフォーマンスに及ぼす影響を調査することにあるため、最初のアノテーション タスクとモデル検証タスクの違いは、実験結果に最小限の影響を与えます。

グラスゴー クイーン エリザベス大学病院のトレーニング データは匿名化されています。 60 例は、QEUH 患者管理システム (外傷患者と非外傷患者のデータを含む) から取得した 80,291 件の時間別患者記録のプールからランダムに選択されました。

この QEUH データセット内の患者の真の重症度または退院状態データは、以前の Sleeman et al.5 の研究では収集されていないことに注意してください。 患者は匿名化されていたため、このデータは後で取得できなくなりました。

RandomForestClassifier パラメーター class_weight = Balanced を追加することで、トレーニング中にアノテーション付きデータセット内のクラス ラベルのバランスをとるクラス バランシング方法を調査しました。 元のアノテーション付きデータセットを使用した場合と比較して、パフォーマンスに大きな違いは生じませんでした。 このバランスの取れたクラス重み条件による内部および外部の検証結果の概要を補足表 2 に示します。

内部検証メトリクスは、完全なトレーニング データセットを利用した 5 分割相互検証を通じて取得されました。 トレーニングされた各モデルは、学習元の元のアノテーションに対して実行されました。したがって、これらの内部検証結果は、元のアノテーション付きデータセットの「学習可能性」、つまり、属性変数と提供されたアノテーションの間の関連性をどの程度学習できるかを示します。アノテーターの意思決定をいかに簡単に再現できるか。 図 5a は、11 人のコンサルタント アノテーターそれぞれの最適な RF モデルのパフォーマンスを示しています。 これらのモデルは F1 micro で最適化されました。

図 4 に示す特徴重要度分布は、scikit 学習 feature_importances_property を使用して取得されました。 これは、フィーチャによってもたらされるノードの不純物 (ジニまたはエントロピー) の正規化された総削減量として計算されます。 内部検証パフォーマンスが良好なモデル (F1 micro > 0.7) の場合、特徴量の重要度分布の違いは、アノテーター間の理論的根拠や意思決定プロセスの違いを反映しています。 特定のアノテーター (C4) にとって、ラベル「A」分類にアノテーションを付けることを決定する際に、ノルアドレナリンが最も重要な特徴であると推測できます。 一部の (C2) にとって、この分類を行う際には FiO2 が最も重要です。 その他 (C10) については、理論的根拠はノルアドレナリンと FiO2 に関してよりバランスが取れています。

異なる病院や国からの同様の参加者からのデータを使用した広範な外部検証は、モデルのパフォーマンスと一般化性/移植性の信頼できる推定のゴールドスタンダードとみなされます48,49,50,51,52,53,54,55,56。 以下の 2 つの外部 ICU データセットが調査されました。

HiRID (v1.1.1): 2008 年から 2016 年の間にスイスのベルン大学病院に入院した 33,000 人の ICU 入院患者の匿名化データを含む、自由にアクセスできる救命救急データセット 57,58。

MIMIC-III (v1.4): 2001 年から 2012 年までの米国ボストンのベス イスラエル ディーコネス メディカル センターの ICU 患者 40,000 人の匿名化データを含む、自由に利用できるデータベース 58,59。

どちらのデータベースにも、グラスゴー QEUH トレーニング データと比較して、異なる病院および国からの ICU 患者データが含まれているため、広範な外部検証の基準を満たしています。 QEUH の臨床医によって作成された、注釈付きデータセットから抽出された分類子には特定の記述子が含まれているため、これらが外部データセットに存在することを確認することが重要でした。 具体的には、HiRID および MIMIC-III データセットに対して次のチェックが行われました。

データセットには同じ 6 つの記述子が含まれており、これらの各変数に関連付けられた単位は同一であるか、少なくとも既知であるため、必要に応じて数値スケーリングを適用できます。

QEUH (注釈付き) データセットで使用される 6 つの記述子について、これら 2 つのデータセットで使用されるすべての同義語を見つけるには、かなりの労力が必要でした。 さらに、QEUH で使用される 2 つの薬物変数について報告された値は、継続的送達に関するものであり、時折ボーラス投与に関するものではないため、薬物送達モードが同等であると判断することが重要でした。

QEUH データセットは時間ベースで情報をレポートしますが、外部データセットのデータのレポートはより頻繁かつ不規則な間隔であるため、HiRID と MIMIC-III データセットの両方を「時間ごと」のデータセットに変換するために多大な労力が費やされました。これらのデータセットは、QEUH コンサルタントのために導出された分類子と互換性があります。 完全な HiRID 前処理ステップへのアクセスの詳細については、「コードの可用性」セクションを参照してください。

アノテーター間合意 (IAA) は、評価者間信頼性とも呼ばれ、アノテーターが同じカテゴリを同じインスタンスに割り当てる程度の尺度です。 IAA は、注釈の一貫性とラベル付けタスクの再現性を表します。 主観によるエラーを最小限に抑え、トレーニング データの信頼性を高めるため、高い一貫性が好まれます。

There are multiple statistics used to measure IAA, including Cohen's κ, Fleiss’ κ and Krippendorff's α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d58063440e1597">62.

Cohen の κ は、一致が偶然に発生する可能性を考慮して、2 人のアノテーター間の信頼性を測定します。 コーエンのスケールは次のように要約できます: 0.0 ~ 0.20 (なし)。 0.21 ~ 0.39 (最小); 0.40 ~ 0.59 (弱); 0.60 ~ 0.79 (中程度); 0.80 ~ 0.90 (強); > 0.90 (ほぼ完璧)32.

Fleiss の κ は、絶対的な合意とは対照的に、アノテーターの合意の一貫性を考慮する Cohen の κ を拡張したものです。 複数のアノテーター間の一致の信頼性を評価します。 Fleiss のスケールは次のように要約できます: < 0 (悪い); 0.0 ~ 0.20 (わずか); 0.21–0.40 (普通); 0.41 ~ 0.60 (中程度); 0.61 ~ 0.80 (実質); 0.81~1.0(ほぼ完璧)34.

クリッペンドルフの α63 は、絶対的な合意ではなく、アノテーターの合意の一貫性を考慮します。 複数のアノテーター間の一致の信頼性を評価します。

モデル検証研究に関する体系的なレビューでは、適切に実施され明確に報告された外部検証研究が不足していることが示されています55,56。 患者集団を含むトレーニング データセットと検証データセットの間の互換性を詳細に調査することは一般的ではありませんが、外部検証の信頼性を向上させるためには必要です。

この研究では、トレーニング データセットと検証データセットの間の患者集団の互換性を評価するために、アドレナリン/ノルアドレナリンの投与が調査されました。 アドレナリン/ノルアドレナリンは、心血管系が不安定で重症度の高い患者に投与されます。 MIMIC-III ICU 入院ではアドレナリン/ノルアドレナリンが投与されたのは 5.9% のみであったのに対し、HiRID ICU 入院では 31.5% でした。 これは、スイスのベルン大学病院の ICU 患者の重症度が米国のベス イスラエル ディーコネス メディカル センターよりも高かったことを示しています。 さらに、QEUH ICU トレーニングの 40% にアドレナリン/ノルアドレナリンが投与されました。 これは、トレーニング データ内の ICU 患者集団の重症度が高いため、HiRID との互換性は良好ですが、MIMIC-III との互換性は低いことを示しています。 そこで、この研究では検証データセットとして HiRID を使用することにしました。 (注: 私たちは、患者が生きて退院するか ICU で死亡するかを予測する研究を行っているため、検証データセットにこれら両方のイベントの有意な数が含まれていることが重要です)。

この実験は、退院/死亡前の最後の 1 時間以内の患者の生理学的/薬理学的状態が退院状態の良好な指標であるという仮定の下で、患者の退院結果 (生存または死亡) を分類する分類器の能力をテストします。 上で説明した前処理から得られた「完全な」HiRID データセットには、20,073 件の固有の ICU 入院から得られた 2,022,313 個のインスタンスがあります。 次の 1 時間以内に退院した生存または死亡に対応するものとしてデータセットに記録されている時点のみが選択の対象となりました。 1,300 件の「生きて ICU から退院」インスタンスと 1,300 件の「ICU で死亡」インスタンスが検証データセットとしてランダムに選択されました。

ICU専門家との協議の結果、「ICUから生きて退院」とは通常、患者が(病院から退院するのではなく)ICUからICU以外の病棟に退院することを指すと定めました。 退院場所や ICU への再入院に関するデータは HiRID データベースに提供されていませんでした。 私たちの研究では、「1時間以内にICUから生きて退院した」コホートが依然として最も安定した患者を代表しているため(つまり、ICU-PSS = A)、退院場所は実験的アプローチや結果に影響を与えません。

実際には、ICU コンサルタントは、評価を行う前に、一定期間にわたる患者の生理学的および薬理学的パラメーターの傾向を考慮します。 この現実世界の ICU 患者重症度分類タスクをより厳密に捉えるために、HiRID 時系列データに対して 2 回目の外部検証実験を実行し、静的および時間的な HiRID 検証データセットに対する 11 個の DT 分類器 (QEUH アノテーション付きデータセットでトレーニングされた) のパフォーマンスを比較しました。 。 すべての検証データセットには、トレーニング データセットと同じ 6 つの変数 (アドレナリン、ノルアドレナリン、FiO2、SpO2、MAP、心拍数) が含まれています。

HiRID 時間的検証データセットでの分類器のパフォーマンスを評価するには、患者ごとの 5 つの (時間ごとの) ICU-PSS 予測の加重合計を使用します。 時間ごとの体重は次のように定義され、退院/死亡に近づくほど測定値に重み付けが加えられました: (a) 退院/死亡の 5 時間前: 0.1、(b) 退院/死亡の 4 時間前: 0.1、(c) 3 時間前退院/死亡 0.2、(d) 退院 2 時間前/死亡: 0.3、(e) 退院 1 時間前/死亡: 0.3。 この実験で使用するために 5 時間を超える期間が調査されたことに注意してください。ただし、検証データセットは小さくなります。5 時間の期間は、患者あたりの十分な時系列データポイントと検証データセットのサイズの間の最適なバランスを提供します。

AE 予測ラベルは 1 ~ 5 の順序スケールとして扱われたため、加重合計値はすべて 1 ~ 5 の範囲内でした。 トレーニングされたモデルは、CL1 = A、CL2 = B/C/D、および CL3 = E の 3 つのクラスを予測するものとして扱われました。

「結果」セクションでは、加重合計値 (1 ~ 5) をこれら 3 つのクラスにマッピングする 2 つの方法が、異なるカットオフで報告されました。

「エクストリーム」: CL1 = 1、CL2 = > 1 ~ 4、CL3 = > 4。

「ニュートラル」: CL1 = ≤ 3、CL2 = > 3-<4、CL3 = ≥ 4。

また、以下に示す加重和マッピングを使用した追加の「極端 (2)」カットオフも調査しました。 これらの結果の概要を補足図 1 に示します。

iii. 「極端 (2)」: CL1 = ≤ 2、CL2 = > 2-<4、CL3 = ≥ 4。

さらなる分析では、退院/死亡前の 5 時間ごとに、時系列 HiRID 検証データセット上の 11 個の QEUH DT 分類器によって作成された予測ラベルに基づいて DT モデルと LR モデルがトレーニングされました (つまり、連続 5 時間にわたる ICU-PSS ラベルの組み合わせ)。 )。 これは、退院の決定を下す前に、患者の薬理学的/生理学的パラメータ全体の変化のパターンを考慮する ICU 医師の意思決定プロセスを模倣する、シンプルだが解釈可能なアプローチです。 SVM などの非線形カーネルを備えたより複雑なモデルをこの分析に使用することもできますが、これにより結果の解釈可能性が失われます。DT モデルと LR モデルは F1 マイクロで最適化され、5 分割相互検証によって評価されました。従属変数は実際の排出状況です(補足図2を参照)。

この 2 回目の外部検証実験では、MV および TMV コンセンサス モデルに加えて、追加の「ファジー コンセンサス」(FC) モデルが構築されました。 この FC モデルを構築する目的は、外部検証データセット (退院 vs 死亡) のバイナリ分類タスクの信頼値として出力を考慮することで、個々のモデルの出力を組み合わせて調査することです。 このコンセンサス手法では、各患者の全体的な退院状態予測を計算する際に、すべての予測が 1 ~ 5 の序数スケール (AE) の「あいまい」ラベルとして取得および解釈されます。 図 9 は、使用されるスケールを示しています。

具体的には、予測されたラベル 1 ~ 5 (つまり、A ~ E) は、2 つの極値がバイナリ分類タスクを表す順序スケールで 1 ~ 5 (つまり、A ~ E) となります。1 = 次の 1 時間以内に ICU から生きて退院、5 = 次の 1 時間以内に ICU で死亡。

この研究の結果を裏付ける QEUH トレーニング データは、データ管理者であり共著者である Malcolm Sim からの要求に応じて入手できる場合があります。 個人レベルの医療データはプライバシー法で保護されているため、データは公開されていません。 HiRID および MIMIC-III は、次の URL から一般にアクセスできます。

1. MIMIC-III データベース: https://mimic.mit.edu/docs/gettingstarted/。

2. HiRID データベース: https://www.physionet.org/content/hirid/1.1.1/。

再現性を高めるため、この研究のすべてのデータセット前処理と機械学習モデルのコードは、https://github.com/aneeta-sylo/npjDigitalMedicine からアクセスできます。 外部検証データセットと機械学習モデルは、Python 3.6 を使用して構築されました。

Bootkrajang, J. & Kabán, A. ラベル付けエラーが存在する場合のマルチクラス分類。 人工ニューラル ネットワーク、計算知能、機械学習に関する 2011 年欧州シンポジウム議事録 (ESANN 2011)、345–350 (2011)。

Cabitza, F.、Ciucci, D. & Rasoini, R. 粘土の足を持つ巨人: 医療における機械学習にフィードを与えるデータの有効性について。 器官。 デジタルワールド 28、121–136 (2019)。

記事 Google Scholar

Mahato, D.、Dudhal, D.、Revagade、D. Bhargava、Y. UMLS を使用して医療文書内の一貫性のない注釈を検出する方法。 第11回情報検索評価フォーラムの議事録。 47–51、https://doi.org/10.1145/3368567.3368577 (2019)。

Garcia、LPF、De Carvalho、AC、Lorena、AC 分類問題の複雑さにおけるラベル ノイズの影響。 ニューロコンピューティング 160、108–119 (2015)。

記事 Google Scholar

Sleeman, D.、Kostadinov, K.、Moss, L.、Sim, M. 医療専門家間の意見の相違の解決: IS-DELPHI システムを使用したケーススタディ。 手順 13位 国際 Jt. 会議バイオメッド。 工学システム。 テクノロジー。 5、66–76 (2020)。

記事 Google Scholar

バックマン、LM 他。 検査精度研究におけるさまざまな診断の「ゴールドスタンダード」の結果: 手根管症候群を例に挙げます。 J.クリン. エピデミオール。 34、953–955 (2005)。

Google スカラー

スリーマン、D. et al. (分類) タスクに対するドメイン専門家の異なる視点間の不一致を検出して解決します。 アーティフ。 知性。 医学。 55、71–86 (2012)。

論文 PubMed Google Scholar

Rogers, S.、Sleeman, D.、Kinsella, J. ICU の患者に対する臨床医の評価間の不一致を調査。 IEEE J. Biomed. 健康情報。 17、843–852 (2013)。

論文 PubMed Google Scholar

カーネマン、D.、シボニー、O.、サンスティーン、CR ノイズ: 人間の判断の欠陥。 124–127 (ロンドン、ウィリアム コリンズ、p. 124–127、初版、2021)。

Frénay, B. & Verleysen, M. ラベル ノイズ存在下での分類: 調査。 IEEEトランス。 ニューラルネットワーク。 学ぶ。 システム。 25、845–869 (2014)。

論文 PubMed Google Scholar

Zhu, X. & Wu, X. クラス ノイズと属性ノイズ: それらの影響の定量的研究。 アーティフ。 知性。 改訂第 22 巻、177–210 (2004)。

記事 Google Scholar

Frénay, B.、Kabán, A. ラベル ノイズの包括的紹介: 人工ニューラル ネットワーク、計算知能、機械学習に関する 2014 年ヨーロッパ シンポジウムの議事録 (ESANN 2014)。 人工ニューラル ネットワーク、計算知能、機械学習に関する 2014 年の欧州シンポジウム (ESANN 2014) の議事録 (2014)。

ying、h.、dong、h. 分類におけるノイズの問題: 過去、現在、未来の研究。 2011 IEEE 3rd International Conference on Communication Software and Networks (ICCSN)、412–416 (2011)。

Indrayan, A.、Holt, MP 医療専門家のための生物統計の簡潔な百科事典。 44 (CRC プレス、2017)。

サン、DQ 他動的自動競合解決を通じて人間がラベル付けしたデータを改善します。 第 28 回計算言語学国際会議議事録、3547–3557、(2020)。

Cabitza, F.、Rasoini, R.、Gensini, GF、医学における機械学習の予期せぬ結果。 JAMA 318、517–518 (2017)。

論文 PubMed Google Scholar

Fischhoff、B. 分析的表現のための知識の引き出し。 IEEEトランス。 システム、マン、サイバーン。 19、448–461 (1989)。

記事 Google Scholar

ジェイン、RKら。 非定型乳管過形成: 観察者間および観察者内の変動。 モッド。 パソル。 24、917–923 (2011)。

論文 PubMed Google Scholar

Regier, DA et al. 米国とカナダでの DSM-5 フィールド試験、パート II: 選択された分類診断のテストと再テストの信頼性。 午前。 J. Psychiatry 170、59–70 (2013)。

論文 PubMed Google Scholar

Lieblich, S. et al. 大うつ病の診断における不均一性の高さと信頼性の低さは、新薬の開発を妨げます。 Br. J. 精神医学オープン 1、e5–e7 (2015)。

記事 Google Scholar

ハルフォード、JJ ICU の EEG 記録における電子写真発作と周期的放電の特定に関する評価者間合意。 クリン。 神経生理学。 126、1661–1669 (2015)。

論文 CAS PubMed Google Scholar

Moor, M.、Rieck, B.、Horn, M.、Jutzeler, CR、Borgwardt, K. 機械学習を使用した ICU における敗血症の早期予測: 系統的レビュー。 秒感染症 – 監視、予防、治療、最前線。 医学。 https://doi.org/10.3389/fmed.2021.607952 (2021)。

Zhang, W.、Wong, LY、Liu, J. & Sarkar, S. 緊急時のノックバックのモニタリング (MONKEY) – 入院要求が拒否された救急患者の処置結果の監査。 オープンアクセスエマーグ。 医学。 14、481–490 (2022)。

記事 PubMed PubMed Central Google Scholar

Xia、F.、Yetisgen-Yildiz、M. 臨床コーパス注釈: 課題と戦略。 言語リソースと評価に関する国際会議 (LREC) (2012 年) と連動した、生物医学テキスト マイニングのためのリソースの構築と評価に関する第 3 回ワークショップ (BioTxtM'2012) の議事録。

クインラン、JR によるデシジョン ツリーの誘導。 マッハ。 学ぶ。 1、81–106 (1986)。

記事 Google Scholar

クインラン、JR ノイズの多いデータからの学習。 第 2 回国際機械学習ワークショップ議事録 58 ~ 64 (1983)。

Nettleton, DF、Orriols-Puig, A. & Fornells, A. 教師あり学習手法の精度に対するさまざまな種類のノイズの影響に関する研究。 アーティフ。 知性。 改訂 33、275–306 (2010)。

記事 Google Scholar

Svensson, CM、Hubler, R.、Figge, MT 循環腫瘍細胞の自動分類と、分類子のトレーニングとパフォーマンスに対する観察者間のばらつきの影響。 J.Immunol. 解像度 https://doi.org/10.1155/2015/573165 (2015)。

Johnson, MJ & Khoshgoftaar, MT ラベル ノイズによるビッグ データの分類に関する調査。 J. データは品質を伝える。 14、1–43 (2022)。

Karmi, D.、Dou, H.、Warfield, SK、Gholipour, A. ノイズの多いラベルを使用したディープラーニング: 医療画像分析における技術と救済策の探索。 医学。 アナル画像。 65、101759 (2019)。

記事 Google Scholar

Cohen, J. 名目スケールの一致係数。 教育する。 サイコル。 測定。 20、37–46 (1960)。

記事 Google Scholar

McHugh、ML Interrater の信頼性: カッパ統計。 生化学医学。 22、276–282 (2012)。

記事 Google Scholar

Fleiss, JL、Levin, B.、Paik, MC 割合と比率の統計的手法。 (ジョン・ワイリー・アンド・サンズ社、2003年)。

Landis, JR & Koch, GG カテゴリカル データの観察者一致の測定。 バイオメトリクス 33、159–174 (1977)。

論文 CAS PubMed Google Scholar

ブライマン、L. ランダム フォレスト。 マッハ。 学ぶ。 45、5–32 (2001)。

記事 Google Scholar

Sylolypavan、A. 機械学習主導の臨床意思決定に対する一貫性のない注釈の影響 (University College London、2021)。

Raschka、S.、Mirjalili、V. Python 機械学習。 (Packt Publishing Ltd、第 3 版、2019 年)。

Sheng、VS、Provost、F.、Ipeirotis、PG 別のラベルを入手しますか? 複数のノイズの多いラベラーを使用してデータ品質とデータ マイニングを改善します。 知識発見とデータ マイニングに関する ACM SIGKDD 国際会議の議事録、614 ~ 622、(2008)。

Snow, R.、O'Connor, B.、Jurafsky, D. & Yg, AY 安くて速い — しかし、それは良いことなのでしょうか? 自然言語タスクに対する専門家以外のアノテーションの評価。 自然言語処理における経験的手法に関する 2008 年の会議の議事録 (EMNLP 2008)。 254–263 (2008)。

Yang, H.、Mityagin, A.、Svore, KM、Markov, S. 高品質の重複ラベルを低コストで収集します。 情報検索の研究開発に関する第 33 回国際 ACM SIGIR 会議の議事録 (SIGIR 2010)。 459–466 (2010)。

Nettleton, DF & Muñiz, J. 人工知能アプローチによる睡眠時無呼吸診断のためのメタデータの処理と表現。 内部。 J.Med. 知らせる。 63、77–89 (2001)。

論文 CAS PubMed Google Scholar

Welinder, P.、Branson, S.、Perona, P.、Belongie, S. 群衆の多次元の知恵。 手順第23回国際会議神経情報プロセス。 システム。 2、2424–2432 (2010)。

Google スカラー

ネトルトン、DF & ヘルナンデス、L. In Proc. ワークショップ: 医学および薬理学におけるインテリジェントなデータ分析、IDAMAP。 91-102。

フェルッチ、D. et al. Watson の構築: DeepQA プロジェクトの概要。 AIマガジン。 31、59–79 (2010)。

Craw, S.、Sleeman, D. 知識ベースのシステムの改良の自動化。 ECCAI-90 の議事録、167 ~ 172 (1990)。

Sim, M. 重症疾患における新しいインテリジェントスコアリングシステムの開発と応用 (グラスゴー大学、2015)。

Vincent, JL 臓器の機能不全/不全を説明する SOFA (敗血症関連臓器不全評価) スコア。 欧州集中治療医学会の敗血症関連問題に関する作業部会を代表して。 集中治療医学。 22、707–710 (1996)。

論文 CAS PubMed Google Scholar

Collins、GS、Reitsma、JB、Altman、DG & Moons、KGM 個人の予後または診断のための多変数予測モデルの透明性のあるレポート (TRIPOD): TRIPOD ステートメント。 Br. J.Surg. 102、148–158 (2015)。

論文 CAS PubMed Google Scholar

Steyerberg, EW & Vergouwe, Y. より優れた臨床予測モデルに向けて: 開発の 7 つのステップと検証の ABCD。 ユーロ。 Heart J. 35、1925–1931 (2014)。

記事 PubMed PubMed Central Google Scholar

Rivera, SC、Liu, X.、Chan, A.、Denniston, AK & Calvert, MJ 人工知能を伴う介入のための臨床試験プロトコルのガイドライン: SPIRIT-AI 拡張。 ナット。 医学。 26、1351–1363 (2020)。

記事 Google Scholar

Luo, W. et al. 生物医学研究における機械学習予測モデルの開発と報告に関するガイドライン: 学際的な視点。 J.Med. インターネット解像度 18、323 (2016)。

記事 Google Scholar

Steyerberg, EW および Harrell, FE Jr 予測モデルには、適切な内部、内部 - 外部、および外部の検証が必要です。 J.クリン. エピデミオール。 69、245–247 (2016)。

論文 PubMed Google Scholar

Altman, DG & Royston, P. 予後モデルを検証するとはどういう意味ですか? 統計医学。 19、453–473 (2000)。

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5">論文 CAS PubMed Google Scholar

ブリーカー、SE et al. 予測研究には外部検証が必要です: 臨床例。 J.クリン. エピデミオール。 56、826–832 (2003)。

論文 CAS PubMed Google Scholar

コリンズ、GSら。 多変数予測モデルの外部検証 - 方法論的な実施と報告の体系的なレビュー。 BMC医学。 解像度メソドール。 14 https://doi.org/10.1186/1471-2288-14-40。 (2014年)。

シオンティス、GC et al. 新しいリスク予測モデルの外部検証はまれであり、予後識別の悪化が明らかになります。 J.クリン. エピデミオール。 68、25–34 (2015)。

論文 PubMed Google Scholar

Faltys、M.ら。 HiRID、高時間解像度の ICU データセット (バージョン 1.1.1)。 生理。 ネット。 https://doi.org/10.13026/nkwc-js72 (2021)。

ゴールドバーガー、A.ら。 PhysioBank、PhysioToolkit、および PhysioNet: 複雑な生理学的信号に関する新しい研究リソースのコンポーネント。 回覧 101、215–220 (2000)。

記事 Google Scholar

ジョンソン、AEWほか MIMIC-III (v.1.4)、自由にアクセスできる救命救急データベース。 科学的データ。 https://doi.org/10.1038/sdata.2016.35。 (2016年)。

ペドレゴサ、F.ら。 Scikit-learn: Python での機械学習。 J.マッハ。 学ぶ。 解像度 12、2825–2830 (2011)。

Google スカラー

Seabold, S.、Perktold, J. Statsmodels: Python を使用した計量経済および統計モデリング。 第 9 回 Python in Science カンファレンス (2010 年)。

Perry、T. SimpleDorff - データフレーム上でクリッペンドルフのアルファを計算する、 (2020)。

Zapf, A.、Castell, S.、Morawietz, L.、Karch, A. 名目データの評価者間信頼性の測定 - どの係数と信頼区間が適切ですか? BMC医学。 解像度メソドール。 16 https://doi.org/10.1186/s12874-016-0200-9 (2016)。

リファレンスをダウンロードする

このペーパーで説明する分析の重要な部分を形成する一連のインスタンスに注釈を付けてくれた QEUH のコンサルタント全員に感謝します。 また、ヒュー モンゴメリー教授 (UCL 医科学部) との有益な議論にも感謝します。 HW は Medical Research Council (MR/S004149/1、MR/S004149/2) によってサポートされています。 国立衛生研究所 (NIHR202639); ブリティッシュ・カウンシル (UCL-NMU-SEU 医療における人工知能に関する国際協力: 低い一般化可能性と健康格差の課題への取り組み); ようこそトラストITPA (PIII0054/005); アラン・チューリング研究所、ロンドン、英国。 HW はこの論文の責任著者であり、UCL、ロンドン、ガワー ストリート、WC1E 6BT に拠点を置き、電子メールで連絡可能です: [email protected]

健康情報学研究所、ユニバーシティ・カレッジ・ロンドン、ロンドン、英国

シロリーパヴァン & ホンハン・ウー

アバディーン大学自然計算科学部、アバディーン、スコットランド、英国

デレク・スリーマン

アラン・チューリング研究所、ロンドン、イギリス

ウー・ホンハン

グラスゴー大学医学部、看護学部、歯学部、アバディーン、スコットランド、英国

マルコム・シム

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

AS は文献を検討し、データの前処理、分析を実施し、原稿を作成しました。 DS と HW は、プロジェクトの発案と設計、プロジェクトの監督、および原稿執筆に貢献しました。 MS は臨床的観点から研究デザインに貢献しました。

呉ホンハン氏への対応。

著者らは競合する利害関係を宣言していません。

この方法は、関連するガイドラインおよび規制に従って実行され、ユニバーシティ・カレッジ・ロンドン研究倫理委員会によって承認されました。 (完全に匿名化された) QEUH ICU、MIMIC-III、および HiRID データセットを使用する許可がデータ管理者によって与えられました。 この研究では個人データは処理されませんでした。 QEUH データセットに注釈を付けたコンサルタントは、匿名のコード名を使用して特定されました。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Sylolypavan、A.、Sleeman、D.、Wu、H. 他。 一貫性のない人間による注釈が AI 主導の臨床意思決定に与える影響。 npj 数字。 医学。 6、26 (2023)。 https://doi.org/10.1038/s41746-023-00773-3

引用をダウンロード

受信日: 2022 年 8 月 7 日

受理日: 2023 年 2 月 7 日

公開日: 2023 年 2 月 21 日

DOI: https://doi.org/10.1038/s41746-023-00773-3

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

共有