皮膚癌是世界最為常見的癌症之一。在美國,每年約有540萬的皮膚癌被診斷出來。其中一種危險的分類是黑色素瘤(Melanomas),雖然在皮膚癌的案例數中僅僅占了5%,卻構成75%皮膚癌的死亡數。黑色素瘤通常以痣或是雀斑的形式出現在皮膚上,透過觀察來初步診斷,再經由皮膚鏡、組織切片以及更進一步的組織病理檢驗來追蹤。惡性(具侵入性、擴散性)與良性(非侵入性、不太擴散)的病灶因為具有許多共同特徵,常常難以區分彼此的差別。起初,電腦輔助皮膚癌分期被應用在一些標準化的作業,像是皮膚鏡與影像分類中,然而,由於皮膚病灶的呈現形式太多樣、資料庫太小,電腦輔助分期在臨床決策上的角色還是很有限。
史丹福大學研究團隊發表在《自然》期刊上的研究成果,正是運用「卷積神經網路」(convolutional neural networks, CNN)這種電腦運算功能,來檢驗人工智慧是否能被訓練出區分一般皮膚病灶與皮膚癌病變的功能。研究團隊用747種皮膚疾病分類的照片訓練 GoogleNet Inception V3 這種人工神經網路。每種疾病的分類被整理成樹狀分類結構,總共有2,032種皮膚病。
這些影像來自18個線上專業資料庫與史丹福大學醫學中心資料庫,而且皆含有皮膚科醫師標記。研究人員拿127,463張訓練與驗證用影像,以及1,942張已受過切片確診的良性或惡性皮膚病灶影像來進行研究。黑色素瘤的標準影像與皮膚鏡照片被用來模擬皮膚專科醫師習得視覺印象的過程。為了視覺資訊的完整性,研究者設計了一套演算法讓卷積神經網路可以學習並為相似的皮膚疾病進行更為詳盡的分類。
研究者在一開始時進行了兩次驗證測驗,來評估卷積神經網路的能力。一個是用來測試以三樣疾病分類(three-class disease partition test)劃出良性、惡性、腫瘤性的演算法管不管用,第二是用來測試九樣疾病分類(nine-class disease partition test),讓卷積神經網路可以學習各類的疾病以及其中治療計劃的相似處。最後,用來測試卷積神經網路的敏感性與特異性,看它與21位國考認證的皮膚專科醫師在區分一般皮膚病灶與惡性皮膚病灶上的能力是否有差距。
測驗的結果滿有趣的。研究者發現第一個驗證的結果,卷積神經網路達到72%的準確度,而兩位皮膚專科醫師的答對率分別為 65.56%與 66.0%。在第二個驗證測驗中,卷積神經網路答對55.4%,而兩位皮膚專科醫師則為53.5%與 55.0%。在最後的測驗,判斷良性惡性、上皮來源或黑色素細胞來源的準確度方面,卷積神經網路在平均表現上鸁過皮膚專科醫生。
更甚者,研究者發現卷積神經網路學習到了不同影像中的內部特性,並利用這些細節將它們分類為四大類。這些結果顯示出卷積神經網路可以幫助皮膚科醫師在更為艱難的案例中進行診斷。總括來說,研究者認為人工智慧在區分良性與惡性方面的能力堪比皮膚專科醫師。即使這研究顯示出人工智慧的診斷能力,仍需要更進一步的研究來釐清該系統於臨床現場的應用,以及是否會有其他環境因子的影響。
(本文由科技部補助「新媒體科普傳播實作計畫」執行團隊撰稿)
責任編輯:呂宗學