應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

談?wù)勅斯ぶ悄芘c數(shù)據(jù)治理:我們的系統(tǒng)為誰而建?(下)

2019-04-08 09:32 e醫(yī)療

導(dǎo)讀:在真實的場景下,NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用,由于準確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。

AI+大健康;AI+醫(yī)療;人工智能,NLP


【編者按】在真實的場景下,NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用,由于準確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。

本文發(fā)于e醫(yī)療,作者:孫立峰;經(jīng)億歐大健康編輯,供行業(yè)人士參考。


自然語言處理(Natural Language Processing,NLP),是指人與計算機之間,通過“說人話式”語言進行有效通信的各種技術(shù)和方法。由于語言的復(fù)雜性,處理的過程會涉及“理解”,因此NLP被認為距離人工智能最近的任務(wù),也被稱為“人工智能的皇冠”。

畢竟我們“人說人話”有時候都很難,更別說計算機了。

從臨床科研平臺信息化建設(shè)的發(fā)展歷程看,要想解決數(shù)據(jù)的完整性,就要通過ETL對多源多模態(tài)的數(shù)據(jù)進行整合,也即整合不同廠商的DB,而且有些因為更換系統(tǒng)原廠商已經(jīng)不再為醫(yī)院提供服務(wù)。一家醫(yī)院可能主流的數(shù)據(jù)庫ORACLE、SQLSERVER、MYSQL、DB2都有在用,市面上還有后關(guān)系型數(shù)據(jù)庫Caché。更換系統(tǒng)后,解決數(shù)據(jù)完整性的問題,需要對歷史數(shù)據(jù)、生產(chǎn)數(shù)據(jù)全面整合。這也是為什么醫(yī)療公司的程序員們越來越吃香,被數(shù)據(jù)治理AI公司招攬得越來越多,到甲方工作的也越來越多——需求擺在那里,甲方給的待遇也越來越高了。

數(shù)據(jù)完整性的解決,也是為數(shù)據(jù)倉庫生成高質(zhì)量后結(jié)構(gòu)化數(shù)據(jù)的過程,NLP就是在這個過程中發(fā)揮作用,通過拆解語義元素分詞(區(qū)分魚和蝦),命名實體識別(確定這條是魚,那支是蝦),句法分析,語法分析,解決數(shù)據(jù)結(jié)構(gòu)化問題;然后通過術(shù)語網(wǎng)絡(luò),將數(shù)據(jù)標準化、歸一化,解決數(shù)據(jù)標準化(魚是魚、蝦是蝦)問題。通過醫(yī)學(xué)知識圖譜的關(guān)聯(lián)和推理,解決基于醫(yī)學(xué)知識的推斷問題,構(gòu)建患者畫像,在科研應(yīng)用、輔助診療、真實世界研究等方面才能深度應(yīng)用。

數(shù)據(jù)的結(jié)構(gòu)化是怎樣煉成的

(1)分詞

對于機器學(xué)習(xí)來說分詞本質(zhì)上是一個分類問題,例如:武漢市長江大橋,機器可以理解為:武漢_市長_江_大橋,武漢市_長江_大橋等等,機器會判斷一個字在一句句子中是作為詞的起始字(B),詞的中間字(I),詞的結(jié)尾字(E),還是一個單字詞(S),這樣就需要對文本進行標注,通過機器學(xué)習(xí)算法預(yù)測某些上下文的時候,判斷某個字作為BIES四個類別中哪一個概率最高,最后通過BIES的識別完成分詞。

(2)詞性與關(guān)聯(lián)識別

一句檢查報告的放射學(xué)表現(xiàn):右側(cè)脛骨髁間突骨端邊緣見骨質(zhì)增生變尖,關(guān)節(jié)在位、關(guān)節(jié)間隙未見狹窄,未見骨質(zhì)破壞及異常軟組織影。

我們要知道“右側(cè)”是方位,“脛骨髁間突”是身體結(jié)構(gòu),“骨端”、“邊緣”是局部位置,“增生”、“變尖”是描述;我們要知道“右側(cè)+脛骨髁間突”是身體結(jié)構(gòu)方位的限定,“骨質(zhì)+增生”是身體結(jié)構(gòu)的變化。

命名實體識別(NER)就是從文中識別出命名性指稱項,屬于什么實體類別:疾病、檢查、治療、指標、癥狀、身體部位……

命名實體關(guān)聯(lián)提?。∟ERE)就是對上一步得到的命名實體進行處理,把存在關(guān)系的部分用關(guān)系類別(包括:限定關(guān)系、修訂關(guān)系、因果關(guān)系……)將他們聯(lián)系起來,然后進行語義依存分析。

術(shù)語標準化與知識圖譜

標準的應(yīng)用是很難的一件事情,比如ICD-10。最早是病案科(室)專業(yè)的編碼員去編碼,隨著電子病歷的推廣,有些醫(yī)院前移到臨床醫(yī)生填寫、編碼員審核,有些公司CIS系統(tǒng)還開發(fā)了俗名診斷與ICD編碼的映射關(guān)聯(lián)。

如醫(yī)生可能寫:二型糖尿病、II型糖尿病、2型糖尿病、非胰島素依賴糖尿病,系統(tǒng)都自動關(guān)聯(lián)到E11.952這個ICD編碼,但這各對照工作費事費力也會存在遺漏與偏差。這就需要術(shù)語標準化將數(shù)據(jù)歸一化。

同時我們還想知道糖尿病是內(nèi)分泌疾病,糖尿病是代謝性疾病,糖尿病是胰島功能紊亂,這就需要構(gòu)建強大的術(shù)語網(wǎng)絡(luò)建立知識圖譜。

術(shù)語集如疾病庫和臨床發(fā)現(xiàn)庫基于SNOMED-CT、MedDRA、ICD-10、ICD-9-CM-3、RadLex、CMeSH,如藥品和檢驗庫,基于CFDA藥物信息和LOINC,同時還需要儲備大量的術(shù)語資源庫,將各術(shù)語庫內(nèi)部關(guān)聯(lián),根據(jù)分類、邏輯以及臨床習(xí)慣分類,如影像與疾病庫的關(guān)聯(lián)、檢驗庫與疾病庫的關(guān)聯(lián)等等。

利用自然語言處理、術(shù)語標準化、醫(yī)學(xué)知識圖譜三大核心技術(shù),解決醫(yī)學(xué)數(shù)據(jù)完整性、醫(yī)療數(shù)據(jù)標準化、醫(yī)學(xué)與算法融合的三大醫(yī)療數(shù)據(jù)利用的核心問題。這樣,高質(zhì)量的數(shù)據(jù)就可以深度應(yīng)用。

如智能檢索?;谧匀徽Z言處理引擎結(jié)構(gòu)化和標準化以后的后臺數(shù)據(jù)進行搜索,因此能處理同一概念不同表述形式、否認、指代等關(guān)系,以及對某一報告中數(shù)值型變量進行搜索,這些功能通過常規(guī)搜索方案是完全無法實現(xiàn)的。

例如“先天性心臟病”的搜索,同上面“非胰島素依賴糖尿病”的例子一樣,除了能檢索到使用“先心病”、“先天心臟畸形”、“先天性心臟異常”等不規(guī)范書寫診斷進行表述的患者,也能搜索所有屬于“先天性心臟病”的子概念,例如“室間隔缺損”、“完全性大動脈轉(zhuǎn)位”、“雙心室”等,極大的強化了查全率。

再以上面講的ICD編碼為例,理想的ICD自動化編碼,至少需要從病案首頁、出院小結(jié)、病理報告和手術(shù)記錄四種文本源中尋找編碼依據(jù),并按照符合ICD_10的標準編碼規(guī)范邏輯進行診斷信息編碼。因此,一個NLP自動化編碼不但需要對文本信息抽取,還需要對知識和邏輯進行管理,最終整合產(chǎn)生輸出。

有多少人工,就有多少智能

上面說了百度NLP在鑒黃語言的應(yīng)用,百度和騰訊都有AI開放平臺,開放的技術(shù)引擎有:OCR(在醫(yī)療應(yīng)用的如身份證OCR、手寫病歷OCR等)、人臉識別(身份驗證、醫(yī)保刷臉支付等)、圖片識別、自然語言處理等。

為什么BAT免費開放NLP技術(shù)引擎,還會涌出這么多專注于NLP的醫(yī)療公司呢?這就是一般NLP和醫(yī)學(xué)NLP的區(qū)別。醫(yī)學(xué)語言的溝通本身除了涉及大量的醫(yī)學(xué)術(shù)語、縮略語、簡稱,還涉及醫(yī)學(xué)知識和邏輯,因此很多時候醫(yī)生書寫的內(nèi)容,不是專業(yè)人士可能幾乎看不懂,更不用說計算機了。

為了實現(xiàn)利用NLP進行信息抽取,需要在常規(guī)NLP流程的每一個步驟進行針對醫(yī)學(xué)的調(diào)整。需要處理醫(yī)學(xué)的詞、醫(yī)學(xué)的句子、醫(yī)學(xué)的詞與詞之間的關(guān)系,讓計算機沿著醫(yī)學(xué)邏輯推理信息;需要針對全科室病歷、??撇v、專病病歷、檢查報告、病理報告等不同類型文本均衡抽樣,在金標準數(shù)據(jù)集的基礎(chǔ)上進行醫(yī)學(xué)語料訓(xùn)練,各種算法針對不同業(yè)務(wù)場景進行分詞。

決定NLP算法性能的是醫(yī)學(xué)文本標注的“質(zhì)”與“量”?!傲俊庇刹煌臉颖窘鉀Q,同時因為每個人對文本的理解不同,其存在最大的問題就是同一份文本標注的不一致,所以需要一套標準的分層標注流程——分段→分詞→實體分類標注→簡單關(guān)聯(lián)標注→復(fù)雜關(guān)聯(lián)標注→檢查修改→最終標注審核——來解決“質(zhì)”的問題。

當然,“量”也需要有“質(zhì)”的“量”。

病歷不同于一般的自由文本,其中的挑戰(zhàn)就是文中沒有實際指出但隱含的概念,另外中國語言博大精深,臨床敘事中呈現(xiàn)的信息是無結(jié)構(gòu)的、無語法的。所以文本標注體系復(fù)雜,非常依賴醫(yī)學(xué)專業(yè)支持,標注成本極高。一份病歷的標注就需要兼職(醫(yī)學(xué)院即將畢業(yè)的大學(xué)生)、專職(醫(yī)生)多人去完成。

廣為流傳的故事,當年舊金山挖金子的沒賺到錢,賣水的賺了大錢。而一個叫布瑞南的商人,因為要賣鍬,去吆喝金子,最后他的鍬賣出去了,金礦也被開采出來了。所以在如雨后春筍般成立的人工智能公司(“挖金礦”)的背后,催生了一批靠做標注生存的小公司(“賣水”),當然也有公司兼做標注和醫(yī)院聯(lián)合做科研。只是現(xiàn)在的醫(yī)療AI市場,還處于“叫好不叫座”階段,有時還要“羊毛出在狗身上,豬來買單”。

在和醫(yī)院交流的時候,被問到最多的一個問題還是自然語言處理準確率的問題:99%的準確率,那1%是否還需要人為100%再去校驗一次?

由于技術(shù)限制,自由文本機器提取的數(shù)據(jù)肯定存在誤差。是要“準”還是要“全”,要根據(jù)實踐來平衡——如是臨床研究數(shù)據(jù)采集,答案肯定是“是”,因為臨床數(shù)據(jù)的錄入原則上是要接受雙重或多重核查機制的,要的是“準”;如果是智能檢索,系統(tǒng)需要的是縮小人工檢索符合標準的范圍和數(shù)量,需要的是“全”。用機器一次性解決問題的方案目前還不存在。

也就是說,在真實的場景下,NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用,由于準確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。