當前位置:首頁 > 關于訊飛 > 新聞中心 > 訊飛動態 > 正文
關于訊飛

科大訊飛今年第11冠,和每個人的健康息息相關!

發布時間:2018-11-27 來源: 點擊次數: 打印 作者:

字號:

如何快速、精準的檢索到所需的最新研究成果、相關臨床試驗?在個性化的癌癥治療中,面對錯綜復雜的病例和等待新生的病患,醫生們為找到最合適的治療方案,這樣的需求越來越迫切。


“這就涉及到精準醫療領域的文本檢索技術。”


在近日結束的2018年度文本檢索評測會議(2018 TREC)上公布了本年度7個評測成績,清華-訊飛聯合實驗室研發的系統在精準醫療(Precision Medicine,簡稱PM)評測兩個子任務共計六項指標中獲得三項第一,二項第二,總成績居各參賽隊伍之首


這也不僅驗證了深度學習、語義理解技術對于文本檢索領域的重要推動,也是科大訊飛今年摘下的第十一個“世界冠軍”


醫療文獻文本檢索領域的“華山論劍”


在文本檢索領域,TREC是國際權威評測。


這項由美國國防部高等研究計劃署與美國國家標準和技術局聯合主辦的文本檢索評測會議,曾在2014-2016年舉辦了TREC Clinical Decsision Support(CDS,臨床決策支持)評測,評測任務的查詢輸入是從電子病歷提煉出的檢索主題,檢索輸出是病歷相關的疾病診療文獻。2017年升級為Precision Medcine(PM)評測任務,聚焦與癌癥治療相關的文獻檢索。


2018 TREC會議于2018年11月14-16日在美國馬里蘭州舉行(攝影:張瀟)


“這項評測是為了滿足現實醫療中的迫切需求。” 清華-訊飛聯合實驗室主任吳及副教授介紹。現有的文獻搜索引擎有效度往往不高,“因為表達詞匯的不統一,輸入這個關鍵詞、但在文獻中卻是用另外一詞匯來表示,以及同樣的詞匯在不同上下文語境下的含義不同,所以往往檢索不到想要的內容。”


特別在面向惡性腫瘤診療的精準醫療中,相關研究發展日新月異,臨床醫生們更加需要從海量的研究文獻和臨床試驗中檢索相關研究成果,為患者提供最合適的治療方案。


TREC的PM評測任務就是為解決臨床中的現實需求、促進醫療文獻文本檢索技術的發展與交流而設立。自它的前身CDS任務設立以來,梅奧醫學中心(Mayo Clinc)、美國國家醫學圖書館(NLM)等權威醫學機構,以及劍橋大學、蘇黎世聯邦理工學院、日內瓦大學、奧地利格拉茨大學、德國波茲南科技大學、加州大學洛杉磯分校、得克薩斯大學達拉斯分校、特拉華大學、清華大學、復旦大學、哈爾濱工業大學等在醫學自然語言處理領域深耕的實驗室均參與了相關評測。


清華-訊飛聯合實驗室首次亮相摘得總成績第一


2018 TREC PM評測設置了兩項子任務。“直接面向實用,題目就來自癌癥治療中的臨床病例。”吳及介紹,評測的查詢輸入為得克薩斯州立大學、馬里蘭州安德森癌癥中心的腫瘤學專家創建的合成病歷,該病歷作為患者醫療記錄是半結構化文本,描述了患者的癌癥類型、相關的基因變異、年齡性別以及其他可能相關的因素;具體任務分為科學文獻子任務和臨床試驗子任務。


在前者中,參賽團隊需要從MEDLINE/PubMed數據庫生物醫學文獻摘要中,檢索出與給定患者信息相符且與治療相關的文獻。據悉,該數據庫包含了醫學類的權威論文,截至組委會給定的日期,就有2680萬的樣本。后者則需要檢索ClinicalTrials.gov的臨床試驗庫,以幫助患者檢索出有助于其治療的臨床試驗,這其中的樣本有24萬多。


“科學文獻子任務的結果代表了基于現有知識的檢索,臨床試驗子任務的結果則代表了現有療法失效情況下對患者采取試驗療法的可能性。”今年,參加前者的有24支隊伍,后者的參賽隊有21支。



清華-訊飛聯合實驗室團隊合影

自左至右:陳鑫、周學思、吳及、宋健、趙剛



清華-訊飛聯合實驗室此次首次參加TREC PM評測,清華大學電子工程系副系主任、清華訊飛聯合實驗室主任吳及副教授“帶隊”,清華2018年7月電子系2016級博士生周學思,2017級碩士生宋健、陳鑫和聯合實驗室工程師趙剛組隊,研發了參賽系統MSIIP。


該系統一舉拿下三項第一、兩項第二的好成績,隊伍的總成績也居各參賽隊之首。


具體在科學文獻子任務中,MSIIP獲得infNDCG的第一,P@10的第二;在臨床試驗子任務中,獲infNDCG的第二,P@10和R-prec的第一。



化散為整、深度學習,讓機器更懂語義


首次參賽就收獲如何好成績絕招是什么?


吳及介紹,主要得益于參賽團隊將深度學習、知識整合、語義理解技術運用到了文本檢索的方向上,“在檢索時加入語義理解,可以識別有些不同詞匯表達、但相同含義的內容,提升檢索的有效性。”


據悉,該系統有三大特點:


其一,可有針對性地從不同方向的多個知識庫中抽取、提煉有效信息,并將原先零散的信息按需要的方式進行整合,變為有用的知識。


其二,利用基于文本特征的檢索與基于概念序列特征的檢索重排之間的互補性,有效挖掘了蘊含在文本中的信息,找到語義相同、字面可能不同的信息。


此外,還在層次化、多維度的規則框架中有效融合了基于深度神經網絡的PM文獻分類信息,以實現在2680萬多份樣本中讓最合適、最匹配的迅速“脫穎而出”。


“突破了傳統文本檢索的局限,將深度學習放入檢索框架并讓其發揮做作用。”而這也是該團隊自2017年研發“智醫助理”醫考機器人并獲得456分高分之后取得的又一項突破,“讓機器能夠更好的理解語義、詞義,并運用到文本檢索領域。”


可以想象的是,為解決現實剛需應運而生的這一研究方向,也將更好地幫助臨床醫生、從而助力更多人的健康。


關 閉
超内碰视频在线播放