首页 >> 最新文章

谈谈人工智能与数据治理我们的系统为谁而建下大宇配件

大宇配件    
2020年03月26日

【编者按】在真实的场景下,后的数据业务应用,由于准确率的问题还是需采取“+人工审核”的方式来做到双重保险。

本文发于e医疗,作者:孙立峰;经亿欧大健康编辑,供行业人士参考。

自然语言处理(natural language processing,nlp),是指人与计算机之间,通过“说人话式”语言进行有效通信的各种技术和方法。由于语言的复杂性,处理的过程会涉及“理解”,因此nlp被认为距离人工智能最近的任务,也被称为“人工智能的皇冠”。

毕竟我们“人说人话”有时候都很难,更别说计算机了。

从临床科研平台信息化建设的发展历程看,要想解决数据的完整性,就要通过etl对多源多模态的数据进行整合,也即整合不同厂商的db,而且有些因为更换系统原厂商已经不再为医院提供服务。一家医院可能主流的数据库oracle、sqlserver、mysql、db2都有在用,市面上还有后关系型数据库caché。更换系统后,解决数据完整性的问题,需要对历史数据、生产数据全面整合。这也是为什么医疗公司的程序员们越来越吃香,被数据治理ai公司招揽得越来越多,到甲方工作的也越来越多——需求摆在那里,甲方给的待遇也越来越高了。

数据完整性的解决,也是为数据仓库生成高质量后结构化数据的过程,nlp就是在这个过程中发挥作用,通过拆解语义元素分词(区分鱼和虾),命名实体识别(确定这条是鱼,那支是虾),句法分析,语法分析,解决数据结构化问题;然后通过术语网络,将数据标准化、归一化,解决数据标准化(鱼是鱼、虾是虾)问题。通过医学知识图谱的关联和推理,解决基于医学知识的推断问题,构建患者画像,在科研应用、辅助诊疗、真实世界研究等方面才能深度应用。

数据的结构化是怎样炼成的

(1)分词

对于机器学习来说分词本质上是一个分类问题,例如:武汉市长江大桥,机器可以理解为:武汉_市长_江_大桥,武汉市_长江_大桥等等,机器会判断一个字在一句句子中是作为词的起始字(b),词的中间字(i),词的结尾字(e),还是一个单字词(s),这样就需要对文本进行标注,通过机器学习算法预测某些上下文的时候,判断某个字作为bies四个类别中哪一个概率最高,最后通过bies的识别完成分词。

(2)词性与关联识别

一句检查报告的放射学表现:右侧胫骨髁间突骨端边缘见骨质增生变尖,关节在位、关节间隙未见狭窄,未见骨质破坏及异常软组织影。

我们要知道“右侧”是方位,“胫骨髁间突”是身体结构,“骨端”、“边缘”是局部位置,“增生”、“变尖”是描述;我们要知道“右侧+胫骨髁间突”是身体结构方位的限定,“骨质+增生”是身体结构的变化。

命名实体识别(ner)就是从文中识别出命名性指称项,属于什么实体类别:疾病、检查、治疗、指标、症状、身体部位……

命名实体关联提取(nere)就是对上一步得到的命名实体进行处理,把存在关系的部分用关系类别(包括:限定关系、修订关系、因果关系……)将他们联系起来,然后进行语义依存分析。

术语标准化与知识图谱

标准的应用是很难的一件事情,比如icd-10。最早是病案科(室)专业的编码员去编码,随着电子病历的推广,有些医院前移到临床医生填写、编码员审核,有些公司cis系统还开发了俗名诊断与icd编码的映射关联。

如医生可能写:二型糖尿病、ii型糖尿病、2型糖尿病、非胰岛素依赖糖尿病,系统都自动关联到e11.952这个icd编码,但这各对照工作费事费力也会存在遗漏与偏差。这就需要术语标准化将数据归一化。

同时我们还想知道糖尿病是内分泌疾病,糖尿病是代谢性疾病,糖尿病是胰岛功能紊乱,这就需要构建强大的术语网络建立知识图谱。

术语集如疾病库和临床发现库基于snomed-ct、meddra、icd-10、icd-9-cm-3、radlex、cmesh,如药品和检验库,基于cfda药物信息和loinc,同时还需要储备大量的术语资源库,将各术语库内部关联,根据分类、逻辑以及临床习惯分类,如影像与疾病库的关联、检验库与疾病库的关联等等。

利用自然语言处理、术语标准化、医学知识图谱三大核心技术,解决医学数据完整性、医疗数据标准化、医学与算法融合的三大医疗数据利用的核心问题。这样,高质量的数据就可以深度应用。

如智能检索。基于自然语言处理引擎结构化和标准化以后的后台数据进行搜索,因此能处理同一概念不同表述形式、否认、指代等关系,以及对某一报告中数值型变量进行搜索,这些功能通过常规搜索方案是完全无法实现的。

例如“先天性心脏病”的搜索,同上面“非胰岛素依赖糖尿病”的例子一样,除了能检索到使用“先心病”、“先天心脏畸形”、“先天性心脏异常”等不规范书写诊断进行表述的患者,也能搜索所有属于“先天性心脏病”的子概念,例如“室间隔缺损”、“完全性大动脉转位”、“双心室”等,极大的强化了查全率。

再以上面讲的icd编码为例,理想的icd自动化编码,至少需要从病案首页、出院小结、病理报告和手术记录四种文本源中寻找编码依据,并按照符合icd_10的标准编码规范逻辑进行诊断信息编码。因此,一个nlp自动化编码不但需要对文本信息抽取,还需要对知识和逻辑进行管理,最终整合产生输出。

有多少人工,就有多少智能

上面说了百度nlp在鉴黄语言的应用,百度和腾讯都有ai开放平台,开放的技术引擎有:ocr(在医疗应用的如身份证ocr、手写病历ocr等)、人脸识别(身份验证、医保刷脸支付等)、图片识别、自然语言处理等。

为什么bat免费开放nlp技术引擎,还会涌出这么多专注于nlp的医疗公司呢?这就是一般nlp和医学nlp的区别。医学语言的沟通本身除了涉及大量的医学术语、缩略语、简称,还涉及医学知识和逻辑,因此很多时候医生书写的内容,不是专业人士可能几乎看不懂,更不用说计算机了。

为了实现利用nlp进行信息抽取,需要在常规nlp流程的每一个步骤进行针对医学的调整。需要处理医学的词、医学的句子、医学的词与词之间的关系,让计算机沿着医学逻辑推理信息;需要针对全科室病历、专科病历、专病病历、检查报告、病理报告等不同类型文本均衡抽样,在金标准数据集的基础上进行医学语料训练,各种算法针对不同业务场景进行分词。

决定nlp算法性能的是医学文本标注的“质”与“量”。“量”由不同的样本解决,同时因为每个人对文本的理解不同,其存在最大的问题就是同一份文本标注的不一致,所以需要一套标准的分层标注流程——分段→分词→实体分类标注→简单关联标注→复杂关联标注→检查修改→最终标注审核——来解决“质”的问题。

当然,“量”也需要有“质”的“量”。

病历不同于一般的自由文本,其中的挑战就是文中没有实际指出但隐含的概念,另外中国语言博大精深,临床叙事中呈现的信息是无结构的、无语法的。所以文本标注体系复杂,非常依赖医学专业支持,标注成本极高。一份病历的标注就需要兼职(医学院即将毕业的大学生)、专职(医生)多人去完成。

广为流传的故事,当年旧金山挖金子的没赚到钱,卖水的赚了大钱。而一个叫布瑞南的商人,因为要卖锹,去吆喝金子,最后他的锹卖出去了,金矿也被开采出来了。所以在如雨后春笋般成立的人工智能公司(“挖金矿”)的背后,催生了一批靠做标注生存的小公司(“卖水”),当然也有公司兼做标注和医院联合做科研。只是现在的医疗ai市场,还处于“叫好不叫座”阶段,有时还要“羊毛出在狗身上,猪来买单”。

在和医院交流的时候,被问到最多的一个问题还是自然语言处理准确率的问题:99%的准确率,那1%是否还需要人为100%再去校验一次?

由于技术限制,自由文本机器提取的数据肯定存在误差。是要“准”还是要“全”,要根据实践来平衡——如是临床研究数据采集,答案肯定是“是”,因为临床数据的录入原则上是要接受双重或多重核查机制的,要的是“准”;如果是智能检索,系统需要的是缩小人工检索符合标准的范围和数量,需要的是“全”。用机器一次性解决问题的方案目前还不存在。

也就是说,在真实的场景下,nlp后的数据业务应用,由于准确率的问题还是需采取“人工智能+人工审核”的方式来做到双重保险。

随着《“健康中国2030”规划纲要》的发布和医改政策纵深发展,我国医疗服务行业也正迎来一个新的升级阶段,即是从“规模”向“价值”的变革。医疗产业与新技术逐渐融合,单纯“走量”的医疗项目不再是投资首选,大量“伪需求”将在消费者“用脚投票”下出局……如何能够转危为安,借力打力,最终在资本寒冬后的2019脱颖而出?

2019年7月25日-27日,亿欧大健康将主办,峰会以“雁栖健谈——从【规模】到【价值】的医疗变革”为主题,围绕医疗大数据、医药创新、非公医疗和科技医疗四大细分领域的市场环境、投资热点和产业变革等话题展开探讨。与此同时,亿欧大健康将会在3月-4月陆续举办:、、、。欢迎大家关注!

活动报名链接:

安翰科技聚焦消化道系统健康,依托涉及精准磁控、专用芯片、、智能制造、微光学成像、图像处理、无线传输等多个技术领域的新一代胶囊技术平台,主营“磁控胶囊胃镜系统”机器人的自主研发、生产、销售及服务。安翰科技是全球首家获得cfda核发的“磁控胶囊胃镜系统”三类医疗器械注册证的公司。

科前生物

科前生物成立于2001年,是一家专注于兽用生物制品研发、生产、销售及动物防疫技术服务的生物医药企业,其主要产品是猪用疫苗和禽用疫苗。2017年,科前生物在国内非国家强制免疫兽用生物制品市场销售收入排名第二、在非国家强制免疫猪用生物制品市场销售收入排名第一,并分别于2011年、2016年荣获国家科学技术进步奖二等奖。

南微医学

南微医学成立于2000年5月10日,注册资本1亿元,于2015年12月22日挂牌新三板,后于2016年6月14日从新三板摘牌。南微医学主要从事微创医疗器械研发、制造和销售,目前有内镜诊疗、肿瘤消融、光学相干断层扫描成像(oct)等三大技术平台。其主要产品包括内镜下微创诊疗器械、肿瘤消融设备两大系列。南微医学新研发的内镜式光学相干断层扫描系统(eoct)已获得美国fda批准,在国内该产品已进入国家药监局创新医疗器械审批绿色通道。

海尔生物

海尔生物主要为生物样本库、血液安全、疫苗安全、药品及试剂安全等场景提供低温存储解决方案。海尔生物可以提供覆盖-196℃至8℃全温度范围内的生物医疗低温存储产品,主要收入为低温存储设备销售。同时,海尔生物还率先进行物联网技术融合创新,致力于围绕以上场景的痛点,提供物联网生物科技综合解决方案。

赛诺医疗

2007年9月,赛诺医疗在天津经济技术开发区创立,2018年6月整体变更为股份公司,注册资本为3.6亿元。其主要从事高端介入医疗器械研发、生产、销售。目前,赛诺医疗上市的产品包括冠状动脉支架系统和球囊扩张导管两大类,其中支架系统是其重点发展领域。

贝斯达

贝斯达创立于2000年,是一家集大型医学影像诊断设备研发、制造、销售和服务为一体的专业制造商。其产品包括磁共振成像系统、医用x射线设备、彩色超声诊断系统、核医学设备、医疗信息化软件等五大系列近四十款产品,主要应用于各级医疗卫生机构的临床诊断。

热景生物

热景生物是一家从事研发、生产和销售体外诊断试剂及仪器的生物高新技术企业,主要产品为体外诊断试剂及仪器,主要应用于肝癌肝炎、心脑血管疾病、炎症感染等临床医学领域和生物安全、食品安全、疾控应急等公共安全领域。热景生物的核心技术是上转发光技术、糖捕获技术、磁微粒化学发光技术、基因重组及单克隆抗体技术等。

苑东生物

苑东生物是一家以化学原料药和化学药制剂的医药企业,已成功实现16个化学药制剂产品和11个化学原料药产品的产业化,产品主要涵盖抗肿瘤、心血管、消化、麻醉镇痛、儿童用药等重点领域,已具备注射液、冻干粉针剂、片剂、胶囊剂等多种剂型和化学原料药生产能力,并已布局生物药领域。

申联生物

申联生物成立于2001年,注册资金3.60亿元,是国内第一家合成肽疫苗生产企业。其目前已获得国家专利40项,涉及产品研发、生产工艺,设备改进,产品设计等多层面,致力打造创新型疫苗生产线。此前,申联生物获批国内第一个国内第一个猪口蹄疫o型、a型二价合成肽疫苗新兽药注册证书。

微芯生物

微芯生物成立于2001年,专注于小分子药物的原创研发。微芯生物主要从事小分子创新药物的研发,其核心技术是基于化学基因组学的集成式药物创新和早期评价体系。化学基因组学技术利用大量已知的基因表达数据及其功能意义分析,通过对各种已知化合物及新化合物对全基因表达的影响进行相关性研究,对化合物可能的分子药理和毒理进行评价和预测,不断优化候选化合物结构,使综合评价指标最好的先导化合物进入下一个阶段的开发,从而降低新药开发风险。

特宝生物

特宝生物成立于1996年8月,是一家主要从事重组蛋白质及其长效修饰药物研发、生产及销售的国家创新型生物医药企业。成立至今,特宝生物共计承担了9项“重大新药创制”国家科技重大专项,5个聚乙二醇蛋白质长效药物获准开展临床研究。目前,特宝生物已开发完成4个治疗用生物技术产品派格宾、特尔立、特尔津、特尔康,用于病毒性肝炎、恶性肿瘤等疾病的治疗。

美迪西

美迪西生物是一家生物医药临床前综合研发服务cro公司,主要为医药企业和其他新药研发机构的新药研发提供包括药物探索与发现、药学研究及临床前研究全方位服务。美迪西自2015年以来,参与完成的新药及仿制药项目已有超过50个通过nmpa批准进入i期临床试验。同时,美迪西参与研发完成的多个新药项目通过美国fda、澳大利亚药品管理局的审批进入临床i期试验。

随着《“健康中国2030”规划纲要》的发布和医改政策纵深发展,我国医疗服务行业也正迎来一个新的升级阶段,即是从“规模”向“价值”的变革。医疗产业与新技术逐渐融合,单纯“走量”的医疗项目不再是投资首选,大量“伪需求”将在消费者“用脚投票”下出局……如何能够转危为安,借力打力,最终在资本寒冬后的2019脱颖而出?

2019年7月25日-27日,亿欧大健康将主办,峰会以“雁栖健谈——从【规模】到【价值】的医疗变革”为主题,围绕医疗大数据、医药创新、非公医疗和科技医疗四大细分领域的市场环境、投资热点和产业变革等话题展开探讨。与此同时,亿欧大健康将会在3月-4月陆续举办:、、、。欢迎大家关注!

活动报名链接:

版权声明

本文来源亿欧,经亿欧授权发布,版权归原作者所有。转载或内容合作请点击转载说明,违规转载法律必究。

猪八戒

紧身美女

小说区校园春色

姐弟

相关阅读
【消息】钢企去库存压力不减存货总额为净利润43倍激光加工

钢企去库存压力不减 存货总额为净利润43倍在中期报告中,企业不约而同地用...

2020-11-25
【消息】钢市节后迎来开门红基建对库存消化明显木质线材

钢市节后迎来开门红 基建对库存消化明显5月2日,国内钢材市场普遍拉涨,螺...

2020-11-25
【消息】钢材库存攀升中国钢企提价难烫画机

钢材库存攀升 中国钢企提价难近日,印度政府正式宣布,对该国铁矿石粉矿...

2020-11-25
【消息】钢材冬储成本创新高信贷松紧定规模1锁紧螺母

钢材“冬储”成本创新高 信贷松紧定规模12月14日,数据显示,钢价指数保持...

2020-11-25
【消息】钢材库存再创新高钢厂仍暗涨产品出厂价光度计

钢材库存再创新高 钢厂仍暗涨产品出厂价受央票利率走高、上调准备金率,...

2020-11-25
【消息】钢材价格持续攀升季节性回暖态势明确摩配

钢材价格持续攀升 季节性回暖态势明确钢材价格正在持续攀升,库存则连续...

2020-11-25
友情链接