个性化医疗的预测性分析工具-动脉网

个性化医疗的预测性分析工具

作者：baron 2014-12-15 11:58

{{detail.province}}-{{detail.city}}

融资金额：{{detail.latest_event_amount}}{{detail.latest_amount_unit}}

投资方： · {{item.latest_event_tzf_name}}

企业数据由

提供支持

查看

预测分析，根据百科的解读是一种统计或数据挖掘解决方案，包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。照通俗的说法就是从大数据中挖掘预见性。预测性分析的应用除了在科研领域、商业领域，在医学领域的应用也已大展拳脚，像病人病史、诊断、检验、临床信息、药品管理信息、医院管理信息等，对医学数据进行分析，提取隐含的有价值的信息能够促进医院管理者、健康保险公司等与医学数据连接的一切机构作出明智决策。Rock Health就透过基于大数据的预测分析实现个性化医疗做了报告，动脉网也进行了编译整理，Rock Health报告：从预测性分析走向个性化医疗。

要催生医疗健康领域的预测性少不了海量数据和工具的广泛使用，目前的算法产品主要分为三大类：数据挖掘、数据仓库、大数据平台，本文即挑选了一些比较优秀的开源数据挖掘工具，供大家选择，以及其在医疗健康领域中的应用。

数据挖掘
RapidMiner
是世界领先的数据挖掘解决方案，可运行在大部分操作系统上，它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。特点：有着多层次的数据视图，确保有效和透明的数据；简单的插件和推广机制；强大的可视化引擎，许多尖端的高维数据的可视化建模。

R-Programming
它主要是由C语言和FORTRAN语言编写的，一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘，以及开发统计软件和数据分析中。近年来，易用性和可扩展性也大大提高了R的知名度。除了数据，它还提供统计和制图技术，包括线性和非线性建模，经典的统计测试，时间序列分析、分类、收集等等。

Orange
Orange是一款底层基于C++，并且提供了Python接口的开源数据挖掘工具。与Sklearn，pyml这类数据挖掘包相比，Orange的历史更加悠久，在上面实现的算法也更加丰富，此外，除了以python模块的形式使用之外，Orange还提供了GUI，可以用通过预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作。但是Orange的传统统计分析能力不强，不支持统计检验，报表能力也有限。

Markway（中国）
Markway（马克威）分析系统用于从海量信息和数据中寻找规律和知识，通过数据挖掘和统计分析等技术建立概念模型，为决策者提供科学的决策依据。它是一套集分析、挖掘、预测、决策支持于一体的知识发现工具，适用于企业、政府、科研、教育、军队等单位和机构。将数据挖掘、统计分析、图形展示和智能报表融为一体，为用户提供完整配套的决策支持工具，这在世界上是独一无二的；

数据仓库
Spark
是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。Spark基于MapReduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

GridGain
是内存数据库技术的领先者，一个开源的网格计算框架，专著于提供平行计算能力，能够与JBoss和Spring相集成。GridGain的平台可以使网格上的服务器进行内存数据库操作，它可以进行数据库事务处理以及商业智能操作。在大数据处理方面，它不仅可以支持通过网格化集成来的计算能力，而且支持将内存作为数据的主要存储地，从而可以推动企业向基于内存的应用架构转型。

Sybase IQ
一个高度可扩展的分析型数据库引擎，专门为分析型应用与数据仓库而设计，使数据仓库应用具备卓越的查询性能与最低的总拥有成本。不同于传统数据库主要考虑在线的事务进程的设计，IQ 是专门为分析型（非事务型）而构建的，首先关注的是查询的性能，其垂直存储、专利索引技术以及独特的架构使其成为数据仓库的最佳选择。

大数据平台
Hadoop
一个能够对大量数据进行分布式处理的软件框架，但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。可靠——Hadoop按位存储和处理数据的能力很高；高效——Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快；可伸缩——能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

HPCC
HPCC，High Performance Computing and Communications（高性能计算与通信）的缩写，1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

数据挖掘在医疗健康领域应用的成功案例简介

NeuroMedical 和Vysis 公司都采用基于神经网络的数据挖掘技术分别进行游行流质食物辅助诊断和蛋白质分析；

南加州大学脊椎病医院利用信息发现（Information Discovery）进行医疗数据挖掘；

Angoss 公司开发的KnowledgeSEEKER 和 Belmont 研究机构开发的CrossGraphs 也已经在医疗领域得到了广泛的应用；

GIGNA Healthcare 通过数据挖掘技术来简化医疗管理报告的生成，提高报告的准确度和生成速度，从而帮助公司将投资回报率提高到100-200%；

美国一家健康医疗保险（HCSC）通过数据挖掘技术来提高识别欺诈性的健康医疗索赔的准确性和效率，从而每年能够减少几百万美元的赔付，进而降低投保人的保险费用；

美国Empire Blue Cross公司是美国最大的医疗保险公司，利用数据挖掘技术，1997年共计节省了3850万美元的浮滥理赔支出，同时也根据数据挖掘的模型成功告发了不实开立医疗凭据的医生；

美国HCFA采用了VIS解决方案，开发了SGI MineSet系统，用于实现对医保数据的数据挖掘和数据可视化，主要是为了发现在医疗保险领域中的欺诈和滥用浪费现象。

（想第一时间了解互联网医疗创业信息，请关注动脉网微信公众账号：vcbeat，也欢迎大家就感兴趣的话题与我们互动，或通过微信与我们联系，发布您的相关研究心得）