上海大学学报(自然科学版)

当期目录

2016年第22卷第1期刊出日期：2016-02-29

上一期下一期

大数据

走好我们的大数据之路

郭毅可

2016, 22(1): 1-2. doi:10.3969/j.issn.1007-2861.2015.05.016

摘要 ( 630 )

PDF (1502KB) ( 396 )

相关文章 | 多维度评价

我们对大数据的研究正方兴未艾, 国家也把大数据研究与发展作为国家战略.走好我们的大数据之路既是我们今天的事业, 也是我们的责任. 走好大数据之路的关键是要有宽广的战略胸怀, 把大数据真正作为当今社会与经济发展的驱动力, 使我们能够把先进的技术研究和广泛的社会实际应用紧密结合, 直接造福人类.在大数据之路上只有创新, 没有跟随!

面向大数据应用挑战的超级计算机设计

廖湘科, 谭郁松, 卢宇彤, 谢旻, 周恩强, 黄杰

2016, 22(1): 3-16. doi:10.3969/j.issn.1007-2861.2015.03.014

摘要 ( 813 )

PDF (7213KB) ( 604 )

参考文献 | 相关文章 | 多维度评价

在大数据时代, 大数据处理给面向高性能计算设计的超级计算机带来计算、存储、通信、编程等软硬件体系结构方面的挑战. 对此在分析目前主流学术界和工业界相关研究成果的基础上, 介绍了天河二号超级计算机系统针对大数据处理应用所采用的新型异构多态体系结构、自主定制高速互连网络、混合层次式存储系统、混合计算框架等多种优化措施, 为大数据时代的超级计算机设计提供有意义的参考.

精确医学与大数据

郭毅可1,2, 杨氙2

2016, 22(1): 17-27. doi:10.3969/j.issn.1007-2861.2015.05.015

摘要 ( 659 )

PDF (7692KB) ( 433 )

参考文献 | 相关文章 | 多维度评价

为了实现精确医学, 需要采集和分析大量数据来量化每个病人. 首先讨论了从分子层面到链路层面的数据, 同时阐述了使用医疗图像数据的必要性. 不同数据类型虽然需要有不同的预处理方式, 但是在预处理完成后, 通常可以使用通用的方法对这些数据进行分析, 如分类和网络分析. 从研究问题的角度讨论了多种分别用于解答不同复杂度问题的研究方法. 这些由简单到复杂的问题包括关联性检测、归类分析、构建分类器、获得网络连接和动态模型构建.

大规模数据集聚类的K邻近均匀抽样数据预处理算法

吉成恒, 雷咏梅

2016, 22(1): 28-35. doi:10.3969/j.issn.1007-2861.2015.04.020

摘要 ( 793 )

PDF (5144KB) ( 301 )

参考文献 | 相关文章 | 多维度评价

为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.

一种上下文感知的E-commerce评级大数据赋权方法

齐连永1,2, 窦万春1, 周毓明1

2016, 22(1): 36-44. doi:10.3969/j.issn.1007-2861.2015.04.021

摘要 ( 681 )

PDF (5274KB) ( 284 )

参考文献 | 相关文章 | 多维度评价

电子商务(E-commerce)的飞速发展, 产生了大量针对商品的在线评级数据, 通过分析评级数据, 用户可以对商品的质量进行评估. 然而, 评级数据的海量性和差异性使得用户难以快速而准确地评估商品的质量. 鉴于此, 提出一种基于E-commerce 评级的上下文感知赋权方法(context-aware weighting approach, CWA), 以选出少数“重要”的评级数据并抛弃大多数“不重要”的评级数据, 从而确保商品质量评估的快速性和准确性. 最后, 通过一组实验验证了CWA 的有效性.

生物大数据中的聚类方法分析

路东方, 许俊富, 项超娟, 谢江

2016, 22(1): 45-57. doi:10.3969/j.issn.1007-2861.2015.04.018

摘要 ( 1203 )

PDF (10758KB) ( 1109 )

参考文献 | 相关文章 | 多维度评价

随着人类基因组计划的实施和完成, 生物实验技术快速发展, 生物数据呈现爆发式增长并不断积累, 生命科学迎来了大数据时代. 在后基因组时代, 单一的统计模式逐渐被智能化与综合分析相结合的方式所取代, 聚类分析便是核心的数据挖掘方式. 描述了生物信息学领域中的大数据现状, 总结基因表达谱分析和生物网络分析中常用的聚类方法, 并对小鼠胚胎成纤维细胞的时间序列数据进行实验对比. 实验结果表明, 不同的聚类方法生成了不同的实验结果, 面临高噪声的生物大数据, 选择或结合合适的聚类方法进行综合分析将有助于获得更可靠的分析结果.

互联网商品匹配算法

顾颀1,2, 朱灿1, 曹健1

2016, 22(1): 58-68. doi:10.3969/j.issn.1007-2861.2015.04.016

摘要 ( 1147 )

PDF (1978KB) ( 746 )

参考文献 | 相关文章 | 多维度评价

实体解析是指识别同一实体的不同描述形式的过程, 旨在保障数据质量, 是数据清理、数据集成及数据挖掘中的关键技术. 随着电子商务的不断发展和成熟, 商品的多样性和消费者灵活的购买方式, 使得对网络商品的精确识别和匹配成为大数据时代亟待解决的问题. 与传统实体解析主要针对结构化数据不同, 网络数据具有非结构化、异构和海量的特性, 为此设计了综合相似度算法(synthesized similarity method, SSM)来计算网络商品数据间的相似度, 同时引入凝聚的层次聚类框架, 以匹配来自不同数据源的异构商品. 此外, 为了解决大数据环境下对执行效率的要求, 从字符串相似度缓存、约束知识库和分块策略三个方面对SSM进行优化, 基于真实数据集的实验结果验证了SSM的执行效率和有效性.

面向大数据应用的多层次混合式并行方法

黄磊1, 支小莉1, 郑圣安2

2016, 22(1): 69-80. doi:10.3969/j.issn.1007-2861.2015.04.017

摘要 ( 713 )

PDF (10032KB) ( 282 )

参考文献 | 相关文章 | 多维度评价

基于很多大数据应用存在对数据进行多种并行处理的需求, 提出两层混合式并行方法, 即执行单元的混合并行和计算模型的混合并行. 通过在同一个计算节点上执行单元的混合并行, 充分挖掘基础设施的计算能力, 从而提高数据处理性能; 采用在同一个执行引擎中集成多个计算模型的并行方法, 以适合应用多样异质处理模式. 不同的混合并行方法可以契合不同的数据和计算特点, 以满足不同的并行目标. 介绍了混合式并行方法的基本思想, 并以前期开发的并行编程模型BSPCloud为基础, 阐述了进程和线程混合并行、BSP和MapReduce混合并行的主要实现机制.

下一代公共安全视频监控系统的大数据分析

颜志国, 徐峥, 梅林, 胡传平

2016, 22(1): 81-87. doi:10.3969/j.issn.1007-2861.2015.04.015

摘要 ( 1052 )

PDF (3242KB) ( 669 )

参考文献 | 相关文章 | 多维度评价

视频监控因其可以提供丰富的、直观的以及精确的信息而成为主要的监控工具. 然而, 随着视频监控系统在世界各地的大规模建设, 由于一些诸如“有用信息和线索不能及时从视频大数据中被发现”的问题, 降低了犯罪预测和公共安全治理的检测效率. 各类公共安全信息系统被用于交通事故治理、犯罪事件和恐怖事件的预测. 但是, 大规模的系统冗余建设导致了“IT 资源”和“信息过载”的巨大浪费. 为了解决上述问题, 如大数据、云计算和虚拟化技术已被广泛应用于公共安全行业. 采用“前+后”的模式, 为下一代公安系统提出了一种新的架构.在该架构下, 介绍了云计算技术如分布式存储和计算、巨大的异构数据的检索, 并且提出了多个优化策略, 提高了资源的利用率和任务的完成效率.

大数据时代的车牌汉字识别

沈文枫, 张建蕾, 周丁倩, 陈圣波, 邱峰

2016, 22(1): 88-96. doi:10.3969/j.issn.1007-2861.2015.04.019

摘要 ( 1010 )

PDF (7518KB) ( 446 )

参考文献 | 相关文章 | 多维度评价

在大数据时代, 交通信息成为网络数据量最大的数据来源之一, 智能交通成为必然需求. 车牌识别是智能交通的基础, 可广泛应用于车库管理、交通监控等工程中, 然而识别的准确率还有待加强, 已有算法对于字母、数字的识别准确率都非常高, 而对于中国特有的汉字识别却效果不佳. 提出用受限玻尔兹曼机组成的深信度网络算法来识别车牌字符, 大大提升了汉字识别的准确率, 使准确率达到99.44%.

基于ε-SVR的用户视听在线人数预测

顾纯栋

2016, 22(1): 97-104. doi:10.3969/j.issn.1007-2861.2015.05.001

摘要 ( 770 )

PDF (6140KB) ( 406 )

参考文献 | 相关文章 | 多维度评价

预测视听在线人数能够帮助厂商提供有价值的信息, 获取更大效益. 从时间序列分析出发, 经过特征调整, 利用支持向量回归对用户视听在线人数进行准确预测. 首先, 对数据进行时间序列分析建模并预测; 然后, 将模型视为线性回归对用户视听在线人数作进一步改进, 结合时间与实际生活中的特征进行调整, 并添加了新的特征; 接着, 对新特征组成的样本进行支持向量回归, 通过社会认知优化寻找径向基函数中的最优参数; 最后, 得到比较理想的预测效果.

在线办公