时 间:2017年11月29日(周三)下午1点30分
地 点:计算机科学与技术学院六楼会议室
题 目:有监督智能聚类与分类技术及其应用研究
摘 要:近几十年来,机器学习技术在聚类、分类、回归等多个知识工程领域取得了重大进展。其中,聚类技术以及分类技术是目前机器学习中的两个重要的研究课题,且被广泛应用于文本分类、语义分析、图像识别等实际应用场景中。然而,随着多媒体技术的迅猛发展,越来越多的新兴应用场景近年来被相继发掘出来。相对于传统的应用场景,对新兴应用场景分析的过程中往往存在着如下问题:1)对于某些传统行业,由于新技术的出现,可能会使收集到的数据大量积累,处理此类积累的大规模数据对传统的机器学习方法提出了挑战。2)对于某些新的或涉密行业,收集到的数据或已知标签的数据较少,这使得经典的机器学习方法在对此类数据进行处理或学习建模时得到的模型往往泛化性能较差。因此,针对新兴应用场景中存在的大规模数据或已标注数据不足的问题,对经典的聚类技术以及分类技术进行研究并改进,融合大规模数据处理技术以及迁移学习技术,以期得到能够解决上述问题的智能有监督聚类和智能分类方法。
个人简介:杭文龙,博士,毕业于江南大学数字媒体学院。先后到香港理工大学、中科院深圳先进技术研究院、上海核工程研究设计院等交流学习。主要研究方向:数据挖掘、迁移学习、深度学习、脑-机交互等。
题 目:数据预处理在软件缺陷预测中的应用研究
摘 要:为了避免修复缺陷所产生的开销,开发人员希望尽早地发现软件项目中存在的潜在缺陷。传统软件测试方法需要为每一个项目模块设计大量的测试用例,并进行细致地测试。但是在有限的测试资源下,想要所有模块都进行过完备测试是不切实际的。软件缺陷预测是解决上述问题的可行办法,通过抽取与潜在缺陷存在紧密关联的度量特征,构建基于机器学习算法的缺陷预测模型,最后预测待测项目模块是否包含软件缺陷。测试结果不依赖项目的编程语言、也无需动态执行项目的程序进行验证,因此具有较高的实用价值,是当前软件测试中的一个热点话题。本次报告主要结合自己数据预处理的相关工作,探讨软件缺陷预测中存在的数据质量问题,包括软件数据集中经常出现的维度爆炸、类不平衡及数据噪声等。
个人简介:刘望舒,博士,毕业于南京大学计算机科学与技术系。主要研究方向是软件质量保障、软件测试。已发表国内外高水平论文近10篇,包括T-Rel、JCST、中国科学等。