 |
 |
 |
| |
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。 |
|
|
| |
我是研二的学生,因为突然转了研究方向,开题要定再聚类上,但是在此之前,我对聚类了解的较少,12月10号就要交开题报告,仓促之下,只能向你请求帮助了。 我想让你帮我指指: “做聚类的研究点在什么上?” ,我初步打算做基于语义的聚类,可是现在做文本聚类的人较多,自己想定在语义聚类可行吗?那么面临的困难和它的前景又可能是怎么样?(我们这边的实验室还是主要处理网页的文本信息。) 对于打扰您的时间我感到很抱歉,但是现在时间仓促,自己又所知甚少,只能咨询您了,万分感谢。 |
| |
答:
聚类的研究范围很广,主要是面对数据源的不同而有不同的新问题。比如:文本聚类,图象聚类,图聚类,生物序列聚类等都有自己独特的方法。聚类的核心问题是相似性度量的定义和应用。至于文本聚类,由于本人的研究方向不是这个,只能给点我了解的简单意见:现在文本聚类的基本思想是把文本表示为高维空间的TFIDF,在此空间上进行聚类。但由于把文本表示为TFIDF后文本中词条的顺序和语义全部丢失,所以这种基本方法对语义聚类是不适合的。要想捕捉文本语义的相似性,就得在基于本体得基础上,用人工智能或机器学习的方法进行研究,但由于受限于自然语言理解研究的瓶颈,基于语义聚类还不是很理想的。所以研究空间还是很大的。 |
| |
|
 |
欢迎读者将在数据挖掘领域的问题发送email: |
 |
dmgroup@datamining.cn 我们将在尽快的时间 |
| |
| |
 |
 |
征稿中…… |
 |
|
| |