结合文本与链接的网页文档聚类方法解析
在网页文档处理中,单纯基于文本或链接的聚类方法都存在一定的局限性。为了克服这些问题,一种结合文本和链接的方法应运而生。
1. 链接矩阵特性与综合方法引入
在链接矩阵中,当页面数量增加到 4000 时,链接度增长非常缓慢,仅达到 0.47,这意味着在 4000×4000 的矩阵中只有 1869 个链接,体现出矩阵的稀疏性。为了弥补单纯基于链接方法的不足,下面介绍一种结合文本和链接方法的综合途径。
2. 综合方法架构
综合方法采用了一个通用架构来实现不同聚类方法的组合。整个流程从用户向系统发送查询开始,系统会收集并存储来自公共搜索引擎的搜索结果。以下是该架构下的详细信息流动过程:
graph LR A[用户发送查询] --> B[收集外部搜索结果] B --> C[数据预处理] C --> D[计算距离值] D --> E[选择聚类方法进行聚类] E --> F[返回内部结果页面给用户]在进行聚类之前,需要对数据进行预处理,不同的聚类方法使用相同的预处理步骤。预处理完成后,根据所选用的聚类方法,计算相应的距离值,最后执行聚类操作,并将结果返回给用户。
3. 数据预处理
数据预处理主要包括三个关键步骤,为后续的聚类过程做好准备:
-片段解析(Snippet Parsing)
- 首先在公共搜索引擎(如 GOOGLE 和 LOOKSM