2025年最新PG电子游戏攻略与沉浸式试玩技巧!注册即领新手礼包(访问:363050.com 领取888U),手机版全面适配iOS/Android,跨平台数据互通,每日更新限时优惠!立即探索科幻世界,开启你的PG电子之旅。1000 9825/ 2002/ 13(08) 1500 08 ~ 2002 J ournal of Software软 件 学 报 Vo1. 13,No. 8 渐进/ 分布 式 网页 聚类 算法 PG+ 与 PG++ 王 启新 . 李 毅 , 董 丽 . 聂 字 , 王 克 宏 (清华大学 计算机科学与技术系, 北京 100084) E m a i l :li y i 19 9 7 @ m a il s. tsi n g h u a . ed u . ca http : / / w w w . tsi ng hu a . e d u . c a 摘要:用户行 为分析是 Web站点信 息推荐 中的重要方法, 被广泛应用在该领域 的诸多算法 中. PageGather算法是 其中有代表性 的一种. 旨在解决静态 PageGather 算法输入数据量过大 、时间复杂度 高的问题 , 使 其更具实用性. 通过 引入 渐进 学习和分布的机制, 给 出了改进 的算法 PG+和 PG++, 并进行 了实验分析 . 改进后 , 既保证 了算法的 等效性, 又明显提 高了效率. 关 键 词 :Web; 渐 进 ; 分 布 式 ; PageG ather; 聚类 中图法分类号:TP393 文献标识码: A 当前 Web 站点信息推荐的方法大致可分为如下几个类型: ( 1) 基于兴趣模 型的半 自动化类型. 典型的系统 有 WebWatcher L“ , AVA NTI[ 等. 过 多的人工参与 是这类系统 的缺 点. (2) 自动用户行 为分析类 型. 又分 为用 户浏 览路径分析和 网页相关性分析两种子类型. 前者 的典型方案有 F ootprints_3】 、阳小华 的方案_4 等. 后者 的典型算 法有 PageGather 算法(简记 PG 算法) 等. (3) 合作过滤类型. 典型的系统有 R ingo[61, GroupL ens[71等. 这种 系统也 需要过多的人工参与. (4) 与结构化信息相 结合的类 型. 典型 的系统有 STR UDEL [8 等. 该类系统可移植性差, 需 要对现有 的网站结构作大规模的调整, 甚至破坏 . (5) 客户端个性化类 型. 典型的系统有 L etizia~ 91 ,PIN SHO l等, 这类 系统可 与服务器端的个性化系统相结合, 构建更高层次的二元 的个性化系统. 综 合考虑 自动化程度 、技术可行性和结果质量, 目前 自动用户行为分析类型 的方案最具有竞争力. 该类方 案 中有代表性的算法之一便是 PG 算法_5 】 . 文献[11]讨论 了其诸 多的优点. 但是, PG 算法是静态的, 训练集一次性给 出, 在大规模 网站的实 际应用 中往往会 遇到用 时过长 的问题. 我们 的思路是采取渐进学习和分布式计算的机制来解决数据量大与运算时间有 限的矛盾, 从而提出了 PG+和 PG++ 算 法 . 1静态 算法描 述及 其实 现 定义 1. 1.一个浏览过程是指用户在一次上网过程 中为了某一 目的对一个 网站 的网页进行访 问的序列. 文 献[12】 中也称浏览过程 为“事务(transaction)”, 称上 网过程为“会话(session)”. 一个会 话是由若干个事 务首 尾 连接 而 成 的. 定义 1. 2.对同一网站 的任意两个 网页 P , P, , 在一次浏览过程中, 如果 己知访 问了 P , 则记该浏览过程也访 问 了 尸 ,的 概 率为 尸 (尸 , IP )( 这 里 与文 献 [5] 的描 述 略 有 不 同, 其 原 因请 参 见 文 献 [13]); 同理 , 定义 P(P l尸 称 min{P (P l尸 尸(尸 , IP ))为 P , 尸, 的合 同访 问概率, 并将其作为 P 尸 , 的相关度. 收稿 日期 :2001. 06. 04;修改 日期 :2001 09 07 作者简介 :王启新 (1977一), 男, 上海人 , 硕士 , 主要研 究领 域 为知识工程 , 数据挖 掘, 知识 发现; 李毅( 1978- - ), 男, 北 京人, 硕 士生, 主 要研究 领域为 知识工程 , Web 挖掘 , 知识 发现; 董丽( 1974一), 女, 河南郑 卅1 人, 讲 师, 主要研 究领域 为知识 工程; 聂宇( 1978一), 男, 北京人 , 助理研 究员. 主要研 究领域 为知识 工程 ; 王克 宏( 1941一J, 男, 江苏镇 江人, 教授 , 博士 生导师 , 主要研 究领 域为知 识工 程, Web 挖 掘, 知识 发现 . 维普资讯