Classifier Group A
语义混淆检测
定义与判定规则
定义:网页同时表现出正常内容的语义特征和恶意内容特征,可能利用主题混杂或内容拼接干扰搜索引擎判断。
判定:正常网页分类器概率 prob1 >= 0.9,并且恶意分类器概率 prob2 >= 0.5。
等待输入分类器输出。
HTML + URL Risk Analysis
Detection Pipeline
等待任务启动。
Classifier Group A
定义:网页同时表现出正常内容的语义特征和恶意内容特征,可能利用主题混杂或内容拼接干扰搜索引擎判断。
判定:正常网页分类器概率 prob1 >= 0.9,并且恶意分类器概率 prob2 >= 0.5。
等待输入分类器输出。
Classifier Group B
定义:用户访问原始页面后被带到另一个主域,最终展示的内容可能与搜索结果中承诺的内容不一致。
判定:当前 URL 与原始 URL 的顶级域名和一级域名不一致,并且重定向分类器 prob2 > 0.5。
等待 URL 和分类器输出。
Hot Words Rule
定义:网页大量堆叠热门搜索词,以覆盖无关搜索意图并获取额外搜索流量。
判定:从 HTML 正文中匹配 Google 热词,唯一命中数量 >= 10 时判定为 Spam 网页。
等待 HTML 文本解析结果。
Homepage Link Drift
定义:网站通过频繁变化或批量生成链接构建链接网络,以人为操纵页面权重和搜索排名。
判定:连续访问 homepage 两次得到链接集合 A 和 B;当 max(|A-B|/|A|, |B-A|/|B|) >= 0.2 时判定为链接农场。
等待 homepage 双次访问结果。
Dual View Comparison
定义:网站根据 User-Agent 等请求特征识别搜索引擎爬虫,为爬虫和普通用户返回不同内容,以欺骗搜索引擎索引。
判定:比较用户视图与 Googlebot 视图;同时满足 Signature Similarity < 0.9、Summary Similarity > 0.33、DOM Similarity > 0.66 时判定为 Cloaking。
等待用户视图与 Googlebot 视图比较结果。
Final Decision
输入网页、URL 和分类器概率后,将自动给出综合风险结论。