HTML + URL Risk Analysis

网页风险检测控制台

Classifier Group A

语义混淆检测

待检测
定义与判定规则

定义:网页同时表现出正常内容的语义特征和恶意内容特征,可能利用主题混杂或内容拼接干扰搜索引擎判断。

判定:正常网页分类器概率 prob1 >= 0.9,并且恶意分类器概率 prob2 >= 0.5。

prob1
0%
prob2
0%

等待输入分类器输出。

Classifier Group B

重定向检测

待检测
定义与判定规则

定义:用户访问原始页面后被带到另一个主域,最终展示的内容可能与搜索结果中承诺的内容不一致。

判定:当前 URL 与原始 URL 的顶级域名和一级域名不一致,并且重定向分类器 prob2 > 0.5。

原始主域 未识别
当前主域 未识别
prob2
0%

等待 URL 和分类器输出。

Hot Words Rule

Spam 检测

待检测
定义与判定规则

定义:网页大量堆叠热门搜索词,以覆盖无关搜索意图并获取额外搜索流量。

判定:从 HTML 正文中匹配 Google 热词,唯一命中数量 >= 10 时判定为 Spam 网页。

热词命中 0 / 10
热词库规模 0

暂无命中热词。

等待 HTML 文本解析结果。

Homepage Link Drift

链接农场检测

待检测
定义与判定规则

定义:网站通过频繁变化或批量生成链接构建链接网络,以人为操纵页面权重和搜索排名。

判定:连续访问 homepage 两次得到链接集合 A 和 B;当 max(|A-B|/|A|, |B-A|/|B|) >= 0.2 时判定为链接农场。

第一次链接数 |A| 0
第二次链接数 |B| 0
变化率
0%

等待 homepage 双次访问结果。

Dual View Comparison

Cloaking 伪装检测

待检测
定义与判定规则

定义:网站根据 User-Agent 等请求特征识别搜索引擎爬虫,为爬虫和普通用户返回不同内容,以欺骗搜索引擎索引。

判定:比较用户视图与 Googlebot 视图;同时满足 Signature Similarity < 0.9、Summary Similarity > 0.33、DOM Similarity > 0.66 时判定为 Cloaking。

Signature Similarity 0%
判定要求 < 90%
Summary Similarity 0%
判定要求 > 33%
DOM Similarity 0%
判定要求 > 66%

等待用户视图与 Googlebot 视图比较结果。

Final Decision

等待检测

输入网页、URL 和分类器概率后,将自动给出综合风险结论。

模型尚未运行。

0%