Indexing API 谷歌加速收录教程:拯救99%不被收录的僵尸页面
打开谷歌搜索控制台后台报表里躺着 430 个未收录的报红警告。网页发布 35 天后查日志Googlebot 的造访次数是一个 0。常规的 XML 站点地图更新请求发出去反馈回执拖了 48 天。花 500 块钱找外包写的 3 篇文章离谷歌数据库的门槛差了 10 万八千里。准备好国外的注册手机号。开通一个独立的 GCP 云端工程名称长度卡在 25 个拼音字母内。找 Web Search Indexing API 选项卡点亮蓝色的开关。签发一个后缀是 json 的私钥文件文件体积只有 2.3KB。小文件丢了得重新走一遍 20 分钟的验证授权流程。GSC 后台的 7 种爬虫状态码发现尚未编入新网页生成谷歌的抓取队列排到了 72 小时之外。已抓取未编入爬虫花 300 毫秒拿走 HTML 源码剔除掉重复段落放弃了。服务器错误 500主机在 5 秒钟超时红线内没给完整包连接中断。找不到 404原网址在 48 小时内被移除 5 次上。重定向 301 错误经历 6 次连环跳转爬虫切断追踪线。被 robots.txt 拦截根目录下的 1KB 文本文件写了 Disallow 指令。存在 noindex 标记网页 header 头里塞了一串禁止收录代码阻挡爬虫收录动作。服务器上跑着 Nginx 或是 Apache。检查 PHP 引擎的版本型号低于 7.4 报错。运行内存限制的参数调高到 256MB。免费的配额定在单日 200 个链接。拿 800 个无意义的采集页面去撞击接口服务器连续 7 天返回 429 的错误状态码。老老实实推送花 3 小时手敲的 1500 字长文。谷歌官方开发者文档有一段警告拿求职招聘数据结构标记去骗取提权域名面临长达 180 天的人工降权审查期。推流接口实操的 6 个考核参数所有者验证权控制台绑定的管理员邮箱匹配云平台白名单生效期 15 分钟。URL 长度规范提交的单一字符串长度控制在 2048 个字符以下。请求包体体积单个 HTTP POST 请求发出去的数据不大于 5MB。服务器响应期海外节点在 1.5 秒内加载出那个页面的首屏。每日额度监控晚上 11 点 50 分登录控制面板核对剩下的 45 次机会。报错重发频率遭遇 503 报错硬性规定间隔 12 小时去发起第 2 轮测试。各种收录渠道的耗时明细对比表操作渠道预估等待期收录通过率预估频次上限数值Sitemaps 提交15天到90天35%50000条每次GSC 网址检查2分钟到24小时88%50条单日API 接口推送5秒到15分钟92%200条单日云主机里面存着很厚重的访问日志。下载那份 120MB 容量的 txt 文本文档。按 CTRLF 搜寻 Googlebot 的字符串。IP 地址段开头是 66.249 或者 66.102。昨天早上 9 点 15 分接口发包成功日志在 9 点 18 分记录下一次 200 OK 的抓取动作。网页内容带有 4 张平均 150KB 的 WebP 图片加载耗费爬虫 950 毫秒。去年的 20 篇旧网页排版极乱。拿掉 600 字的重复段落。插入 3 个包含数据对比的表格。用 API 面板敲入 URL_UPDATED 指令发过去。下午 5 点半搜索结果页排名从第 68 名冲到第 22 名。修改的老文章保留了85%的原意。只改 5 个标点符号去挥霍每日 200 次份额十分浪费。高配页面的 5 个硬件指标中文字符量正文达到 1200 个汉字排版紧凑不留大白边。图文视差比每 400 字塞进一张 800 像素宽的高清大图。代码层级树网页 DOM 节点深度死死压在 15 层以内。加载发令枪首字节时间 TTFB 卡在 200 毫秒线以下。外链挂载率文章内挂着 3 条指向维基百科的超文本参考。后台设置里有一个名为 json_key 的输入框。把下载好的 2.3KB 密钥文件里的全部字符复制粘贴进去。保存设置的按钮亮起。点击立即推送测试。右上角弹出一个绿色的 Success 提示语。花费时长 3 秒钟。日志里的爬虫分好几种型号。带有 Smartphone 标记的代表手机端抓取器。占据日志请求总量的 82%。Desktop 电脑端爬虫频率掉到 18%。页面没做响应式适配。手机爬虫花 2.5 秒才把 3MB 背景图拖下来。超标的 3MB 体积触碰了警戒线。第二天控制台有效网页数量少了 45 个。压缩图片体积到 80KB重新发一次请求。站长在 24 小时内疯狂点击了 600 次网址检查按钮隔天的自然搜索点击量掉光了。服务器日志里有很多伪造的假爬虫。IP 归属地显示在某不知名的廉价机房。User-agent 写着 Googlebot假的。真爬虫 IP 解析出来以 googlebot.com 结尾。拦截掉那 3000 次恶意抓取省下的服务器带宽留给真爬虫。接口推送只负责发请柬对方赴宴看桌上的菜品分量。原创文章重复率查重过了一遍。Copyscape 显示相似度 12%。过关了。发到网上前 10 分钟推 1 条指令给接口。5 分钟后用 site 指令在搜索框查一下。标题出现在第一页的第一位。配图缩略图展示在文字的左侧位置。检查 404 死链的发生频次。100 个历史链接变成死链。用 API 发送 URL_DELETED 指令。把 100 个垃圾链接从数据库里抹除掉。给带有高权重旧链接做 301 重定向处理指派给 15 篇全新的2000字长文。死链处理的 4 个参考数值容忍期限404 页面连续出现 30 天记录将被永久抹除。指令生效期发送删除指令最快 2 小时在结果页生效。重定向比例不要让全站 301 跳转的数量超过总页面的 10%。抓取浪费率死链消耗掉每天 20% 的固定抓取名额。网站里的老旧标签页占据了大量的空间。WordPress 系统自动生成 450 个 tag 聚合页。空荡荡的标签页里只有 1 篇文章孤零零挂着。谷歌爬虫顺着标签链接爬进去把 450 个低质量页面打上红色低分标记。在 robots.txt 文件里加上 Disallow: /tag/ 指令。发送 URL_DELETED 给那 450 个空壳地址。移动端适配检测的 5 项硬性检查字体大小规范正文的 CSS 像素值不得小于 16px。触控元素间距两个相邻按钮间隔距离保持 8 毫米以上。视口标签声明HTML 头部写入 viewport 参数。图片自适应率所有 width 属性设为 100% 充满屏幕。弹窗遮挡占比广告浮窗面积不超过首屏屏幕的 15%。海外主机的物理内存时常爆满。一台 2 核 4G 配置的机器挂载 15 个独立站。每天承受 8000 次真实访客点击。叠加上 200 次 API 的高频推送。CPU 占用率飙升到 98%。宝塔面板后台抛出 502 Bad Gateway 红字警告。谷歌爬虫准时来访撞上一堵报错的死墙。重启 PHP 服务卸载掉 3 个耗内存无用插件。内存余量恢复到 1.5GB。重新发一遍 20 条 URL 的更新指令。文章里嵌入 2 个 YouTube 介绍视频。视频外壳采用 lazyload 延迟加载技术。爬虫在最初 500 毫秒内看不见视频代码。停用延迟加载。让 iframe 标签赤裸裸展示在首行。推送 1 遍。20 分钟后用 site 指令搜结果页里出现带视频缩略图的富媒体展示块。自然点击率多出了 4%。视频富媒体排名的 3 个考量数据视频时长要求嵌入的源视频长度要在 45 秒到 5 分钟区间内。封面图分辨率缩略图的高宽比卡在 16:9像素 1280x720。描述文字密度视频正下方配上 300 字纯文本剧情解说。

相关新闻