5118出品,SEO老司机,15年实操经验总结
5118,国内知名的站长平台之一,我是每天都要上几回。
前段时间官方出了几张运营地图,每张都真真的是干货满满,而这只是其中一张。
算是个人留着压箱底私藏货之一,共学。
- 干预搜索引擎
- 被动爬取干预
- 蜘蛛
- 种类:1、页面内容蜘蛛。2、图片收集蜘蛛。3、模拟真实浏览器反作弊爬虫(含JS)
- 索引:1、收录率=收录数量/爬取数量。2、定期进行WEB日志检查、计算收录率、收录率非常低,需要增加内容质量和外链。
- 技巧
- 真假蜘蛛辨识别技巧
- 引导爬虫抓取新页面:制作更新列表网页并放置在所有页面底部、在内容页面放置专门的列表,跟随爬虫访问放出新链接
- 给爬虫有待:给爬虫特殊稳定优质线路确保稳定可用、不给爬虫冗余的HTML、屏蔽时占率少的搜索引擎,留取更多资源给好的引擎
- 主动提交
- sitemap
- TXT文本格式(百度)
- XML格式(谷歌)
- 通知方式:1、可以在robots.txt文件添加代码告知sitemap存放位置。2、可以通过站长后台一次提交10个sitemap地址。
- 要求:1、不得超过5万个。2、文件大小不超过10MB。3、不能是404。
- 死链提交--XENU扫描--及时删除链接--主动提交站长后台
- 网站改版:1、链接301跳转。2、站长后台闭站保护。3、查看日志确保无误。4、死链多层扫描。
- 是否允许索引:1、robots.txt。2、meta。3、http header。4、html。
- 搜索引擎排名核心
- 搜索引擎指标
- 内容相关性指标:1、title标题。2、metakeyword。3、maetadescription。4、内链:全站结构、描文本。5、外链:描文本、对方内容、相关度。6、内容:头部文字、段落标题、内容涉及、相关内容。
- 原创性指标
- 落地页时间因子
- 落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据,百度搜索综合用户对落地页中关于时间因子的实际感受,发现目前PC端及移动端大量网站落地页存在时间标注不清、页面无时间等对用户浏览体验不友好行为。
- 内容更新时间:1、时间标签更新时间。2、百度快照代表索引更新时间。
- 内容原创性:1、词频:TF-IDF算法、LDA算法。2,搜索指纹:simhash。3,内容词向量:doc2vrc。
- 可访问性指标
- 蜘蛛爬取速度
- WEB日志诊断:1、云服务器日志。2、ELK系统。3、filbeat+elasticsearch.
- 400/500错误数:1、WEB日志诊断。2、百度站长后台。3、Google站长后台。
- 页面最终加载速度:1、工具:Googlepagespeed。2、相关因素:html、dom结构、js。
- 用户行为指标
- 惩罚算法:【SEO优化】SEO运营地图-百度算法大全汇总高清图
- 是否解决用户问题
- 点击率:击中人心的摘要、吸引人的标题、击中需求的头图
- 页面停留时间:百度统计
- 是否会在搜索结果点击下一个结果:快排原理--搜索结果点击行为模拟
- 访问用户数量与粘性
- 初期营销:1、一定要能找到用户集中的地方。2、SEM。3、长尾词SEO。4、高权重网站霸屏。5、激起传播(社交媒体、抖音、论坛消息)
- 中期营销:1、霸屏。2、问答。
- 监控搜索引擎
- 可用性监控
- 日志分析
- 站长平台:抓取异常、抓取频次
- 监控宝
- 百度云观测
- 转化监控
- 百度竞价版高级统计
- 自开发转化监控
- 流量监控
- 日志分析
- 常用统计系统功能
- 流量趋势图
- 跳出率与访问时长
- 转化率
- 流量分类:1、搜索引擎流量。2、直接流量。3、外链流量。
- 真实来源关键词
- 受访网页
- 新老访客
- 受访域名:是否被镜像
- 流量关键词
- SEO成果监控
- 站长平台
- 索引量
- site查询:百度查询site:www.域名.com
- 5118
- 排名趋势图:百度PC、百度移动、360、百家号、神马、熊掌号(非熊掌号)
- 站群监控
- 关键词监控
- 站长工具箱子 :1、实时排名查询。2、实时收录查询。3、nofollow工具。4、实时死链查询。
- 首页外链查询
- 收录量趋势图
- 页面与内容
- HTML布局策略
- HTML布局策略
- 第一段落包含目标词
- TDK:网页描述、目标关键词扩展词、目标关键词
- 关键词目标与类型
- 密度阀值
- 中文分词算法理解:决定标题、内容中的关键词是否可分
- 关键词目标与类型
- 核心词击中:用主页占领:不超过3个核心词
- 长尾词击中
- 搜多页:1、相关搜索。2、支持重要搜索词设置标题。
- 内容页:1、strong标签。2、h标签。3、内链
- 次要核心词击中
- 专题聚合页:1、内容精选。2、不断更新。3、h标签。
- 列表页:支持自动以标题。
- 如何生产内容
- 题材来源
- 热榜
- 需求图谱
- 内容规划
- 原创来源
- 自己写内容、伪原创、信息差、精华段落聚合重组:知乎、头条、微信等全网文章、爬虫索引不到、UGC、采集
- 爬虫索引不到
- 技术、纸张资料、语音资料、视频资料、非HTML格式、需要登录、外文、繁体
- 新媒体第一时间捕捉
- 不同平台索引时间差:微信、头条、知乎、1点资讯、搜狐号、大鱼号、百家号、网易号、简书、凤凰号
- 采集
- 爬虫最佳语言:python、nodejs、go
- web技术:js、http协议、cookies
- 提取技术:DOM、正则
- 伪原创
- 工具:5118 、文字、图片、视频、声音
- 结构与设计
- 外部链接
- HTML:1、a标签:rel属性、title属性。2、img标签:alt属性。3、link标签:rel属性。
- 外部链接获取方式:购买、自然传播、友情链接、能留链接的地方、站群、入侵篡改。
- 内部层次结构
- 不但利于用户也为引导蜘蛛
- 菜单导航:网站地图、方式
- 内链:种类、喂食爬虫链接、html标签
- 安全性
- 防采集:1、IP访问分级机制。2、键盘鼠标行为。3、用户访问分级机制。4、浏览器指纹。5,给假数据。6,验证码。7,防模拟搜索引擎爬虫。8,登陆。9、CSS+图片位移防采集。10、建立黑名单。11、必须完整渲染JS。12、图片防采集。
- 数据安全:1、磁盘阵列。2、主从备份、3、线下备份。4、文件云备份。
- 防攻击:防DDOS
- 防入侵(杜绝潜在漏洞):HTTPS、补丁、用户权限、社会工程、开源程序反扫描、被动检测、端口检测
- 可访问性
- 内部因素:程序与流程优化
- WEB服务:厂商--iis/apache/nginx
- URL:URL设计、URL路由
- 数据库访问:调优分析、主从库、并行扩展、读写分离、备份、磁盘类型
- 静态化:html静态、局部静态化、指标、性价比
- 缓存:分布式缓存、json缓存、定期关注硬性指标
- 前端框架:对SEO不友好、避免使用WEB SQL、使用indexedDB
- 流量优化:负载均衡、指标、确认冗余、减少冗余代码和http请求、监控、工具
- 移动端:移动设计优先、移动适配、优化加载速度、MIP、百度移动搜索落地页体验、百度算法
- 正确的跳转:300/400/500
- SEO程序及平台选择:开源cms、第三方建站、百家号、自开发程序、第三方博客、小程序、第三方B2B
- 外部因素:DNS
- 常用命令:dig/nslookup/host/mdc
- 常用测速:
- CDN解析:cdn本身就用了类似云解析或者智能解析技术
- 记录:A记录、CNAME记录
- 域名服务器:跟域名服务器、顶级域名服务器、限制域名服务器、本地域名服务器
- 域名结构:顶级域名、二级域名、三级域名
- 常用服务商:海外:cloudflare、aws等。国内:阿里云、腾讯云、百度云等。
- CDN
- 优点:本地cache加速、镜像服务、远程加速、宽带优化
- 缺点:应用成本、只对静态内容加速、内容更新时需要分发到其他节点。
- 应用场景:大文件下载、静态网页、应用加速、动态加速
- 服务商:网宿科技、云服务商、海外
- 机房/数据中心
- 主机选择注意:1、地理位置。2、可用性。
- 传统IDC选择注意:1、环境。2,能用。3,电信线路。4,监控设备。5,客户位置。
- 测速和监控工具
点击“扩展链接”下载
思维导图汇总
●SEO运营地图--百度算法大全
●百度小程序开发者运营技能知识图谱1.0
●2019天猫电商双十一作战地图(含京东、苏宁及历年)
●主流编程语言汇总思维图
●短视频从业者必备指南2.0(从创作到盈利)
●思维导图 | 好好说话,别啥都扯上区块链