虽说一直在做SEO,但跟之前的工作越来越不一样,唯一的一个小站也久不更新。下面是这个月的一些感触。 最大的收获 先说点好的,发现了新的学习方向:自然语言处理和机器学习,其实就是更深入的了解搜索引擎对信息的处理方式。比如如何判断一句话是否机器生成,需要在马尔科夫假设的基础上用贝叶斯 ...
注明:本文甚无趣,除有专门需求,可跳开或直接忽略。 昨天跟BI要了个谷歌自然搜索流量的栏目细分数据,但早上拿到后发现每天比平常统计的多了10+W。细分一下才发现里面还有很多参数需要过滤和处理。下面是过滤的步骤: 基础级先是从referer里提取出含有google的log数据(获得 ...
强烈推荐!requests官方文档已有了中文版,请 。 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib2提供了大部分需要的HT ...
随着近年来智能手机的普及,通过移动设备浏览网站的用户越来越多,这使得我们也不得不要重视移动端的流量。(从本人的解梦小站来看,传统手机端的UC搜索已经成为搜索引擎的前几位,特别是早上,流量增长更迅速。) 谷歌也逐渐重视移动版的网站,不仅对移动端使用了专门的爬虫Google-Mobi ...
之前写过同样功能的工具,不过功能极其简单,看起来像是蒙出来的结果,前几天想了想,加入了一些实用的功能,比如随机UA,不仅显示排名,还显示着陆页URL和title等,看起来强大了很多。话不多说,下面就是代码:#coding=utf-8import requestsimport Be ...
最近和朋友聊天,我们都感到SEO行业有个很致命的问题,就是没有一个固定的规范和标准。不像python,PHP等程序语言,有个很完善的官方手册,实在不行就直接做个小程序跑下,马上就有准确的答案。而SEO,毛标准都没有,所以就经常出现这样的情况:两个人为关键词密度争得面红耳赤,一个说 ...
8月初发生了一些变化,引起了我的一些反思,以前是我的一些反思和总结。由于内心只是稍微清晰,思路仍较混乱。 反思 1、眼高手低,太理论化。 看了很多理论,但缺少真正的实战。很多东西自己没做过就不会真正的理解。也拿不出一个完美的作品,当真惭愧。 2、学习是为了掩盖心中的不安,但仍在退 ...
星空跨境 2020/11/7 0:01:23165
好久没分享技术类文章了,一方面是感觉自己技术差,另一方面是最近静不下心去研究,总是不求甚解,半途而废。 近来也写了几个小程序,比如查询收录,查询排名,python已逐渐成为不可或缺的打杂利器。但速度问题一直是心头之恨,写的程序都是一根筋,在《Python核心编程》的多线程一章看了 ...
Alberto Granzotto于2013年11月15日整理 整理我用过的最好的十个库 Python是优雅的,使用这些库可以使你的代码更简洁,并保持持久性。欢迎各位补充,并提出意见!Docopt。抛弃optparse和argparse吧,使用docstrings来构建优雅的, ...
背景 做SEO会涉及很多数据,旁边NB的同事用公司的VPS实现了简单的自动化SEO数据监控系统,用来监控每天的抓取数据,并用formail发送邮件,然后用gmail筛选条件转发给我。但后来忽然发现收不到邮件了(可能跟伪造发件邮箱有关),并且有些频道需要自己去设置,于是就打算自己搞 ...
Python是一种非常适合SEO学习的语言,不仅语法简单,而且很多功能还能通过各种库来实现,可谓SEO居家必备的“良药”。背景 作为SEO,每天都有一批数据需要记录,抓取方面,收录方面,流量方面等。 在收录方面,收录率是非常有意义的一个指标,可以直接反映整站或者某频道的收录情况。 ...
背景 不得不说,markdown是写(zhuang)作(bi)利器,在用django时我就将其认定为必备功能之一。对于markdown的支持,Django本来有集成的markdown功能,在django.contrib.markup中,但自1.6以来,这个库整个就被砍掉了,只能用 ...
星空跨境 2020/11/6 23:00:53225
1. 前言 为了做一些报表,最近需要每日从爱站上抓取竞争对手的百度流量和移动流量,从我能实现的技术来看,大致有三种实现形式:火车头定时抓取;python+crontab定时抓取,保存在txt或cav或数据库中;django定时任务,用admin系统或模板系统展现。 第一种不熟悉, ...
星空跨境 2020/11/6 23:00:47153
前言 作为谷歌网站管理员帮助论坛的Top Contributor,今年很荣幸得到了谷歌的邀请,参加新加坡地区的meetup。本来有点惭愧(到途牛后回答问题的频率大大降低了),也担心语言问题,后来在老婆的鼓励下,决定参加这次活动(老婆也一起过来游玩)。 图注:上图是谷歌活动的帽子 ...
SEO需要经常看网站各种数据,如Visits,Keywords,landing page等,但总要登录Google Analytics(之后简称GA)查看,而且无法与其他系统数据结合。这时,就需要GA API了。GA API自动获取各种数据,不仅可以推送自定义数据,还能与其他的数 ...
1. 前言 前几天在做日志分析系统,需要处理几十G的文件,我尝试用原来的for line in open(filepath).readlines()处理,但停顿好久也没变化,可见占用不小的内存。在网上搜索了下,找到了两种方法来读取大文件。 2. with读取大文件 with读取是 ...
1. 背景Django自1.6版本开始就取消了markdown这个标签;之前用django-markdown-deux实现了Django1.6的Markdown功能,后来发现这货不支持直接输入HTML,会把所有的<>都转码,加上autoescape,|safe都不好使 ...
星空跨境 2020/11/6 23:00:3287
web抓取 web站点是由HTML语言编写,这意味着每个网页都是结构化文档。有时,我们可利用当前结构获取所需数据并保留数据格式,但通常都不能以合适的结构获取数据(不像csv和json)。 web抓取适时而出。web抓取可利用计算机程序过滤网页,在合适的结构下获取目标数据,同时还可 ...
背景 Scrapy默认是可以保存为csv的,可以用excel打开,使用scrapy crawl spider_name -o data.csv即可。但csv格式有诸多不便,比如中文编码问题,比如说逗号分隔,虽然都能解决,但对一般用户来说还是不够友好。 于是就想到了将数据直接保存进 ...
去年写过一篇使用smtplib发送邮件的文章,有朋友留言问如何发送附件。smtplib是可以发送附件的,但看过文档觉得还是有点复杂,我用的是Envelopes这个库发送附件。一. Envelopes简介 Envelopes简介就一句话:Mailing for human bein ...
BeautifulSoup是最初学习Python抓取网页时都会用到的一个库,可以使HTML内容结构化,从而更方便的获取内部数据,可以说是pythoner居家必备的model之一。本文主要对BeautifulSoup的安装与应用作简单的介绍。 注:本文使用的BeautifulSou ...
1. 本系列前言 一直想写Python与SEO的系列文章,因为随着SEO工作的开展,以及自身Python水平的提高,Python在SEO中的应用越来越多,使用的范畴也越来越广。 本系列暂时计划分为几个主题,将在近几周完成:数据采集关键词拓展数据系统工具篇 适用人群:具有Pytho ...
之前在《高性能网站建设指南》中了解过ETag,但一直没有应用。昨晚看到百度站长平台在大力推荐ETag,忽然有一种凌凌漆接到国家任务的感觉。1. 什么是ETag ETag全称为Entity Tag,中文名为实体标签,是Web服务器和浏览器用于确认缓存组件有效性的一种机制。 ETag ...
之前抓一个爬虫代理网站,发现在port上做了点手脚,使用了JS去计算port的方式,比如<script>document.write((2773^seal)+837);</script>。就这样一个改动搞得我费劲心思,用最笨的方法虽然能实现,但太繁琐,代码 ...
星空跨境 2020/11/6 20:01:36135
前言 参加Google Top Contributor Summit已经过去1个多月,现在才有时间整理之前的游记。 整体来说,还是一段很难忘的经历,比如有机会见识了美帝的生活,Google的氛围。很多细节记不清了,就列几个难忘的点来讲下。旧金山当地生活 没车无法生存从机场出来就 ...
Google有个常规任务就是找普通用户做兼职给Google的搜索结果打分,也会有个文档给评分作指导。我在13年读过12年的评分指南文档,并试图翻译(结果放弃),最后也写了个读后感。 前一段发现Google有2016年的版本,而且内容变动挺大,于是就阅读了一遍,整理了一些要点:更关 ...
【注意】本文转自小伙伴孙吉在内网wiki里的一篇文章。孙吉,也叫堂主,是我们SEO组的强力DPS,在抓取方面有专精。 1、BeautifulSoup是爬取网页信息使用频率最高的库,下面简单介绍一下我编写脚本过程中利用bs4获取信息的方法。 2、本文用到到网的某一购物场所作为例子: ...
前言 回想一下,做SEO已经6,7年了,但仍没忘记被排名和流量支配的恐惧。 伴随着搜索引擎的进步,SEO也一路发展。从之前的无脑外链,海量外推,到现在的移动流量崛起;从以前的医疗泛滥,到互联网广告法的9月1日实施;从之前百度对SEO的无情打击,到工程师Lee跟SEOer的沟通,再 ...
前言 最近百度站长平台发布了一篇文章,《【官方说法】这些不常见的域名后缀,你怎么看?》,说明有几类域名会被区别对待,具体的方式是收录异常等等,涉及的域名后缀有.top, .win, .co, .bid, .pw, .party, .science等。 这应该是百度,或者说是搜索引 ...
上周微信实验室开放了“搜一搜”功能,引起了轩然大波。 至此,微信的流量生态基本成型,小程序,公众号,公众号文章,将不再依靠苦逼的二维码和链接分享,也将会由搜索带来流量和用户。 继SEO,ASO之后,WEO也将慢慢产生,以下是对目前版本“搜一搜”搜索结果的分析。搜索结果分析 搜一搜 ...
星空跨境 2020/11/6 20:01:03171
我们先来讲一些俗的,喜闻乐见的:SEO赚钱问题。 SEO因为行业不同,操作方式和赚钱思路完全不同,有的依靠短平快,有的需要稳定持久。本文试着整理了市场上主流的几种赚钱方式。并不完全,欢迎补充。薪资路线 介绍:在公司任职,主要优化公司网站,主要靠薪资赚钱。比如本人在某公司任职,每月 ...
百度下拉框的关键词,一直是SEO关键词拓展的利器,只要在搜索框中输入一个关键词,就可以得到一批相关词。 我有个小技巧,可瞬间提升上百倍的挖掘效率。并且通过Python实现后,完全可用于大规模关键词的批量挖掘。 思路其实很简单,有些朋友也有了解。记得当时跟夜息分享的时候,他一直说6 ...
前言 本着“师夷长技以自强”的原则,了解Google SEO进展,学习一些西方SEO先进技术是非常有必要的,所以就有了“Google SEO”系列。 这篇是快讯,主要是Google这两天公布的一些新规则。来源有Twitter,Search Engine RoundTable。Go ...
最近很多行业都与时俱进,推出了最新的鸡汤教程 - 从入门到放弃。SEO行业当然不甘示弱。本人不才,先整理出一个入门(keng)系列。 首先,学习SEO我是建议采用自学的方式,效率更高,吸收程度也更好。先分为入门,进阶,终极这3个阶段。入门百度站长学院 & Google S ...
最近百度推出飓风算法,严厉打击恶劣采集站,很多站点不幸中招,流量一夜回到解放前。我研究了百度和Google的文档,详细定位了算法的命中范围。百度公告 我们先来看下百度官方公告,内容如下: 百度搜索于近日推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引 ...
前言 在百度站长论坛,看到有很多朋友提问,网站中了百度飓风算法,被飓风“吹成太监”,该怎么办好。在上一篇文章分析了飓风算法的命中范围。这次我们来谈谈解决方法。被飓风算法影响怎么办 针对飓风算法的影响,百度一个朋友透露说: 飓风算法主要是针对没有价值的采集,一旦中招没有任何解法。而 ...
前言 网站流量异常,从大的方面可分为外部原因和内部原因。外部原因有搜索引擎算法调整,市场变化,政策影响,内部原因有某项改动,网站稳定性等。 由于目前做Google SEO,也就需要非常了解Google的各种变化,于是就有了本栏目。内容主要是翻译于Search Engine Rou ...
高质量文章,是指那种看起来内容丰富,图文并茂,用户扫两眼就觉得非常nice,仰望之心油然而生的文章。那如此高质量的文章,怎么才能在10分钟完成,我还是有点小套路的。一定要分小标题。 即便不是123这种有序标题,也要是无序标题。有了小标题,才适合目前这种快节奏的社会。90%的读者 ...
星空跨境 2020/11/6 18:01:3981
2019/3/8 更新 - Gary Illyes 解释 RankBrain 如何运行 Google webmaster 趋势分析师 Gary Illyes 在 Reddit AMA 上解释了 RankBrain 如何运行。RankBrain 并没有使用用户体验的数据 关于 Ra ...
本文由张亚楠 (https://www.zhidaow.com/) 翻译自 BackLinko 博客。 原文地址:https://backlinko.com/seo-this-year ,如有转载,请注明来源。 本文为 Google SEO 2018 年最新指南。 注意,这并不是 ...
前几天给两个朋友介绍 SEO 工作,明明是更大的平台、更高的工资,但两人给我的答复是一致的:现在也考虑换工作,但不想再做 SEO 了。为什么要换跑道 回头来看 SEO 市场,近几年确实在走下坡路。 在求职市场中,薪资上不去,岗位需求量下降;在日常工作中,岗位越来越边缘化,越来越难 ...
感触颇深的两句话 所有的焦虑都是由于没有大局观导致的。 好多人在职业的发展卡住的核心原因,就是技能层面的突破遇到了天花板,但是格局跟不上去,也就一直卡在那里。 昨天看到这两句话,对我感触颇深,于是想记录一下。焦虑成为一个社会话题 焦虑好像忽然变成了一个社会话题。昨天一个朋友还说很 ...
星空跨境 2020/11/6 18:01:19105
前一篇文章有讲过,SEO 怎么转型和发展,提供了几个具体的岗位。本篇又做了一些提炼,列举了 SEO 转型的 3 个方面。 另外,找工作一般有短期和长期两种策略,前者更重视当下薪资,后者更关注长期利益,甚至可以适量牺牲当前利益。本文更偏向后者,长期策略。SEO 转型怎么选择选择空间 ...
2019/6/20 更新 【Alphabet拒绝拆分,承诺停止在中国开发审查版搜索引擎】- 谷歌母公司Alphabet在周三举行的年度股东大会上收到了大量激进投资者和员工表达批评意见的提案,其中包括在监管机构要求该巨头拆分前自己先采取拆分行动。尽管拒绝了激进投资者的提案,但谷歌回 ...
刚得到消息,人民日报在 Twitter 和 Facebook 上发文,欢迎 Google 回归中国,不过要遵守中国法律。这是上周 the Intercept 放出消息 Google 将要回归之后,人民日报首次做出的回应,也是非常重要的肯定。 尽管像上篇讲的,国外民众对 Googl ...
初入行的疑惑 初入行时,SEO 很重要的知识点就是关键词密度、发外链等。 我能理解关键词密度可以影响相关性,外链相当于推荐,可以提高权重。 但这2个因素,我想了下,对用户基本没有价值。 那么我的疑问就来了: 一篇内容质量很高的文章,必须要注意关键词密度,发几个外链才有排名? 一 ...
完整版请参考这篇内容:《一篇文章读懂 GOOGLE 搜索 20 周年公布的 3 项重要调整》 Google 搜索成立 20 周年,首先确定了 4 个原则不变:用户第一致力于给用户提供最相关、最高质量的信息通过算法实现严格测试每项调整 另外,Google 搜索又提出了 3 个调整: ...
因为当初是小网站入行,所以初次听到 SEO 频道这个词还不太理解,不知道为何要建立这么一个频道。 后来随着接手网站的规模越来越大,开始慢慢觉得 SEO 频道的必要性,也了解了几种 SEO 频道的组织形式。 SEO 频道,就是 SEOer 通过热搜词来形成页面而建立的一个频道,通常 ...
Google 近期算法频繁更新 十一假期,Google 算法频繁更新,让人不省心。 先是有 9 月 27 日 的更新(因为当天也是 Google 20年生日,所以 Search Engine Roundtable 也将其命名为 Google 生日更新); 然后是 10 月 4 日 ...
之前讲到了 SEO 频道,其中极其重要的一步,就是词库的建立了。 词库的整理和收集,一方面可以根据关键词获取到精准的、大量的流量,另一方面也可以了解用户的需求,方便第二步的模板设置。关键步骤 SEO 词库一般有以下几个关键步骤:抓取扩展过滤补充字段 & 入库清理 & ...
AMP 是什么 AMP,全称是 Accelerated Mobile Pages, 是 Google 推出的开源前端框架。 AMP 最明显的特征就是 性能,被称为目前 WEB 届最快的框架毫不夸张。 Google 对 AMP 的性能进行了极致的优化,比如 JS 和网页数据放在缓存 ...
Think with Google 最近发布了一篇文章,分享了 Google Marketing 部门的 SEO 策略和案例。 Think with Google 算是 Google Marketing 部门的官方博客,有 Google Ads, Google Marketin ...
年前和老板讨论 alibaba.com SEO 经历的几个阶段,我忽然想到这几个阶段其实也是通用的,于是也结合了阿里和途牛的一些案例,稍作整理分享出来。 这几个策略对绝大多数的 SEO 项目都适用,不管是大型网站 SEO、乙方 SEO 公司,还是企业站 SEO。 这几个策略也是由 ...
我之前很困惑,感觉 SEO 遇到了天花板。虽有成功案例,也具备相关的开发能力、数据分析、产品和运营等能力,但不知道怎么去提升。 后来有一篇文章对我帮助很大,里面有句话这么说:技能层面的突破遇到了天花板,但是格局跟不上去,也就一直卡在那里。 最近正好有非常好的机会,有个领导帮我们梳 ...
互联网是一次信息革命。随着互联网的高速发展,信息的获取方式也逐渐在演变,有 3 个明显趋势:信息源从中心化到去中心化用户从被动选择到主动选择,再到定制推荐信息量从缺乏到丰富,再到冗余 可以简单分为 4 个时期,分别是官媒时代(互联网之前)、门户时代、web 2.0 时代(SNS) ...
3月份读了《内容算法》,对推荐引擎有了比较系统的认识。 有意思的是,推荐引擎跟搜索引擎有比较多的相同点,甚至可以说是在搜索引擎的升级。于是整理一下分享出来。什么是内容推荐引擎 内容推荐引擎是移动互联网以来新型的内容产品,打破了之前主动获取内容的形态,可以在用户无明确需求的情况下提 ...
星空跨境 2020/11/6 17:01:32153
增长黑客是近两年非常火的一个职业,刚开始是从国外引入,然后很快在各个互联网公司兴起。目前不管是国外的 Facebook,还是国内的阿里巴巴,都已经有了增长团队。 不仅增长黑客的岗位需求越来越多,更气人的是,增长黑客的薪资还高得吓人。 在此,我告诉下各位 SEO 同仁,不要慌,其实 ...
前几天同事群里聊到读书,一直插不上话的我终于遇到了擅长的话题。在群里分享了自己的读书方法之后,又重新整理了一下,形成此文。 注:在总结过程中,感到读书方法还是比较浅显,希望能多得到指点。我的读书情况 先晒下今年截止今天( 2019 年 6 月 17 日)读过的书,共有 11 本, ...
星空跨境 2020/11/6 17:01:24135
随着网站规模和流量的增长,SEO 不可避免会遇到跨平台、多维度的数据、复杂的功能和配置、以及海量、分层的关键词,这个时候就需要 SEO 系统来辅助决策,提高运营效率。 我总结了日常工作中使用的 3 个系统,分别是 SEO 数据系统、SEO 运营系统、词库系统。 SEO 数据系统 ...
前天在知乎上偶然看到一个问题《现在 SEO 大神都在干什么》,让我忽然开始思考这个问题。 随着移动互联网的兴起、百度份额的缩小,SEO 的空间逐渐缩小,SEO 行业可以说是日渐凋零。之前的 SEO 大神群里,真正做 SEO 的比例越来越少。 我又忽然想到了上周跟几个朋友喝茶吹水, ...