互联网项目库整理方法技巧

单人小撸,多号中撸,推广大撸,投资狂撸。撸尽一切,我先撸为敬。

 

这是一篇极好的文章,建议耐心花120分钟左右看完它,看完执行才会有最大的收获

 

转载于君言戏语

 

在最近一两周,我做了一件事情,挖掘了全网30几万条数据,提取出了200多个大小项目名称,通过各种维度分门别类做成一个项目库。

互联网出现过的大部分项目形式,都能在这份数据里见到,具体的提取步骤让我们先来看个小项目!

 

一个小项目

喊话祝福

这是一个“喊话祝福”的项目,就是可以定制一些指定的祝福话,然后让非洲黑人哥们喊出来,所以这个业务又经常叫“海外举牌”、“国际祝福”。

除了黑人哥们,还有乌克兰小姐姐、泰国人Y之类的,各种类型应有尽有:

这样一个项目能赚钱嘛?在万能的某宝里:

 

排名第一页的商家基本在几百几千销量不等(或多或少刷了点吧),至于单价没办法确定,因为:

 

由于是定制的,价格需要沟通,另外也看到:

 

价格最高可以到几百元不等!

某宝的竞争看起来蛮激烈的,咸鱼也差不多,拉下好几屏都是相关卖家:

公众号这个渠道显然也不会被业内人员忘记:

 

对大部分商业模式的验证,百度竞价都是非常直接的:

 

首页有三个广告位!

做投放的朋友都明白,在投的信息流广告,不一定赚钱,但相对来说,在投的竞价广告,大概率是赚钱的,竞价本身就是非常直接的 精准流量买卖。

至于短视频:

 

这个业务的模式就好像“老照片修复”那样,天然的适合短视频推广,我甚至都看到了同一个人(微信号)在抖音、公众号等渠道一起做。

以我个人的经验,这个项目集合了一个“优质互联网项目”的许多特质:

非标:不是什么标准产品,大众没有价格概念。

服务型:没有实体货物、不存在进货压货。

可复购:今天送A朋友,感觉不错明天就可以送B朋友,就是玩!

轻运营:不需要场地和大量人工。

好交付:大家图个开心,这只是一场“娱乐性质”的交易,不存在肥的瘦的挑挑拣拣。

这个业务是绝对赚钱的,各大互联网主流平台都有人在“疯狂”推广,真实利润超过想象。

 

如何看到各种项目

其实这个项目我早前也知道,感觉挺有意思但没深入,后来也看到朋友圈有些朋友在经营,客户购买的需求大多是给朋友生日、开业送个意外惊喜、装13等(人性很重要)。

 

ps:几百块花钱买开心的人大有所在,在我们以前的项目里,曾经有位40+的大哥在我们这一天付款3次 花了近2000块来买我们的服务,他真的就只是为了面子,我们含泪赚了1200左右……

 

喊话祝福这样一个项目我相信依然还有很多人没有听过,而这一次之所以提到它,是因为在我近期做项目库时,又一次看到了它。

项目背后是如何运作的,上下游我也还不是很了解,项目运营起来肯定也有需要克服的困难,但这些不是本文要讨论的,关键在于:

 

“喊话祝福” 这是这个项目的名称或者说业务描述,所谓的项目名称或业务描述:

头条号撸收益、外卖cps、全自动挂机、淘宝客发单 ……

这些就是特定项目的特定描述,一般从字面可以直接明白这个项目在做什么。

而“喊话祝福”这四个字我们不太可能会在某天灵光一闪就出现在脑海里,因为它是人为创造的,没有标准或规则。

如果我们知道这四个字,或者说我们知道了某个项目的具体描述,经过简单的搜索很容易了解到这个业务。

而当它是一个蓝海、商机、或者适合我们自身情况的业务,那这四个字就是极具高价值的信息差

 

问题是:怎么凭空挖掘?怎么大批量挖掘?

说起来好像很难,其实也没有那么难,下面用几个小策略就可以搞定。

 


步骤一:

简单收集一批跟“赚钱”、“项目”、“副业”、“兼职”等有关的长尾词:

把这些长尾词拿到百度里搜索,把自然排名在前面的网站收集到表格里:

 

这样我们就得到了很多专门发布互联网赚钱项目文章的网站、博客、论坛。

 

这个收集逻辑如果使用技术的话,可以参考这篇文章:零粉丝,运用错位竞争,运营「好物推荐」

 

步骤二:

挨个访问这些网站,整理这些网站的所有栏目分页链接(列表页):

 

包括分页的首尾页码,一起整合到文档:

 

用技术或Excel批量生成出所有分页链接,比如某个分页:

 

在本次的采集中,我总共收集了30几个站点,所有列表生成出23000多个分页链接,具体链接就不展示了。

接下来自己写爬虫或用“火车头”、“八爪鱼”之类的爬虫工具采集每个分页里的文章标题,如果有简介(文章简介)也一起采集进来。

在本次的采集中,我总共获取到20几万条标题,10几万条简介:

 

ps:数据源不只是网站,知乎、公众号、社群等都可以。

 

步骤三:

这些文章标题都在谈论各种项目业务,那么很显然我们需要把里面存在的项目名称或业务描述提取出来,这里有着大量有价值的信息。

可问题在于:我们并不知道各种未知的项目名称或业务描述具体是什么。

 

1:统计所有词根

使用python的jieba分词,可以把这30几万数据里出现的词汇都分割出来,加上叠加计算就可以得到这样一份数据:

词频

先保留着它!

 

2:无差别分割文本

“如何用公众号做喊话祝福项目”

类似这样一个标题,如果使用传统的分词方式比如jieba分词,则会把“喊话祝福”分割成“喊话”、“祝福”。

因为“喊话”、“祝福”是我们常见词汇,但“喊话祝福”并不是,除非我们事先告诉程序“喊话祝福”是一个词,可我们现在正是不知道30几万的数据里都会是些什么样的词,知道了那也就不需要再提取了。

 

考虑到所谓的词汇(长尾词)是:

字与字之间相邻而成词,一个词最少有两个字组成,最长不一定,一般表述一个业务的词汇在4-7个字就足够了,假设限定在7个字。

因为我们不知道样本数据里有存在什么词汇,那么我们要做的就是把标题里所有可能组合成词的文本都罗列出来:

 

这是一个无差别分割的步骤,所有相邻的两个字、所有相邻的三个字、以此类推到7个字,可以看到“喊话祝福”这个文本就被切割出来了。

如果设定词长4-7,把30几万样本数据里的每一条数据做无差别分割,把所有可能形成词的文本全部组合排列出来,总共得到了2000多万个可能的词……

 


考虑到4个字或5个字的词汇其实有很多是没办法表达或描述一个业务的,比如统计下来,这些词汇有很多是:百度贴吧、阿里巴巴、微信朋友圈、淘宝店铺 这样的词汇(因为样本数据都是互联网相关文章)。

2个字或者3个字的就更没有意义了,毕竟出来一大堆的:百度、淘宝、怎么、应该,这样的词汇。

因此把最小词长度上调到6,即只计算6个字和7个字的片段,就这样的情况也有足足1千1百多万个。

当然:如果“挖矿”这个词代表着一个全新的未知的优质项目,那很可能我们就错过了,好在这样的情况是相对少数的,而且“挖矿”一定还会和其它词缀组合成各种更长的描述。

 

3:去除无效词汇

使用无差别分割的方式会导致:“如何用公众号做喊话祝福项目” 这样一个标题里必然会分割出:“何用公众号做喊” 这样的词汇。

我们很明白这是无效词汇,而这种无差别的分割还会大比例的产生非常多这种词汇:

无效词汇

接下来我们在上面做的全局词根统计就体现价值了:

当我们从“如何用公众号做喊话祝福项目” 这样一个标题里发现:“何用公众号做喊” 这样的词汇时,我们可以让程序提取下“何用公众号做喊”的第一个字,得到:“何”,再提取下“何用公众号做喊”这段文本在原标题的前一个字,自然会得到:“如”。

把得到的“如”+“何”=“如何”拿到之前统计的词根库里查找,如果找得到“如何”(之前的词根库里都是正确的词汇),说明“何用公众号做喊”这段文本不算词汇,它只是一个缺失了的不完整文本,丢弃!

 

同理:做完了头,尾也是一样的操作,我们会发现“喊”后面的“话”缺失了,同样丢弃,不管是头还是尾,只要有一边缺失,这就不是个正常的词汇,直接丢弃。

当一段文本的头尾词汇都是完整的,起码这个词汇不是无效的。

做完这步操作后,目标文本从1千万的数量瞬间减少到只剩230万的级别,现在看起来干净多了:

 

当然,仍然存在问题……

 

4:去除无意义词汇

在过程中还会有这样的词汇:“抖音直播应该”,这样的词汇我们在上一步是处理不掉的,因为它两边都没有缺失。

但实际上这样的词汇它的表述本身就不完整,没有意义。

其次我们按常识思考一下:

头条号撸收益、外卖cps、全自动挂机、淘宝客发单、喊话祝福 ……

像这种正常在表达或描述一个业务的词汇,会不会出现:这个、那个、可能、肯定、会不会、能不能 等等这种字眼呢?

答案是基本不可能!

 

 

所以接下来我们简单粗暴一点:

 

收集一份这样的词汇(这个我一直有一份),对于目标文本,只要有包含这里面的任何一个词根,直接丢弃。

做完这一步,剩下的更加清爽了,只剩下30几万条词汇:

 

 

直接只剩下不到10分1其实也可以理解,因为在任何语境中:这个、那个、可能、肯定、会不会、能不能 等等这种连词、介词之类的,都是大量出现的,不管写任何领域的内容都离不开它们。

 

ps:过往经验和结果都告诉我,看似简单粗暴的策略,往往效果很明显。

 

步骤4:

接下来就简单了,有条件的,直接把这几十万词汇拿去做自动归类(不需要绝对的类似,有些类似即可,比如余弦值在0.5左右),那些死活处理不掉的:

它们自然会被归到一片去,因为它们不是什么特定描述,而是生活中经常会出现的表达,自然会有很多类似的词汇,这些在Excel里我们可以很轻松的扫过,无须留意。

相比之下:喊话祝福、外卖cps,这种特定描述它没有那么多类似词汇,很多业务的特定描述只出现一两次,归类完之后它们就只能垫底了:

 

喊话祝福在30几万样本数据里也就只被人提到三五次,所以从下往上人工看,能很快的把一个个捡出来。

千万级的数据被我们筛选到只剩下一二十万词,剩下的就需要人工介入,机器不可能一步到位,我们能做的就是尽可能的减少工作量。

 


当然,如果你不能归类,也可以用另一种方式来提取可能的项目:

 

直接筛选目标词汇,就可以看到与它相关的所有可能的项目,记录下你感兴趣的、不明白的。

 

这些目标词汇可以是各大主流平台,比如:抖音、百度

 

 

ps:梳理主流平台可能涉及的业务,我也有梳理过,过程中你就会发现比如百度:它的各种相关产品都是被人用来引流的,比如微信:基于它或它的子产品延伸出来的项目是最多的。

 

 

除此之外,我们还可以输入生活中的一些具体事物,要知道很多项目都是围绕这些事物的,比如:图片、视频、课程:

 

这种筛选方式人工会相对累点。

最后:懂程序的朋友其实捋一下思路会发现,以上实现下来在技术上极其简单,没有什么算法或公式,也没有复杂的代码逻辑。

更关键的还是在于对场景问题的思考,所以以上步骤并不是唯一,需要结合场景来调整,不要按部就班,关键在于理解每一步的意义。

 

 

整理

梳理了下主流平台可能涉及的业务,把其中形式或性质类似的整合在一起,可以得到类似这样一份框架:

 

这份数据我自己测试了下,市面上主流的平台延伸出来的相关业务、项目,都在这里找到或类似的,完全可以按图索骥。

维度并不是唯一,我们还可以输入一些节日,得到相关的业务:

 

但是本身相对较少,也就看到一个我们熟悉的七夕蛤蟆,当然还有其他节日。

除了各大平台延伸的项目以外,我们还会看到各种“乱七八糟的小项目”:

 

挑选了一些给大家看一下,在文章底部我收集了一批。

很多时候能让我们找到机会的,往往是这些小项目,为什么我经常会拿一些小项目举例呢?

因为很多成熟稳定的小项目一般都满足mvp模型(最小可行性产品)!

小项目适合以小见大,麻雀虽小,五脏俱全,一个最小可行性产品包括了运营一个项目的所有必须环节,如果自己不能成功跑通这样一个小项目,那就更别提各种大项目了。

这些小项目对我们的主要意义就在于开拓思维,了解项目的模式或背后针对的人性问题。

 

变声器

这三个字,是你理解的那三个字,但是这个工具它背后对标的打法和群体却不是你想象的。

在线要饭

 

人生全靠想象力(只是顺带聊到,严重不推荐……)。

 

 

插花教程

文艺类的东西我也不懂,所以不研究,但是这都2021年了,光盘教程(硬盘U盘)仍然还存在着,竞价户也是套的。

 

这文案看完就很感动嘛……

这东西跟烧烤、小吃教程、配方之类的是一样的,在闲鱼的价格能让人哭出来,怎么还会有人到百度搜索买呢?

然而很多行业,人家选择做竞价推广,一定是有原因的:

 

同样的业务,360也同时在投放!


数据来源于网络,我们使用这样的方式当然避不可免的会看到很多H|H产业务,违法的业务我都不看,所以很多H产也就不展示了,虽然这些内容还挺开眼界。

要知道赚钱有三个阶段:能赚、赚多、赚久,违法的东西明显很满足前两者,后者就完全不可能了,不值得。

除了我们表面可以看到的项目以外,其实这些数据里还隐藏着表面看不到的项目,那就是各种疑问词:

 

这些都是行业里的人涉及到的麻烦问题,也是因为是个问题,所以写出文章来探讨,如果有合适的技术,提供铲子也是一种项目。

 

ps:如果要提取疑问词,在前面“去除无意义词汇”的步骤里不要加入疑问词根!

 

 

当然了,互联网经久不衰的话题–引流:

 

这样一份数据只需要经过几个小时的梳理和整理就可以统计出目前互联网主流的“引流平台”和“引流方式”以及常见的“引流对象”,把这些全部放到眼前,引流这份工作就只剩下执行力了。

这份数据的引流信息我还没有梳理,不过其实这些年也没有太多变化,平台还是那些平台,方式还是那些方式,目标对象还是那些群体,只是有根据一些场景做变动。

 

 

有些词汇不一定是具体的什么项目,但是它们涉及到了很多行业问题,这些黑话、术语也有参考价值(这些内容就不发了)。

最后,如果想要专门写些项目分享、讨论的文章,这样一份数据相当于地图一般,永远都可以在这里找到很多可以写的事物。

这样一份互联网项目库,通过任何既有的搜索工具都是没办法批量检索出来的。

 

 

延伸

在这个例子里,我们的样本数据是标题,然而标题有时具有一定的局限性,它的语境、语料都不是非常丰富,有些文章也不一定都在标题里写明要讨论的项目。

因此,最合适作为样本数据的,仍然是文章,文章才是最丰富的语料库,诸如知乎上这样的问题:

 

多搜集几个类似问题,把每一个的答案都作为样本数据,相信可以提取出来很多有价值的信息。

 

结尾

上面提到的项目库,我把提取出来的项目名称做了下归类,把同样形式或性质的汇总起来,最后梳理在一张表格图里。

对于没有接触过太多项目的朋友,这样一份汇总数据可以让自己对互联网主流项目有个清晰的概念。

另外附带100个奇奇怪怪的小项目,有些我也是刚看到,有些大家很熟悉,有些我认为有代表性和启发价值,但是大部分都还是有人在经营着。

 

 

提醒:

有些朋友可能会觉得:自己也经常看网赚文章,里面的项目也不是看了就能做,其实这么来看,出发点就是错误的。

这份数据我自己也在梳理和分析,但是挖掘项目,它不是说我打开数据一看,远远望去有个闪闪发光的东西,我目光扫去发现居然是一个暴利项目,然后从此发家致富……

这是小说体!

 

我们有可能运气爆棚的找到一两个可以立马上手、短时间内带来可观收益的业务,但这只是你运气好,可你并不能去对这种运气太期待。

梳理一份项目库的意义在于帮自己构造一个知识脉络,当一大片互联网常见的业务模式摆在你眼前时,你能快速的形成一个知识网络。

接着把其中那些你不了解不明白的项目、信息拿出来重点了解,你又能得到一大堆新鲜的见识,你会发现原来人家在做这些、原来人家是这么玩的。

这些知识在脑海里重构之后,一些平时你没感觉的信息又会有新的理解,判断力和知识面由此提升。

 

有些项目你平时没听过,也可能它已经是一个竞争激烈的行业,但或许只是你没遇见,当你看到后认真去了解,可能会发现你来做可以做得很好。

别考虑项目能不能赚钱,大部分项目都能赚钱!

别考虑蓝海红海,比拼的永远是个人竞争力!

别考虑所谓的天花板,大多数人做不到领域的天花板!

 

 

网站很多项目都有时效性,规则更改等情况,如果翻看我以前的文章项目,做之前最好询问我,防止掉坑!

    作者:云飞  微信:yqiantu

欢迎转载:云飞项目实战团 » 互联网项目库整理方法技巧

赞 (0)