最近在做信息聚合,由于不太会爬虫,再加上之前有整理过一些RSS的内容,因此想考虑用RSS来做信息聚合。
结果调查发现,RSS似乎已经离我们远去,似乎大部分网站都不再支持RSS,而网上很多Website转RSS,RSS转Fullt Text RSS等服务都已经纷纷关闭。
不知道像头条这些的信息聚合是如何做的。以及轻芒的应用内搜索技术聚合的信息是如何做到的。
然后,考虑的是社交平台转RSS,首先考虑的是Facebook。 (说实话,我真用不惯(其实是不好用)Facebook)
stackoverflow上给出的方案有三个:
- 自己搭建rss-bridge
- Wallflux
- inoreader专业版
rss-bridge, 源码在这里https://github.com/RSS-Bridge/rss-bridge
搭建也比较简单,我直接用了scalingo的一键部署。好处是服务器自己控制,可以随意修改,同时还支持其他网站以及社交平台的RSS转化。
不好的是,转化出来的RSS结果,没有我想象的那么好。
1 | <item> |
可以看到,得到的RSS的item,基本上就是把html的内容往description字段里放了下,而title这种几乎就是没有什么用的信息,因此肯定还需要自己做额外的解析。
Facebook-bridge似乎好一些,但我自己搭建的却解析不了,没花额外的时间查看了。
Wallflux 似乎已经倒闭?我使用的结果是没有任何Item字段生成。
inoreader正好有免费的30天专业版试用。支持100个facebook page的feed转换。
导入非常简单,直接将facebook page的地址输入左上角的搜索框
然后,输出的Feeds,首先需要将这个Facebook Page Feed放入一个目录,然后导出这个目录的Feed即可。
1 | <item> |
解析结果比rss-bridge稍微好一点,至少title的内容比较好,不过还是没有把图片单独截取出来,似乎还是需要我们自己解析description的内容。
考虑的是,输出Feed似乎和个人账户ID关联,不知道作为共有Feed,频繁request会不会出现问题。可能需要考虑将内容转存(?这似乎又存在版权问题)。
简单出demo的话,inoreader专业版不错。长久考虑,应该使用rss-bridge。
归根结底,还是需要自己解析description的内容。