RSS简介和知识储备

rss简介

rss(简易信息聚合),是一种消息来源格式规范,用以聚合经常发布数据的网站,例如博客文章、新闻、音频或视频的网摘,(个人理解一个网站就相当于一个rss订阅)。RSS文件(或称作摘要,网络摘要,或频更新,提供到频道)包含全文或是节录的文字,再加上发用者所订阅之网摘布数据和输欧群的元数据。通常在时效性比较强的内容上使用RSS订阅能更快获取信息,网站提供RSS输出,有利于让用户获取网站内同的最新更新,网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。

rss解析主体代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
网站种子解析
import feedparser
# feedparser是一个python的feed解析库
# 可以处理rss,CDF,Atom,使用他
# 可以从任何RSS或者Atom中得到标题,链接和文章条目
rss_oschina = feedparser.parse(url[0])
# 输出channel里面的title
pprint.pprint(rss_oschina.feed.title)
# 整理为json数组
mylist = [{'title': entry['title'], 'link': entry['link']} for entry in rss_oschina['entries']]
# 判断channel里面的title是否存在,返回bool型的数值
if rss_oschina.feed.__contains__('title'):
title = rss_oschina.feed.title
pprint.pprint(title)

参考链接如下: