搭建自我信息茧房 信息茧房 是指人们关注的信息领域会习惯性地被自己的兴趣所引导, 从而将自己的生活桎梏于像蚕茧一般的 "茧房" 中的现象.
在日常自媒体资讯流当中会根据你日常习惯来推送给你所需的相关资讯, 比如喜欢日常浏览 经济 相关新闻会推送时事相关对应的新闻, 而消息提供方之中会将该账号生成 用户个人画像 指明用户希望查看到相关的 经济人士 相关资讯新闻从而等待后续相关新闻推送.
只提取自己感兴趣的新闻就像 茧 当中只看自己相关消息, 这种方式很容易封闭自己的新闻渠道
日常新闻资源得益于 rss 可以采集相关数据从而提取所需的, 这里以 知乎 官方 rss 源做解析:
知乎RSS: https://www.zhihu.com/rss
该接口可以提取出每日的新闻数据, 可以以内部的 原文url 做唯一key标识
这里提供下另外新闻 JSON 格式来做实例, 这解析 RSS 之后数据库入库的消息示例:
[ { "author": "zhihu", "link": "https://www.zhihu.com/aaa", "title": "指环王动画电影《指环王:洛汗之战》发布概念海报制作特辑", "content": "测试内容AAA", "key": "2e78390ab87d41ecd3bd1f301c51e8c6", "createAt": 1729328629 }, { "author": "zhihu", "link": "https://www.zhihu.com/bbb", "title": "2024年Q3国产游戏收入创新高,点点互动产品领跑9月出海榜", "content": "测试内容BBBB", "key": "0cc44849bda5d4f6a170515041700248", "createAt": 1729328568 } ] RSS 的数据源可以通过自己编写定时 Python 脚本爬虫抓取解析处理并且做数据库入库处理