18年见识到 勒布朗 的天神下凡般的表演后,就想做点什么事情记录一下勒布朗的传奇职业生涯。19年注册了 lbj .wiki这个域名,有了做一个网站的想法,但因为 老詹 受伤后球队表现急转直下,又加上各种乱七八糟的负面消息接踵而至,后面甚至比赛也不怎么想看了,这个想法也就搁置下来。20年来了 浓眉 后,球队逐渐走向正轨,终于再次看到了夺冠的希望,心里面也逐渐构思出网站的一些设计,本来计划在夺冠后也一并发布出网站,但由于工作的原因也迟迟没有开始。今年过年回家,在火车上突然思潮迸发,回家居家隔离的时间里开发工作也逐渐步入正轨,终于在接近一个月的时间里面,把beta版的主要功能实现并且上线。
下面我想分享一下我与”勒布朗百科“之间的故事
愿起
不知从什么时候开始,感觉国内的各类社交媒体逐渐开始变了味道。官方成了流量的狗,各种虚假消息、引战文章层出不穷。评论区、弹幕充斥着大量的低级黑、人身攻击,不知道为什么会有这么多非蠢即坏的人出现。于是手机中逐渐卸载了 微博 、 知乎 、豆瓣、贴吧…我只想安安静静的看看球,大家理性的讨论就这么难吗?其实有很多和我一样的人,已经很久不在公开的社交平台上发表言论,也过了那个在网络上和陌生人争得面红耳赤的年纪了。
所以心里面就诞生出这样一个萌芽:做一个真正的只关于勒布朗的网站。我希望它能够自动的收集到和老詹相关的国内外各种信息,能够判断出新闻的相关性和情感趋势进行过滤;能够收集到老詹所有的比赛信息和录像地址,并且可以通过各种条件找到想要回顾的比赛和直播;它最好能够有每一场比赛的全部细节,能够看到每一次投篮助攻,每一次三分抢断,每一次篮板盖帽;能够收集到勒布朗的各种图片,通过智能化的搜索方式,精确的找到自己喜欢的记忆和壁纸;能够拥有细分领域的搜索引擎,不以PageRank和竞价排名为主导;能够拥有一个时间线的记录,能够在老詹退役若干年后,我能够告诉我的孩子,曾经有一个球员叫做 勒布朗·詹姆斯 。
愿初
想要完整的实现上面的想法绝非易事,数据的收集和整理都足以让人打多次退堂鼓,特别是在进行过程中更能体会到其中的麻烦之处。一个简单的例子:不要说找到生涯每场比赛的细节记录,即使是想要知道老詹生涯最高得分对战山猫的那一场比赛中 波什 的数据表现,你可能都要花费不小的功夫。
录像的收集也十分麻烦,虽然有时候 腾讯 的口碑不是那么好,但至少在腾讯转播之后,能够轻易的找到全部的录像视频。至于更早一点的 新浪 和央视,基本都是有一场没一场的,录像质量也参差不齐,还充斥着各种赌博、色情的广告…所以直到现在这部分工作也还在持续进行中
新闻的标注就更恶心了…不说各种标题党,真标到几千条的时候,自己的标准也发生了若干次变化,标着标着愈发的开始怀疑人生,所以也就导致目前线上的模型还有「 詹姆斯·约翰逊 」「 詹姆斯·怀斯曼 」两条漏网之鱼…
让一个理科生最难的应该就是写小作文了,我一个高中语文都经常不及格的人面对着老詹的职业生涯,既要公正客观,又要暗藏心意;既要生动有趣,又不能死搬硬套,着实为难我了。
愿中
实际的开发工作就轻松多了,涉及到的接口和页面也并不复杂。唯一觉得难受的是JavaScript真的是我一点都不想花时间又不得不写了一大堆代码的唯一语言了,导致莫名其妙写了N个项目但前端仍然是初级水平。
后端选型倒是也给自己挖了一个大坑,开发前细数了一下自己的技术栈
- PHP已死
- Java 太无聊
- Node.js前端已经看得够多了,后端再也不想看了
- Python写得太多了, Django 和 Flask 都写了一大堆,想换换口味
- Scala 倒是很爽,但是架不住白天工作用,晚上还在被窝里瞧
- Go倒是很火,写了一些小玩具还行,但一方面不是特别熟,另外为了开发效率还是想选一个动态类型的语言
- Julia名字就很有诱惑力,做可视化的时候发现性能也不错,社区和类库也算活跃,实在不行还有PyCall
所以最终选了Julia,发现有一个Genie框架也还挺全面的,就入了坑。一路跌跌撞撞,但还算是痛并快乐着吧,也希望有同样做Julia开发的朋友们一起讨论交流~
其他的:模型训练都比较成熟没啥问题;任务管理Airflow一堆坑,不过全部忽略后当做 Crontab 的可视化监控也挺好;因为服务器性能问题,内网穿透了一台Windows负责跑批任务,Windows上的 Kafka 和 Docker 又是一言难尽…
愿结
目前网站已部署在了服务器上面,通过点击「 」就可以直接访问,下面简单介绍一下目前的进展:
主页
主页包括搜索、其他页面的跳转及我的联系方式。背景图片是通过目前我找到的全部老詹比赛图片构成的。
新闻
新闻包括国内新闻和国外新闻两部分,国内新闻支持只看老詹的正向新闻,例如绝杀、破纪录、虽败犹荣等等;国外新闻支持翻译。目前数据源还在接入中,之后会包括老詹的 Twitter ,Ins,国内外各大媒体等。
比赛
比赛包含今日比赛的直播信息和地址(腾讯、原声、纬来….无广告)。另外包含我给出的老詹生涯Top100比赛的信息及录像地址(30/100),具体排名方法见
全部比赛中包含老詹从2003年到目前全部的1618场常规赛和季后赛,你可以通过各种筛选和排序找到你想要了解的比赛信息。
比赛详情
每一场比赛我都尽可能的找到录像回放地址,目前约收集到600场左右,可以直接跳转播放。页面包含了比赛相关的统计信息、老詹的全部比赛记录以及两队交手历史信息等,之后还会加入更多的统计信息和图表(包括投篮点…)
搜索
你可以在这尝试搜索任何你想了解的老詹的信息,结果目前只包括新闻和比赛,中文和英文均可,示例如下:
愿后
截至目前,我最初的一些想法基本也初步开发完成了,「时间线」还差最后的一点优化工作就可以上线。「图片」考虑到版权等一些问题,还没想好以一种怎样的方式呈现。
但其实对我自己来说还有很多地方不太满意,特别是搜索引擎并不像我最初设计的那样“智能”,当然优化的工作也一直在进行中。之所以会选择在这样一个时间点草草发布,一方面是我觉得它的基础功能能够帮助到一些有类似需求的朋友。另一方面是在工作之余又花费很多的精力熬夜去做还是挺累的,很怕自己会搁置掉这个项目,希望公开出来后能够让自己感受到一些来自于外界的推动,我能做得更好一点。
最后如果大家有其他的好的想法,可以联系我排进开发中,有同样喜欢开发、算法、篮球的朋友可以一起交流。可以通过微信公众号「詹姆斯百科」、邮件「me@lbj.wiki」、私信联系到我~
仅以此平台纪念那些看球的日子、一起打球的人和我的青春。