数据仓库与数据挖掘(全英)

又见面了，授课教师是W.H Zhu

没有考试的Zhu老师课程是非常好的课，不考勤不测验没作业。对于到大三下学期，已经成为本科老登的同学们来说，不为难学生，顺带还给个不错的成绩，已经是此地为数不多的优质课程（虽然无法达到学习知识这一目的，但是懂的都懂，不多苛责），一个报告+pre解决2学分

回到课程内容，虽然没咋听，不过记得老师本人是提到前半学期的课听了也没啥用，因为光靠课堂的东西搞不出来点什么，应该是进了企业才有相关实践的内容，所以最后课程报告的重心只会放在数据挖掘这块。然后他就启动一些盲人说书模式，几位学生象征性地到场学习，整个课堂如闲时开放的自习室一般，老师学生各自完成学校下发的教学与学分收集任务

这门课也有课代表指定，不过应该是直接分配给学委了，前十几周都是自己做自己的事情，老师也没有下发报告要求，但是他的报告要求应该没有什么改动，下面分析这份报告需要什么工作，我先放出一部分要求：

Each student is expected to find a dataset (online or offline), do some data mining on this dataset. You can do any experiment if you can find the data set and you feel mining on such a data set is interesting.
You don’t need to give me the code. So, you can use any tool for mining, even without writing your own code, if you feel existing tools is sufficient.
Marking Standard:
10 pts for timely submission; (no delay will be tolerated)
15 pts for no violation of honest and independent completion;
5 pts for appropriate formatting as required.
20 pts for introduction section;
20 pts for method section;
20 pts for results section;
10 pts for conclusion section;

可以看到就是找个数据集（一般去Kaggle找）自己做点数据分析，这个事各种Copilot都很在行，而且不用提交代码，只要你把报告写出来就行，一般来说就是跑点图再填字。在给出报告要求时，他顺带提到，如果要高点分数的话，就别做那些很烂大街的数据集（比如最经常被用来做教程的房价、酒店价格预测数据集），整点新奇的数据集来做分析。此外，以上对报告具体部分评分标准的重要性不高，本人曾咨询过老师相关的标准，得到的回复为：

做过展示的我基本上是按展示打分的，报告只是看一下。。。

所以这门课最重要的拿分点就是在pre部分展示你堆的工作量，让他觉得你干了不少数据分析的活，他不拷打高工作量的pre，会简单拷打低工作量的pre。关于工作量部分，我的建议是多用一些图表和换不同方法，同时灵活运用Github（关于上述"15 pts for xxx"，这15分是白送的，剧透就到这里），最后祝大家轻松取得好成绩

上一页统计学方法入门(全英)下一页C++程序设计(全英)

最后更新于1年前