目前已完成的数据处理:
爬取信息我就不多说了。
下面主要介绍一下处理网页之后得到数据(以Excel工作簿的形式保存处理后的数据)
每一个学科类别的Excel工作簿中保存的工作表为:
Sheet 1(每一个学校招生页面的原始数据):
学校名、院系所、专业、研究方向、学习方式、拟招生人数(原始信息)、拟招收总人数、推免人数、统招人数、统招人数类型、详情查看链接、学校链接为一条信息
Sheet 2(根据Sheet 1处理后的数据,可以查看某校的院系所总数、专业总数、研究方向总数、拟招收总人数、推免总人数、统招总人数):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号为一条信息
Sheet 2_2 (数据与Sheet2一样,不过排序方式是按照学校的统招总人数从多到少排列的):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号
Sheet 2_3(概要工作表):
本学科类别的招生机构总数、招生院系总数、专业总数、研究方向总数、拟招收人数总数、推免人数总数、统招人数总数,统招比重(统招生人数/拟招收总人数)
Sheet 3(爬取每一个学校的每一个方向的招生页面的原始数据):
学校名、院系所名、专业名、研究方向名、政治、外语、数学、专业课、政治详情、外语详情、数学详情、专业课详情、指导老师、备注、详情链接、学校链接
Sheet 3-2(概要工作表):
计算出政治有多少科目。
外语、业务课一、业务课二也按照这样处理。
将要完成开发的数据处理任务:
Sheet 3-3(概要工作表):
计算出考试政治时某科目的招生机构总数及对应的机构名列表,并以招生机构数量从多到少排序信息。
外语、业务课一、业务课二也按照这样处理。
大数据汇总工作簿:
Sheet 1(以拟招收总人数排序):
每一个学科类别招生拟招收总数各是多少。
Sheet 2(以统招生总人数排序):
每一个学科类别招生拟招收总数各是多少。
Sheet 3:
2018年共有多少个招生机构招生,有多少个门类、多少个学科类别,2018年的硕士招生总人数是多少。
其中拟招收人数最多的前10个学科类别是什么,统招生人数最多的前10个学科类别又是什么,统招比重(统招生人数/拟招收总人数)最大的前10个学科类别又是什么。
程序优化方面:
已完成:
对计算密集型的任务采用多进程加速
待完成:
IO密集型以后如果再需要爬取大量数据时,可以采用多线程或多线程+多进程来实现加速。
未来可以的话还会使用图形界面(目前是字符界面),但由于目前时间比较紧张,所以以开发功能为主,对于程序的美观性暂时不做要求。
爬取信息我就不多说了。
下面主要介绍一下处理网页之后得到数据(以Excel工作簿的形式保存处理后的数据)
每一个学科类别的Excel工作簿中保存的工作表为:
Sheet 1(每一个学校招生页面的原始数据):
学校名、院系所、专业、研究方向、学习方式、拟招生人数(原始信息)、拟招收总人数、推免人数、统招人数、统招人数类型、详情查看链接、学校链接为一条信息
Sheet 2(根据Sheet 1处理后的数据,可以查看某校的院系所总数、专业总数、研究方向总数、拟招收总人数、推免总人数、统招总人数):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号为一条信息
Sheet 2_2 (数据与Sheet2一样,不过排序方式是按照学校的统招总人数从多到少排列的):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号
Sheet 2_3(概要工作表):
本学科类别的招生机构总数、招生院系总数、专业总数、研究方向总数、拟招收人数总数、推免人数总数、统招人数总数,统招比重(统招生人数/拟招收总人数)
Sheet 3(爬取每一个学校的每一个方向的招生页面的原始数据):
学校名、院系所名、专业名、研究方向名、政治、外语、数学、专业课、政治详情、外语详情、数学详情、专业课详情、指导老师、备注、详情链接、学校链接
Sheet 3-2(概要工作表):
计算出政治有多少科目。
外语、业务课一、业务课二也按照这样处理。
将要完成开发的数据处理任务:
Sheet 3-3(概要工作表):
计算出考试政治时某科目的招生机构总数及对应的机构名列表,并以招生机构数量从多到少排序信息。
外语、业务课一、业务课二也按照这样处理。
大数据汇总工作簿:
Sheet 1(以拟招收总人数排序):
每一个学科类别招生拟招收总数各是多少。
Sheet 2(以统招生总人数排序):
每一个学科类别招生拟招收总数各是多少。
Sheet 3:
2018年共有多少个招生机构招生,有多少个门类、多少个学科类别,2018年的硕士招生总人数是多少。
其中拟招收人数最多的前10个学科类别是什么,统招生人数最多的前10个学科类别又是什么,统招比重(统招生人数/拟招收总人数)最大的前10个学科类别又是什么。
程序优化方面:
已完成:
对计算密集型的任务采用多进程加速
待完成:
IO密集型以后如果再需要爬取大量数据时,可以采用多线程或多线程+多进程来实现加速。
未来可以的话还会使用图形界面(目前是字符界面),但由于目前时间比较紧张,所以以开发功能为主,对于程序的美观性暂时不做要求。