對(duì)于第一次進(jìn)行新高考的省份來說,如何參考?xì)v年數(shù)據(jù)是最核心的問題;對(duì)應(yīng)到實(shí)際數(shù)據(jù)和算法上,即要解決兩個(gè)關(guān)鍵點(diǎn):
1. 不分文理的選科專業(yè)如何對(duì)應(yīng)到歷年的分文理專業(yè)
2. 歷年分文理的錄取排名如何換算到不分文理的排名
一、關(guān)鍵點(diǎn)1??招生/錄取專業(yè)對(duì)應(yīng)
這個(gè)問題本身不復(fù)雜,但很繁瑣,因?yàn)閿?shù)據(jù)的邊界情況很難窮盡。
1. 如果歷年招生計(jì)劃的專業(yè)名稱沒有變化,例如2016-2019年A大學(xué)的B專業(yè)招生名稱是“計(jì)算機(jī)科學(xué)與技術(shù)”,2020年的招生名稱也是“計(jì)算機(jī)科學(xué)與技術(shù)”,那可以直接對(duì)應(yīng)。
2. 如果歷年的招生計(jì)劃專業(yè)名稱發(fā)生了變化(變化原因有很多,例如改名、批次變更、合并等等),例如2016-2019年A大學(xué)的B專業(yè)招生名稱是“計(jì)算機(jī)科學(xué)與技術(shù)(中外合辦)”,2020年的招生名稱改成“計(jì)算機(jī)科學(xué)與技術(shù)(中外合作辦學(xué))”,這種情況在用類似Excel的vlookup精確查找函數(shù)去做時(shí),就會(huì)找不到數(shù)據(jù),如果用簡(jiǎn)單的模糊匹配又很容出錯(cuò)。
對(duì)于第二種情況,研究院給出的解決辦法是,通過AI學(xué)習(xí)了2016-2019年每個(gè)省份每個(gè)學(xué)校的招生專業(yè),機(jī)器自動(dòng)匹配可以解決大部分(在上面的例子里,機(jī)器可以準(zhǔn)確識(shí)別出“中外合辦”和“中外合作辦學(xué)”是同樣的語義),少量機(jī)器無法確認(rèn)的,會(huì)反饋出來,由人工點(diǎn)選確認(rèn),以此來確定邊界的識(shí)別廣度范圍和數(shù)據(jù)的準(zhǔn)確性。
二、關(guān)鍵點(diǎn)2??排名換算
相比第1個(gè)關(guān)鍵點(diǎn),相信關(guān)鍵點(diǎn)2是更多人關(guān)心的問題。歷年的錄取數(shù)據(jù)都是分文理的情況,如何在不分文理招生的時(shí)候進(jìn)行參考;對(duì)于大部分人來說,第一反應(yīng)能想到的肯定是通過乘以某個(gè)系數(shù)比例,進(jìn)行簡(jiǎn)單換算,僅此而已。對(duì)此,研究院的同學(xué)對(duì)幾種算法進(jìn)行了對(duì)比
1. 分?jǐn)?shù)等比例法
認(rèn)為?科分?jǐn)?shù)的前x%分位點(diǎn)對(duì)應(yīng)與理科分?jǐn)?shù)的前x%分位點(diǎn),擬合曲線如下圖
2.排名等比例法
認(rèn)為?科排名的前x%分位點(diǎn)對(duì)應(yīng)與理科排名的前x%分位點(diǎn),擬合曲線如下圖
3.研究院自研的線性擬合LM+KNN算法
KNN:核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
線性擬合:曲線擬合的一種形式。設(shè)x和y都是被觀測(cè)的量,且y是x的函數(shù):y=f(x; b),曲線擬合就是通過x,y的觀測(cè)值來尋求參數(shù)b的最佳估計(jì)值,及尋求最佳的理論曲線y=f(x; b)。當(dāng)函數(shù)y=f(x; b)為關(guān)于b的i線性函數(shù)時(shí),稱這種曲線擬合為線性擬合。
忽略這些晦澀的專業(yè)術(shù)語,簡(jiǎn)單來說就是:在舊高考時(shí)同一個(gè)學(xué)校在文理兼招的專業(yè),招到的文科學(xué)生和理科學(xué)生的實(shí)力差距是相對(duì)穩(wěn)定的(畢竟是那么多年考生用分?jǐn)?shù)投票的結(jié)果),但不同層次學(xué)校的差距是有差距的。最終通過對(duì)不同層次的學(xué)校擬合后,即得到對(duì)應(yīng)關(guān)系,曲線如下:
一.2022年湖南新高考志愿是專業(yè)組內(nèi)調(diào)劑嗎
二.湖南新高考志愿是院校加專業(yè)組嗎
三.湖南新高考志愿是同時(shí)投遞還是順序投遞
四.河北新高考可以報(bào)幾個(gè)專業(yè)及河北的新高考模式是什么
五.河北新高考可以報(bào)一個(gè)院校的幾個(gè)專業(yè)及志愿填報(bào)訣竅
六.河北新高考考生可以報(bào)多少個(gè)志愿及如何填報(bào)
七.3+1+2新高考模式填報(bào)志愿如何選大學(xué)
八.3+1+2新高考志愿填報(bào)依據(jù)及如何填報(bào)
九.3+1+2新高考志愿填報(bào)規(guī)則是什么
十.新高考模式下一個(gè)學(xué)校可以報(bào)幾個(gè)專業(yè)
上面就是簡(jiǎn)單的3種算法介紹,那問題來了?哪種算法的性能更好呢?這里以浙江新高考(2017年開始)的數(shù)據(jù)進(jìn)行測(cè)試,得到的結(jié)果如下:
*my_Pdict和my_Pdict是不同參數(shù)類型的LM+KNN
*MAE越小越好
不難看出,LM+KNN的性能是目前幾種算法中更好的
三、結(jié)語
基于以上的數(shù)據(jù),目前新高考使用的換算位次算法是LM+KNN。