應用方向:
本研究采用高光譜成像技術和深度森林(DF)模型,對不同程度霜害稻種進行快速無損分類。通過優化光譜數據預處理(如多元散射校正MSC)和特征提取算法(如鄰域成分分析NCA),構建了多種分類模型,並對比了傳統機器學習方法(決策樹、KNN、SVM)與DF模型在小樣本數據上的表現。結果顯示,DF模(mo)型(xing)具(ju)有(you)更(geng)高(gao)的(de)分(fen)類(lei)精(jing)度(du)和(he)魯(lu)棒(bang)性(xing)。研(yan)究(jiu)還(hai)通(tong)過(guo)可(ke)視(shi)化(hua)技(ji)術(shu)直(zhi)觀(guan)展(zhan)示(shi)了(le)霜(shuang)害(hai)稻(dao)種(zhong)的(de)分(fen)類(lei)結(jie)果(guo),為(wei)農(nong)業(ye)生(sheng)產(chan)中(zhong)的(de)種(zhong)子(zi)篩(shai)選(xuan)和(he)質(zhi)量(liang)控(kong)製(zhi)提(ti)供(gong)了(le)高(gao)*、智能化的解決方案。該方法不僅提高了霜害種子檢測精度,也為高光譜成像在精準農業中的應用提供了重要參考。
背景:
稻種質量直接影響農業產量,但在生產和儲存過程中易受霜害、熱害、真*感(gan)染(ran)等(deng)影(ying)響(xiang),導(dao)致(zhi)活(huo)力(li)下(xia)降(jiang),尤(you)其(qi)在(zai)中(zhong)國(guo)東(dong)北(bei)地(di)區(qu),晚(wan)熟(shu)粳(jing)稻(dao)種(zhong)子(zi)易(yi)受(shou)低(di)溫(wen)霜(shuang)害(hai),降(jiang)低(di)發(fa)芽(ya)率(lv)和(he)幼(you)苗(miao)生(sheng)長(chang)速(su)率(lv),可(ke)能(neng)引(yin)發(fa)農(nong)業(ye)減(jian)產(chan)。因(yin)此(ci),快(kuai)速(su)、非破壞性檢測霜害種子的技術對農業生產至關重要。
傳統檢測方法如發芽試驗、四唑染色法雖準確,但操作複雜、成(cheng)本(ben)高(gao)且(qie)具(ju)破(po)壞(huai)性(xing),難(nan)以(yi)大(da)規(gui)模(mo)應(ying)用(yong)。近(jin)年(nian)來(lai),光(guang)譜(pu)成(cheng)像(xiang)技(ji)術(shu)因(yin)其(qi)能(neng)同(tong)時(shi)獲(huo)取(qu)光(guang)譜(pu)和(he)圖(tu)像(xiang)信(xin)息(xi),被(bei)廣(guang)泛(fan)應(ying)用(yong)於(yu)種(zhong)子(zi)質(zhi)量(liang)檢(jian)測(ce),尤(you)其(qi)是(shi)高(gao)光(guang)譜(pu)成(cheng)像(xiang)技(ji)術(shu)結(jie)合(he)化(hua)學(xue)計(ji)量(liang)學(xue)和(he)機(ji)器(qi)學(xue)習(xi)算(suan)法(fa),在(zai)種(zhong)子(zi)活(huo)力(li)和(he)霜(shuang)害(hai)檢(jian)測(ce)方(fang)麵(mian)取(qu)得(de)顯(xian)著(zhu)成(cheng)果(guo)。
然而,深度學習模型通常需要大量樣本和複雜參數設置。為此,本文提出將高光譜成像技術與適用於小樣本數據的深度森林模型(DF)結合,用於霜害稻種分類研究。該方法建模簡單,對小樣本數據具有良好魯棒性,為霜害稻種識別提供了一種高*解決方案。。
實驗設計
1.1材料與方法
本實驗使用的水稻種子品種為“豔風”,2018年收獲於遼寧盤錦,初始含水量13%至14%(幹種子)。隨機選取1800粒種子,並人工調整含水量至30%,以研究霜凍損傷。種子被隨機分為6組,每組300粒,其中一組為對照組,未冷凍處理,其餘5組在不同溫度下冷凍不同時間(見表1)。冷凍後,種子在25°C幹燥通風環境中放置一周,以恢複正常溫度並減少水分幹擾。
在本實驗中,選用了江蘇雙利合譜科技有限公司的“GaiaSorter”高光譜成像係統。該係統的核心組件包括均勻光源、光譜相機、計算機以及相關的控製軟件。在光譜成像儀中使用的相機是“Image-λ”係列高光譜相機,其光譜範圍大約為900-1700 nm。係xi統tong的de工gong作zuo原yuan理li是shi將jiang待dai測ce樣yang品pin放fang置zhi在zai由you軟ruan件jian控kong製zhi的de電dian動dong移yi動dong平ping台tai上shang,並bing采cai用yong推tui掃sao法fa來lai收shou集ji圖tu像xiang。隨sui著zhe電dian動dong平ping台tai的de移yi動dong,最zui終zhong獲huo得de了le包bao含han待dai測ce樣yang品pin光guang譜pu信xin息xi和he圖tu像xiang信xin息xi的de高gao光guang譜pu立li方fang體ti數shu據ju。由you於yu原yuan始shi光guang譜pu數shu據ju中zhong存cun在zai的de噪zao聲sheng會hui幹gan擾rao後hou續xu的de數shu據ju分fen析xi,因yin此ci本ben實shi驗yan選xuan取quSG1、SNV和MSC方法對原始光譜數據進行預處理。
圖1. 提取光譜數據的主要流程圖。
在獲取高光譜圖像之後,從每組中隨機選取50粒水稻種子,並根據國際種子檢測協會(ISTA)的規則進行發芽測試。我們將種子浸泡在蒸餾水中12小時,然後在標準發芽箱中進行種子發芽測試,並在種子表麵覆蓋濕潤的發芽紙以在室溫25°C下遮光。發芽力(GF)和發芽率(GR)是反映種子質量的主要指標之一。通常情況下,具有高GR和GF的種子活力強,而GR高但GF低的種子也可能活力低下。
原始光譜數據高維且含冗餘信息,難以直觀區分樣本差異。本研究采用t-SNE方fang法fa將jiang高gao維wei數shu據ju映ying射she至zhi低di維wei,實shi現xian樣yang本ben可ke視shi化hua,並bing擴kuo大da簇cu間jian距ju離li以yi緩huan解jie擁yong擠ji問wen題ti。此ci外wai,高gao光guang譜pu數shu據ju的de冗rong餘yu和he共gong線xian性xing影ying響xiang模mo型xing性xing能neng,因yin此ci使shi用yongPCA、SPA和NCA提取特征波長。PCA將多個指標轉化為少數主成分以降低維度,SPA通過前向變量選擇去除冗餘信息,NCA作為度量學習算法,優化數據的空間表示,提高模型效果。
本研究利用決策樹(DT)、K最近鄰(KNN)、支持向量機(SVM)和深度森林(DF)四種模型對水稻種子進行分類評價,確保分類的準確性與泛化能力。DT通過構建決策樹確定分類概率,並采用交叉驗證優化最小葉節點(minleaf)值。KNN依據鄰近樣本類別進行分類,並通過自動優化程序確定*佳k值。SVM采用RBF核函數處理線性和非線性數據,並利用網格搜索優化懲罰係數(c)和核函數半徑。DF通過級聯森林結構進行表示學習,並在驗證集上評估性能,若無顯著提升則終止訓練,以控製模型複雜度。
1.2.結果與討論
(1)發芽試驗結果分析
表2顯示,不同冷凍條件下水稻種子的發芽勢(GF)、發芽率(GR)和平均芽長均下降。正常種子的GF與GR一致,而霜凍*害種子的GF低於GR。GR高且GF強表明幼苗出土快且整齊,GF弱則出土不均且幼苗弱。在-10°C/4小時下,GR達90%,GF僅82%,且平均芽長較短,表明輕微霜凍*害。這些種子播種後出苗不足,影響收成,因此快速無損識別霜凍*害種子對農業生產至關重要。
(2)原始光譜分析
原始光譜波長範圍為900-1700 nm,但受儀器影響,前後部分噪聲較大。因此,我們選取了949.0-1638.0 nm的210個波長進行分析。圖3顯示不同冷凍條件下水稻種子的平均光譜曲線和標準差。六組種子的光譜曲線趨勢相似,但在特定波長範圍內存在顯著差異。例如,在1000.0-1300.0 nm,光譜反射率依次遞減:-25°C/20 h > -20°C/16 h > -15°C/12 h > -10°C/8 h > -10°C/4 h > 未處理,其中1300 nm處差異最明顯。1000-1100 nm主要對應N/H伸縮的第三泛音,1100-1300 nm對應C/H伸(shen)縮(suo)的(de)第(di)二(er)泛(fan)音(yin)。隨(sui)著(zhe)冷(leng)凍(dong)溫(wen)度(du)和(he)時(shi)間(jian)增(zeng)加(jia),種(zhong)子(zi)細(xi)胞(bao)受(shou)損(sun),澱(dian)粉(fen)結(jie)構(gou)破(po)壞(huai),影(ying)響(xiang)糊(hu)粉(fen)層(ceng)和(he)胚(pei)的(de)結(jie)構(gou),阻(zu)礙(ai)赤(chi)黴(mei)素(su)進(jin)入(ru),進(jin)而(er)影(ying)響(xiang)種(zhong)子(zi)活(huo)力(li)。因(yin)此(ci),冷(leng)凍(dong)條(tiao)件(jian)越(yue)嚴(yan)苛(ke),細(xi)胞(bao)破(po)壞(huai)越(yue)嚴(yan)重(zhong),使(shi)得(de)1000-1300 nm的光譜反射率逐漸增加。
圖3. 不同冷凍條件下水稻種子的平均光譜曲線及其標準差
(3)高維光譜數據的可視化分析
本研究采用t-SNE對原始光譜數據及SG1、SNV、MSC三種預處理方法處理後的光譜數據進行可視化,並將其降維至二維進行分析比較。為減少t-SNE的隨機性,采用Matlab R2018b默認參數(歐幾裏得距離、Perplexity = 30、LearnRate = 500、Theta = 0.5)。
圖4展示了不同預處理方法的光譜曲線及t-SNE可視化結果。從圖4e可見,原始光譜數據在不同冷凍條件下混合重疊,降維後特征難以區分。圖4f和4g顯示,SG1和SNV處理後仍存在大量重疊,與原始數據相比無明顯改善。而圖4h表明,經MSC預處理的數據聚類效果顯著,6組水稻種子被清晰分類。總體而言,MSC處理後的光譜數據優於其他方法。
圖4. 不同預處理方法的光譜曲線:(a) 原始光譜曲線;(b) SG1處理後的光譜曲線;(c) SNV處理後的光譜曲線;(d) MSC處理後的光譜曲線。使用t-SNE可視化不同預處理方法處理的光譜數據:(e) 原始光譜數據;(f) SG1處理後的光譜數據;(g) SNV處理後的光譜數據;(h) MSC處理後的光譜數據。
(4)基於全波長的建模分析
在建模前,所有樣本隨機分為校準集和預測集,比例為3:1。為了選擇*佳的預處理方法和模型組合,將原始光譜數據以及經過SG1、SNV和MSC預處理的光譜數據分別輸入到DT、KNN、SVM和DF模型中。圖5顯示了基於全波長的建模分析結果。可以看出,經過MSC處理的光譜數據具有最高的建模準確率,均高於90%。這與t-SNE可視化的結論一致。
圖5. 基於全波長建模分析的結果
(5)基於PCA、SPA和NCA的特征波長選擇
為降低高維光譜數據維度並保留關鍵信息,本研究采用PCA、SPA和NCA從MSC處理後的光譜數據(210個變量)中提取特征波長。前三個主成分的累積貢獻率達99.52%,因此選取其載荷係數提取特征波長。圖6顯示了提取結果,共選出10個關鍵波長(1003.7、1108.7、1115.4、1192.5、1199.2、1295.4、1302.0、1357.8、1462.0和1471.7 nm)。
圖6. 利用前三個主成分載荷曲線提取的特征波長。
圖7展示了SPA選擇的特征波長結果。最終,選擇了8個特征波長,根據它們相關性的順序排列依次是1139.0、1088.5、1000.3、1195.9、1282.2、1612.6、1367.6和1467.0 nm。這些波長的相關性也顯示了它們在區分不同霜凍程度水稻種子中的重要性。
圖7. 由SPA提取的特征波長。
NCA算法用於高維數據特征選擇,通過計算變量權重篩選重要特征。圖8顯示,在210個波長中,僅6個波長權重顯著高於0,表明多數波長對區分霜凍程度貢獻較小。最終選出的六個特征波長依次為1030.9、1529.6、1334.9、1152.4、1047.9和1413.3 nm,它們與水稻種子化學成分密切相關。
圖8. 使用NCA獲得的每個波長的權重值。
表3展示了三個特征提取算法提取的特征波長。可以看出,PCA和SPA提取的特征波長非常接近,NCA算法提取的特征波長數量最少。
(6)基於特征波長的建模分析
為了評估不同模型的有效性,我們將總樣本集(6類水稻種子,每類300粒,共1800粒)分成不同樣本集,包含每類水稻種子10至300粒不等。模型的準確率通過五折交叉驗證獲得。圖9a至d展示了基於DT、KNN、SVM和DF模型在不同樣本集數量下的結果。整體上,PCA的效果不如NCA和SPA。在比較後發現,當樣本集較少時,NCA提取的特征波長建模效果優於SPA,且隨著樣本集增加,二者的效果趨於接近。此外,NCA提取的特征波長數量少於SPA,有助於提升運算速度。因此,NCA被選為*佳特征提取算法。
圖9. 基於不同特征提取算法在不同樣本集數量下的建模結果。(a) DT模型;(b) KNN模型;(c) SVM模型;(d) DF模型。
圖10展示了基於NCA的DT、KNN、SVM和DF模型在不同樣本集數量下的建模結果。DF模型在樣本數量較少時仍保持了良好的分類效率,顯著高於本其他三個模型。同時,由於DF模型在不同樣本集數量下的分類準確率優於其他三個分類模型,因此最終被選為*佳分類模型。
圖10. 基於NCA的不同樣本集數量下DT、KNN、SVM和DF模型的建模結果
(7)不同霜凍程度水稻種子的可視化
高gao光guang譜pu成cheng像xiang技ji術shu能neng夠gou同tong時shi獲huo取qu水shui稻dao種zhong子zi的de光guang譜pu和he空kong間jian信xin息xi,從cong而er通tong過guo可ke視shi化hua地di圖tu展zhan示shi不bu同tong霜shuang凍dong程cheng度du的de種zhong子zi分fen類lei結jie果guo。研yan究jiu采cai用yong逐zhu對dui象xiang方fang法fa進jin行xing可ke視shi化hua,並bing從cong1500粒種子(每類250粒)中選取樣本進行模型校準和測試,剩餘300粒用於可視化。基於MSC-NCA-DF模型,校準時將種子隨機分為校準集和預測集,並通過5折交叉驗證驗證模型效果。通過敏感性和特異性評估模型性能。DF模型能夠高*區分健康和不同霜凍程度受損的種子,表明其具有較高的敏感性和特異性。視覺分類結果顯示,在300粒種子中,隻有2粒被誤分類,分類準確率為99.33%。
圖11. 不同霜凍程度水稻種子分類結果的可視化。
結論
本研究結合DF模型和高光譜成像技術,成功識別不同霜凍程度受損的水稻種子。使用三種光譜預處理方法、三種特征提取算法和三種傳統機器學習模型,以及一個深度學習模型進行對比建模。經過分析,MSC-NCA-DF模型表現*佳,DF模型在小樣本集中依然具備良好分類能力,最終被選為*佳模型。基於該模型的分類結果可視化,展示了不同霜凍程度的水稻種子,為未來在線檢測係統提供參考。
推薦產品
作者簡介
通訊作者:吉海彥,中國農業大學,博導
參考文獻
論文引用自一區文章:Liu Zhang, Heng Sun, Zhenhong Rao, Haiyan Ji. Hyperspectral imaging technology combined with deep forest model to identify frost-damaged rice seeds. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 229 (2020) 117973. https://doi.org/10.1016/j.saa.2019.117973