應用方向:高光譜成像技術作為核心手段,被應用于紅花籽油摻假識別與濃度預測中。高光譜成像技術通過獲取油樣在可見–近紅外波段的光譜響應,能夠全面捕捉油品在摻假前后化學組分微小變化所引起的光譜特征差異,實現對摻假行為的快速、無損識別。該研究凸顯了高光譜成像在高價值食用油摻假防控中的實際應用前景,尤其是在保障產品純度和消費者權益方面具有重要意義。
導讀
背景:紅花籽油因其富含亞油酸等不飽和脂肪酸而具有較高的營養價值和市場價格,廣泛應用于食品、醫藥及保健品領域。然而,由于其價格較高,在商業流通中常被摻雜廉價植物油(如玉米油、大豆油和葵花籽油),導致食品摻假問題頻發,嚴重威脅消費者權益與食品安全。傳統的摻假檢測方法如氣相色譜-質譜聯用(GC-MS)雖然準確性高,但檢測過程通常需要復雜的樣品前處理、專業操作人員和昂貴設備,難以實現快速、高通量篩查。
高光譜成像技術(HSI)作為一種融合圖像與光譜信息的無損檢測手段,在農產品質量、安全性檢測方面表現出良好應用前景。因此,開發一種結合GC-MS與HSI的高效檢測方法,以實現對紅花籽油摻假的快速識別和摻假水平的精準預測,具有重要的現實意義和應用價值。
作者信息:許麗佳,四川農業大學機電工程學院,博士生導師
期刊來源:Journal of Food Composition and Analysis
研究內容
建立一種結合GC-MS與HSI的聯合方法,用于快速、無損識別紅花籽油(SSO)中是否摻假及摻假水平的定量預測,以提升植物油品質控制與摻假檢測的準確性與效率。在研究方法上,作者首先制備不同摻假比例的紅花籽油樣本,摻假對象包括玉米油、大豆油和葵花籽油三種常見植物油。同時,使用高光譜成像系統采集樣品在400–1000 nm波段范圍內的圖像數據,并提取反射率光譜特征。為了提升建模效率與準確性,研究引入多種光譜預處理方法,最終選用中值濾波(MF)處理高光譜數據,以顯著降低噪聲并提高模型的魯棒性和泛化能力,在特征波段選擇方面,識別出440 nm、530 nm 以及 880–950 nm 附近的波段更適合用于建立 SSO 摻假濃度的預測模型,同時也能縮短建模時間。模型構建方面,采用以嶺回歸(Ridge) 和偏最小二乘回歸(PLSR)為基礎模型、LightGBM為元模型的 Stacking 集成學習模型,實現了對 SSO 摻假濃度的高精度預測。在此基礎上,進一步將 GC-MS 檢測得到的亞油酸(LA)、油酸(OA)和棕櫚酸(PA)含量與高光譜數據共同建模,使模型表現出卓*的預測性能。
實驗設計
采用不同比例將葵花籽油、大豆油和玉米油與不同體積的紅花籽油的混合。在混合之前,純油樣先進行均質化處理。本研究共準備并分析了350個樣品,包括50份純油樣和300份摻假油樣。在光譜分析之前,使用漩渦混合器將油品混合均勻,并將其儲存在4℃的黑暗環境中,以備進一步分析。
圖1展示了本研究的整體流程。利用高光譜儀(圖1a)采集油樣的光譜數據,并通過氣相色譜-質譜聯用(GC-MS)技術(圖1b)檢測油樣中亞油酸(LA)、油酸(OA)和棕櫚酸(PA)的含量及濃度。
圖1. 研究整體流程概覽。
本研究的高光譜數據由江蘇雙利合譜科技有限公司生產的GaiaSorter高光譜成像儀進行采集,該系統的核心部件包括高光譜相機、光源、電動載物臺、計算機、有效光譜范圍為400-1000 nm,光譜分辨率為2.8 nm,共有256個波段,高光譜相機透鏡與油樣裝載平臺的距離設定為160 mm,電動載物臺速度為4.6 mm/s,高光譜相機的曝光時間為8.5 ms。每個油樣的光譜圖像被單獨收集,每個油樣的三次掃描用于計算平均光譜。總共掃描了350個樣品,得到89600個光譜數據值,并使用Specview軟件進行了黑白標定。
研究方法
有效的預處理可以消除環境因素和光譜設備本身非品質信息對高光譜數據的影響,為提高黑白白色校正后光譜數據的信噪比,采用了3種光譜預處理方法,即L2范數歸一化(L2 NN)、乘性散射校正(MSC)、中值濾波(MF)。
本研究構建了嶺回歸(Ridge)、LightGBM、隨機森林(RF)、梯度提升決策樹(GBDT)、CatBoost、偏最小二乘回歸(PLSR)和Stacking回歸模型。其中Stacking是一種“集成學習"方法,如圖2a所示。它將多個基礎模型的預測結果輸入一個元模型中進行再學習。將全部數據劃分為訓練集D_train和測試集D_test,D_train 又進一步劃分為訓練折疊和驗證折疊。基礎學習器在訓練折疊上訓練,并在驗證折疊上輸出預測結果,之后這些結果被送入次級學習器,用于學習各基礎模型的權重。最終模型通過 N 層疊加學習器完成迭代學習并輸出預測結果。
圖2. 集成學習模型算法原理示意圖 (a) "集成學習"方法迭代過程示意圖 (b) 由Ridge、PLSR和LightGBM構成的多層學習系統
采用決定系數(R2)、均方根誤差(RMSE)和擬合時間回歸模型的評價標準。采用5折交叉驗證法對模型進行檢驗。
結果
圖3展示了不同摻假濃度下混合油樣的脂肪酸含量和平均光譜曲線。從圖3(a-c)可以看出,亞油酸(LA)、油酸(OA)和棕櫚酸(PA)的含量存在明顯差異。葵花籽油和大豆油在脂肪酸組成上總體相似,但在棕櫚酸含量上存在一定差距。同時,紅花籽油(SSO)富含亞油酸。在光譜數據處理方面,移除了400 nm之前和1000 nm之后的嚴重干擾波段,主要分析400–1000nm范圍內的光譜數據。圖3(d-f)展示了使用高光譜成像儀采集的所有混合油樣的平均光譜。紅花籽油(SSO)與其他三種食用油在不同摻假濃度下展現出不同的光譜強度反射變化。
圖3. 不同摻偽濃度混合油樣的脂肪酸含量與光譜曲線 (a)-(c) 分別表示不同摻偽濃度下油樣的亞油酸(LA)、油酸(OA)和棕櫚酸(PA)含量變化;(d)-(f) 分別展示不同摻偽比例下紅花籽油(SFO)、大豆油(SO)和玉米油(CO)的光譜曲線特征。
在回歸分析中,將樣品的光譜曲線數據按0.75:1的比例分為訓練集與測試集。基于LightGBM算法對于不同方法預處理后的數據進行建模。在各種預處理方法中,MF預處理的效果*好,在測試集上的R2為0.857,RMSE為0.106,在交叉驗證中,R2 cv = 0.815,RMSEcv = 0.111。MF的應用有利于數據的平滑處理,對后續的分析有積極的影響。
之后實驗中使用了Ridge、LightGBM、CatBoost、RF、GBDT、PLSR算法以及Stacking模型對MF預處理過的光譜進行建模處理。使用全波段信息建模時可以發現,CatBoost、RF和GBDT三種模型的決定系數 R2 及其交叉驗證值 R2cv 均低于 0.8,不適合進行后續回歸分析。而 Ridge 回歸、LightGBM 和 PLSR 三種算法的 R2 與 R2cv 均高于 0.8,適用于后續的回歸建模。其中,Ridge 模型在單一模型的測試集中表現最好,其 R2達到 0.930,交叉驗證 R2cv 為 0.852,且建模耗時較短。本研究中,Stacking 模型以 Ridge 和 PLSR 為基礎模型,LightGBM 為元模型。Stacking 模型在測試集上的 R2 提升至 0.943,RMSE 降至 0.066;其交叉驗證性能也更加理想,R2cv 達到 0.881,RMSEcv 為 0.089。與單一模型如 Ridge 相比,Stacking 模型充分融合了三種模型的優勢,在各項性能指標上均實現了顯著提升。采用 MF 預處理算法后所建立的模型,有效增強了四種算法的預測性能。Ridge、LightGBM、PLSR 及 Stacking 模型在紅花籽油摻假預測中的結果見圖 4。
圖4. 基于MF預處理的不同算法模型建模結果對比 (a)嶺回歸(Ridge)模型建模結果 (b)輕量梯度提升機(LightGBM)建模結果 (c)偏最小二乘回歸(PLSR)建模結果 (d)Stacking集成模型建模結果
為了降低建模過程中的復雜度,實現高效檢測,采用了特征波段建模方法,本研究選擇 Ridge 回歸模型作為特征提取工具,用于提取具有權重的前30個特征波段,其在光譜中的分布如圖 5a 所示。所選波段主要集中在 440 nm、530 nm 以及 880–950 nm 附近。之后研究使用這些篩選出的波段進行建模分析。實驗結果表明,MF-Ridge-Stacking模型的建模性能優于MF-LightGBM、MF-CatBoost、MF-RF、MF-GBDT、MF-PLSR、MF-Ridge和MF-Stacking模型, MF-Ridge-Stacking回歸分析模型的R2 cv為0.913,RMSE cv為0.076,R2為0.944,RMSE為0.065,表明了基于特征波段的摻假濃度回歸分析的優*性。
圖5. 嶺回歸特征提取結果可視化(a) 嶺回歸算法篩選的特征波長分布圖(b) 前30個特征波長得分排序圖
為了深入分析每個特征與每種脂肪酸含量之間的關系,整合了不同摻假濃度油樣的數據,并進一步探討了亞油酸(LA)、油酸(OA)、棕櫚酸(PA)含量與摻假濃度之間的關系。結果顯示,摻假濃度與 LA 含量之間存在較強正相關關系(圖 6b),其相關系數 R 達 0.75。在特定波段(525 nm、552 nm 和 609 nm)處,光譜數據與摻假濃度之間表現出顯著正相關(圖 6a),偏相關系數 p ≤ 0.001。此外,LA 與 OA 含量之間呈強負相關關系,相關系數 R= ?0.87,說明當 LA 含量升高時,OA 含量也隨之升高。進一步地,將三種脂肪酸含量與預處理后的光譜數據(MF)一同輸入多元回歸模型,以探索其內在關系。可明顯看出在將脂肪酸含量作為建模特征后,整體模型性能顯著提升,所有模型的 R2 值均達到 0.9 以上,尤其是 Stacking 模型的 R2 達到 0.976,顯示出*佳的預測性能。隨后,采用 Stacking 算法對油樣數據進行測試,測試集包括88個摻假濃度在 0% 至 100% 之間的額外樣本。整體預測絕對誤差較小,最大偏差為 16.64%,最小偏差為 0.01%。結果表明,Stacking 模型在不同油樣摻假水平預測中表現良好,驗證了其在實際應用中的可靠性與有效性,為食品行業中的真實性檢測提供了有力技術支持。
圖6. 光譜特征波段與不同濃度脂肪酸的聯合分析(a) 不同摻偽濃度下光譜特征波段與脂肪酸含量的相關性分析(b) 摻偽濃度與脂肪酸含量的相關性分析(c) 不同模型性能對比雷達圖
結論
本研究提出了一種基于HSI和GC-MS技術的化學計量學方法,用于檢測紅花籽油(SSO)的摻假濃度。通過不同的預處理方法,研究發現采用MF進行預處理能夠成功降低噪聲信息,并顯著提升模型的穩健性和泛化能力。此外,本研究還確定了特定的波長范圍(接近440nm、530nm以及880nm至950nm),這些波長范圍能夠在不降低預測準確性的前提下優化建模時間。在開發模型的過程中,構建的集成學習模型(包含Ridge、PLSR基礎模型以及LightGBM元模型)在預測紅花籽油濃度摻假方面展現出比單一模型更高的準確率。特別是通過聯合建模GC-MS測定的脂肪酸含量和高光譜數據,模型的決定系數提升至0.976,進一步凸顯了該模型的卓*性能。因此,MF-Ridge-Stacking模型被確定為預測紅花籽油摻假濃度的最佳模型。本研究拓展了紅花籽油及其他食用油摻假的識別方法,并通過結合GC-MS和HSI技術以及機器學習,為食品行業提供了一種實用且可靠的摻假檢測方法。
關于雙利合譜
雙利合譜深耕高光譜技術領域,憑借自主研發實力打造了覆蓋多場景的高光譜產品矩陣——從適配空中作業的無人機高光譜成像系統、機載高光譜相機,到便于現場檢測的便攜式高光譜儀、便攜式高光譜分析儀,再到聚焦地面觀測的地物高光譜成像系統,以及針對特定波段與場景的高光譜相機、近紅外高光譜相機、短波紅外高光譜、顯微高光譜成像系統,全*位滿足不同領域的精準光譜探測需求。
這些高光譜產品廣泛應用于農業遙感、環境監測、地質勘探、生物醫療、工業質檢等場景,以高分辨率、高靈敏度的核心性能,助力用戶高效獲取光譜數據、挖掘物質成分信息。持續關注雙利合譜,獲取更多高光譜產品動態、技術進展與行業應用案例,讓自主研發的高光譜技術為您的科研探索與產業升級賦能!