看paper也看了一陣子, Eigenvalue / Eigenvector / Singular value decomposition(SVD)

這我在線代都有學過, 也都知道他在線代裡面在幹嘛. 但是在text mining中看到他, 就跟有看沒有一樣.

看了一陣子漸漸略懂, 所以就po上來分享一下 歡迎大家與我討論!

那詳細的數學定義我在這就不講了! 有興趣的就自己google吧 不然就回去翻翻線代課本!

Eigenvalue 及 Eigenvector 在不同應用上會有不同的物理意義,

所以要講它的幾何意義就要看你套到那個應用問題上來決定,

在Text mining中, 通常會用一個matrix來表示document & term的關係

稱為term-document matrix.

顯然地, 當今天你的document數量很多的時候.

你的matrix會變成非常的大!

這樣在執行某些運算時計算就會變成非常的複雜.

所以SVD這時就是運用在這上面

透過SVD他會把一個matrix M 轉變成3個matrix UΣV^T

那簡單的介紹這三個matrix,

左右兩邊的matrix是由eigenvector所構成的

中間的matrix 是一個對角矩陣, 裡面的值為 eigenvalue

求出來的 eigenvector, 其實就代表基底向量,若相對應的 eigenvalue 大,

代表這些 Data 相對於該 eigenvector 比叫重要. 反之 eigenvalue 小,

那相對應的 eigenvector 對這些資料來說就相對沒那麼重要了

所以通常會把中間eigenvalu的值由大到小排列

那所對應的 eigenvector 也要跟著變動,

通常我們認為犧牲一點準確率來達到節省計算成本是非常划得來的一件事!

根據上述提到的eigenvalue 小,

那相對應的eigenvector 對這些資料來說就相對沒那麼重要了

那接著我們為了達到將維的目的找到一個近似原本

term-document matrix的matrix X 來取代原本的 matrix M.

那就這是整個SVD 在 Text miming中的意義!

了解SVD之後完全建議可以去了解 Latent semantic analysis(LSA)

如果你想更深入了解的話, 你當然可以自己去google原本的paper看.

就可以更加了解 SVD 的好處!