Smart / Simple / Savory life of Jason Yeh: 具備極佳伸展性的高速互連架構

HyperTransport技術是針對高性能系統領域的互連解決方案之一，在處理器到處理器，以及處理器到I/O 的應用中，此技術可以提供相當低的延遲，以及極為驚人的的頻寬表現。目前HyperTransport技術已被廣泛應用在Sun、Cray和IBM等公司基於AMD Athlon64、Sempron和Opteron處理器的PC、工作站、伺服器和超級電腦中。至於在高階Cisco網路路由器、Apple G5級桌上型工作站和伺服器系統以及低成本消費設備中（如微軟的X-box），我們也都可以見到HyperTransport擔任關鍵性的角色。

由於HyperTransport是一種非常靈活，且兼具擴充性的點到點互連方案，因此可以在講求成本的前提之下，提供相當優秀的平行和串行匯流排特性，這些特性包括了低延遲、低成本，以及可彈性調整的頻寬表現。作為前端匯流排應用，HyperTransport技術已經整合在AMD、PMC- Sierra、 Broadcom和Transmeta等公司的處理器設計中。經由HyperTransport，可以有效簡化設計，並降低了共享本地記憶體和I/O設備的多處理器系統的成本。

HyperTransport的起源－LVDS技術

要瞭解HyperTransport技術，就必須先從低電壓差動訊號傳輸技術（LVDS）說起，因為HyperTransport本身就是基於LVDS的一種增強版資料傳輸方式。

顧名思義，LVDS是一種低擺幅的差動訊號技術，透過此技術，訊號得以在路徑窄小的通道中進行高速傳輸，而由於其低振擺幅以及僅需要相當低的電壓即可驅動的特性，不論對於功耗，或者是雜訊表現方面，都有相當優秀的表現。

過去十幾年的時間內，5V已經成為普遍的供電標準，藉此得以簡化了不同技術與邏輯電路之間的連接方式，但是隨著整合電路的發展以及對於資料傳輸的速度需求，對於更低電壓的供電方式的需求也愈顯迫切。電壓的降低不僅可以減少高密度整合電路的功耗，同時也能夠降低晶片內部因漏電流而帶來的過熱問題。

LVDS 的物理端子使用1.2V電壓偏置，提供400mV擺幅的訊號（使用差動訊號的原因是雜訊以共模的方式在一對差動線上耦合出現，並在接收器中相減，藉以達到消除雜訊的目的）。LVDS 驅動和接收器不依賴於特定的供電電壓，因此它很容易轉移到低壓供電的系統中去，且維持性能不變。

LVDS 在兩個標準中定義：1.IEEE P1596.3（1996年3月通過），主要針對SCI（Scalable Coherent Interface），定義了LVDS的電氣特性，並且還定義了SCI協議中封包交換時的編碼；2.ANSI/EIA/EIA-644（1995年11月通過），則是定義了LVDS的電氣特性，並建議了655Mbps的最大速率和1.823Gbps的無失真媒體上的理論極限速率。在兩個標準中都指定了與物理媒體無關的特性，這意味著只要媒體在指定的雜訊邊緣和歪斜容忍範圍內發送訊號到接收器，端子都能正常工作。LVDS具有許多優點：終端適配容易、功耗低、具有fail-safe特性確保可靠性，此外，也具備了低成本、高速傳送的特性。這些特性使得LVDS在計算機、通訊設備、消費電子等方面得到了廣泛應用。

而LVDS技術在低功耗環境中的高頻寬表現，也讓此技術被廣泛應用在行動裝置上，比如數位相機、數位錄影機、高階 PDA、照相手機等產品，由於這些裝置的資料傳輸需求方面已經遠超出傳統行動裝置所能負擔的程度，比如說高階PDA或智慧型手機的螢幕解析度可能已經高達 SVGA（800x600）以上，要使手機在此解析度之下進行每秒60個畫面的更新（60Hz），需要的頻寬要高達數百Mbps。

由於照相功能的引進，讓感光元件所取得的資料能夠迅速的傳送回基頻處理器，處理為數位資料且儲存於媒體當中。隨著畫素的一再飛漲，更是需要高速匯流排的輔助，不然行動裝置的中央處理器速度再快，在需要等待資料的這段時間也還是沒有著力之處，形成了處理上的效能浪費。換言之，如果匯流排速度過慢，那麼拍一張照片可能需要數秒到數十秒的時間才能處理完成並儲存為數位檔案，消費者是無法忍受這樣的處理速度的。

低功耗、高吞吐量以及超低電磁干擾信號技術是可攜式和消費性產品應用設計的關鍵。因此，類似LVDS的差動信號技術在改善資料吞吐能力、抗雜訊能力，或電磁干擾性能方面成為系統的一個重要設計環節。LVDS的最大優點之一，是在正和負輸出端的電流方向相反。如果輸出正負端靠得夠近，理論上能夠使電磁輻射相互抵消，這將大幅降低手機的電磁干擾和對手機本身通訊信號的影響。在手機等電池供電要求更低功耗的情況下，追求更低功耗LVDS技術版本，就成了滿足行動設計在傳輸頻寬需求上的關鍵。

HyperTransport技術的發展

Intel 從82810晶片組開始，創造了自己的Hub Link技術來連接南北橋晶片，使得當時810晶片組成為最能夠發揮Ultra DMA66傳輸性能的晶片組之一。但是由於Intel的授權費用高昂，所以很多的台灣晶片組廠商雖然取得了前端匯流排的相容授權，但是卻捨棄了Hub Link技術授權，而為了彌補在性能上可能產生的劣勢，晶片組廠商都開發自己的技術來解決這一問題。例如VIA開發了V-Link，SIS也開發了他們自己的DPI或者Multi-threaded IO（MuTIOL）Link。

AMD在開發出使用EV6匯流排的K7處理器之後，也同樣針對自己的CPU設計了專屬晶片組，他們同樣必須面對如何連接南北橋才能更好的發揮Ultra DMA 66/100的效能問題。AMD的技術雖然也可以輕易達到與Intel相同的水準，但是AMD不想開發獨佔的晶片組技術，因為當時AMD不論是在人力或是在財力，都負擔不起除了CPU之外的太多產品，因此仍需要藉助第三方晶片組廠商的力量，來突破Intel的多方圍堵。

有鑑於此，AMD提出了一種概念式的匯流排架構，想制定出一種能適用於各種高速度晶片組之間的傳輸界面，喔，一開始他並不是稱為 HyperTransport，而是另一個更為淺顯的名詞：LDT（Lightning Data Transport）。此技術當時是隨同「SiedgeHammer」（也就是著名的K8）CPU一同提出的。

不過當時的 LDT技術只存在於書面概念上，直到2000年5月分時，才正式推出了它的1.0版，這也才將原本沒有完成任何電氣規格方面的設計的運作概念，首次將電氣規格詳列出來並得以成為實際的產品。在2000 WinHEC上，AMD再次將LDT技術搬上論壇，並在隨後的2001年2月改名為HyperTransport。2001年7月 23日，來自眾多領域的技術大廠聯合建立了一個促進Hyper Transport發展和應用的組織。包括AMD、API Networks、蘋果電腦公司（現已改名為蘋果公司）、Cisco、NVIDIA、PMC-Sierra、SUN MicroSystem及Transmeta公司共同發起成立Hyper Transport聯盟。

AMD從1997年開始開發Hyper Transport技術，雖然初始設計概念是將其作為伺服器平台晶片互聯高頻寬解決方案而進行設計的，但同時也可應用於網路、電信和嵌入式系統等其他領域。第一個採用HyperTransport匯流排的產品是NVIDIA在2001年推出的nForce晶片組，採用的是8位元匯流排，南北橋頻寬達到了 800MB/s，而當時同類晶片組的南北橋互連頻寬僅只有區區266MB/s。

HyperTransport技術共有五層：實體層、資料鏈路層、協議層、傳輸層和會話層。實體層及資料鏈路層的 HyperTransport技術採用低電壓差動訊號傳輸（LVDS）架構，每個位元需要兩個接腳。該技術採用1.2V電壓驅動，產生0.6V的差動輸出，差動阻抗是60歐姆，這樣使得製作成本相對低廉的四層PCB板成為可能。除了具有較寬的頻寬外，該技術同時減少了晶片接腳數目，訊號與接地腳的對比僅為4：1。

採用HyperTransport技術，在每個方向上的連接匯流排寬度可以是2、4、8、16或32位元。工作頻率範圍從200MHz∼1GHz。採用該技術能實現的總頻寬可用以下公式計算：（工作頻率）×（2x資料/時脈）×（各方向上的位元寬度）×（2x 方向總數）。協議層、運輸層和會話層 HyperTransport採用封包技術來發送命令、地址和資料。一個封包的大小為4位元組，一個命令可以是4個位元組或8個位元組長，因此單一封包可以從4個位元組到64個位元組不等，其疊加的基本單位為4個位元組。

圖說：PC用的主機板晶片是HyperTransport的主流應用之一。（資料來源：NVIDIA）

2004 年2月，HyperTransport技術聯盟（Hyper Transport Technology Consortium）又正式發佈了HyperTransport 2.0規格，由於採用了Dual-data技術，使運作頻率成功提升到了最高1.4GHz的程度，運作於雙向16-bit模式的匯流排頻寬，更是提升到了最高11.2GB/sec的程度。一般應用在PC平台的HyperTransport技術大多是雙向16-bit 1GHz的運作速度，這使得處理器與北橋晶片的傳輸率達到8GB/s。而雖然HyperTransport是AMD所主導的技術，可是AMD並沒有限制該技術只能應用到友方的產品，事實上，NVIDIA就已經為Intel推出了多款使用HyperTransport的晶片組，提供了相當具有競爭力的效能表現。

圖說： HyperTransport的網路伺服器應用概念。（資料來源：www.hypertransport.org）

乍看之下，HyperTransport匯流排所肩負的工作，只是侷限於「圖形匯流排+南北橋匯流排」的I/O作用。由就此用途而言，儘管 HyperTransport 2.0已經達到相當驚人的8.0GB/s頻寬，在目前看來似乎已經足夠，但是處理器的核心數量也在不斷增加，對於記憶體以及各種I/O子系統的存取需求也將會隨之增加，事實上，4核心處理器已經在市面上流通。而對於高階顯示卡對於頻寬無止盡的需求，HyperTransport其實就比較沒有著力之處。以 NVIDIA最新的680 SLI晶片組的一個特殊功能，可同時超頻PCI Express與HyperTransport匯流排的運作時脈20％之多，但藉此增加的繪圖效能卻只有約1％左右，幾乎可以稱為是測試誤差。

高匯流排頻寬對顯示卡助益不大的原因是在於高階顯示卡本身通常都會具備極大的本地繪圖記憶體（Local RAM）以及記憶體存取寬度（目前最高的是G80所使用的384-bit），以作為暫存材質或頂點資料之用，存取到主記憶體的機會少之又少，不過AMD在購併ATI之後所提出的混合式Fusion架構，卻可讓高匯流排頻寬變得有意義。因為繪圖核心整合進CPU之後，就會將主記憶體作為 FrameBuffer使用，因此必須與CPU共享匯流排頻寬。在這邊我們也可以看到，類似XBOX、Xbox 360兩大遊樂器的UMA架構可以說被完整的搬回到PC平台上，只是Fusion的整合度將會更高。

HyperTransport 3.0帶來巨大頻寬與應用前景

即將推出的HyperTransport 3.0，雖然是基於原有2.0架構的加強版，但是運作時脈的倍增（2.6GHz），並提供了32-bit的操作模式，使得匯流排頻寬可以增加到 41.6GB/s的驚人程度，幾乎已經等於是高階顯示卡的本地記憶體頻寬了。因此這麼一來，Fusion架構就可以在不另外增加專屬記憶體的狀況之下，取得足夠的記憶體頻寬，從而降低整個系統的成本。

這對於目前佔有顯示晶片最大市場的Intel來說，會是個恐怖的惡夢，因為該公司的整合式晶片從來就不能夠提供足夠的顯示效能，而僅止於堪用邊緣。而會造成這樣的原因，除了顯示架構上的限制，其次就是顯示核心無法取得足夠的記憶體頻寬。也因此在AMD購入ATI之後，Intel也跟著緊張的大為招募繪圖技術人才，並且加緊Intel專屬通用匯流排（CSI）的開發動作，CSI基本上可以看做是Intel專屬的HyperTransport技術，最主要的目的就是要取代已經垂垂老矣的前端匯流排架構。

不過匯流排頻寬的提升只是HyperTransport的重點之一，在關鍵應用上，HyperTransport更支援了稱為「Un-Ganging」的新特性，該技術可允許HyperTransport匯流排系統在執行過程中，直接對運行模式進行動態調整，例如單一個1×16的 HyperTransport連接可以被重新配置為2×8HT連接等等，它可以讓雙路伺服器中的兩個處理器各佔據一條8bit的虛擬 HyperTransport匯流排，而且不會互相影響。這項特性可以讓那些搭載SMT同步多執行緒技術的伺服器系統明顯受益。

在同步多執行緒的模式之下，一顆物理核心可以被切割為兩科邏輯核心使用，而如果借助HyperTransport 3.0的Un-Ganging功能，這兩個邏輯核心就可以擁有屬於自己的獨立HT匯流排資源，儼然變成真正的雙處理器系統，這能夠有效提高多任務處理的性能表現。一旦任務執行完畢，Un-Ganging功能會自動重新配置HT匯流排，系統恢復原先的單核心狀態。

圖說： HyperTransport增加的多處理器架構的拓展性。（資料來源：AMD）

AMD 短期之內可能還不會在處理器中導入多執行緒的概念，因此作為多核心處理器的應用，就可以為個別的核心切割出獨立的專屬HyperTransport通道，從單一實體多核心處理器成為邏輯上的多路處理器。而除了PC平台以外，這項功能對於高階伺服器方面的應用也有著莫大的幫助，由於SUN公司與IBM公司都擁有各自的多核心多執行緒處理器，藉助此功能，可以更有效的切割處理器的資源，對於多工環境的處理，或者虛擬機器的應用，都是非常有效率的。

此外，另外一個重點就是HTX（HyperTransport eXpansion）3.0版，這個架構突破了傳統匯流排的思維，而將勢力伸向擴充卡的領域，在符合HTX架構之下的擴充卡（或插槽），可以輕易的為系統增加額外的功能。乍看之下，HTX架構似乎是將目標指向PCI Express的飯碗，而實際上，PCI Express的應用要顯得侷限許多，無法與之相提並論。由於Intel在未來的多核心架構規劃中，想要將所有運算架構整合進CPU當中，包含網路、顯示、物理以及向量加速等各種應用，這也等於壓迫到了其他相關產業的發展，因此AMD拉開了開放的大旗，開放了HyperTransport與HTX架構，為不同性質處理器的半導體開發公司提供了一條生路。

圖說： HTX可望帶起輔助處理器的風潮。（資料來源：AMD）

回顧半導體產業的歷史，有個非常明確且類似此狀況的例子，那就是過去3dfx與NVIDIA之爭，3dfx為了增加獲利，一意孤行的收回晶片授權，轉而自行生產獨立顯示卡，卻因此一敗塗地，落得被對手收購的命運，而相反的，NVIDIA藉由諸多板卡廠商的眾星拱月，氣勢一再飆升，如今已經是獨立顯示卡產業的領導者。當然，Intel目前仍佔據著大部分的市場，但是一味封閉的結果，可能是逼迫市場產生與之抗衡的龐大勢力，AMD不過就是扮演著推手的角色，而且是樂觀其成。

而關於HTX更深入的的架構與應用解說，可以閱讀郭長祐作者所撰寫的這篇〝高速交換設計的瑜亮情結〞（http://tech.digitimes.com.tw/ShowNews.aspx?zCatId=A1R&zNotesDocId=0000036633_A2Z7A05JU84MKGO2P7Z4N）

HyperTransport可應用在嵌入式系統與高速伺服器等領域

在嵌入式架構中，由於注重整體架構的精簡，藉由HyperTransport，可以降低電路設計的負雜，並且在合理功耗下，可提供非常高效率的資料傳輸表現，目前HyperTransport架構已經被廣泛應用在採用MIPS處理器的通訊裝置以及各種電信設備中，隨著應用的增加，也可望看到 HyperTransport架構拓展更深一層的市場及相關產品。

圖說： HyperTransport的嵌入式應用概念圖。（資料來源：www.hypertransport.org）

至於目前市面上所能見到的多核心晶片，或多或少都具備了潛在的缺陷，由於多核心架構大多仍是分享同一個匯流排，因此在不同核心之間的協調就顯得益發重要，程式撰寫也將變得更複雜，而單一晶片多核心的架構，也使得晶片的製造不易，功耗也會隨著核心的增加而水漲船高，因此也有諸多不同應用的輔助處理器，可以取代某種程度的CPU耗用，甚至能夠提升整體效能表現，而專用處理器在功耗方面會比通用處理器來的較為優秀，也因此針對不同應用採用不同輔助處理器的架構，也就不需要內建太多的處理器核心，這也有有助於整體功耗的改善。

Smart / Simple / Savory life of Jason Yeh

2007-02-21

具備極佳伸展性的高速互連架構－HyperTransport

這些也是同標籤文章 :

沒有留言:

率性隨筆

可以參考的連結

blog 地圖

文章標籤分類

目前的回應(最新20筆)

Loading...

Search