除了跟四核心做比較 最高階的雙核心也抓進來對打
新一代的處理器到底有多強,最簡單的方法當然是和上一代直接對比。除此之外,再度復活的超執行緒技術,以及內建記憶體控制器的設計,會對實際效能有什麼影響呢?電腦王就針對這兩個重點,調整部份的測試項目,希望能完全測出它的效能。
在Core 2 Quad四核心產品的效能已經大幅領先對手之際,Intel更上層樓,推出採用革命性全新架構的Core i7處理器。由前一篇文章即可得知,如果先不計處理器內部執行架構的細部差異,Core i7平台至少有兩大最顯著的特色:把記憶體控制器從北橋晶片移至處理器,以及在處理器中加入超執行緒技術。從理論上來說,這兩項改良點都可以提昇效能,除此之外,採用新架構的內核也將是一個重點,畢竟就電晶體的成本效率來說,Core i7每顆核心所占的die size與電晶體數量,都比Core 2 Quad還多,在同時脈的條件下,Core i7的效能更應該要大幅勝出,才符合次世代新架構的產品訴求。
重新規劃的測試項目
電腦王已經建構一套處理器的標準測試流程,並使用在每一次的專題文章當中。畢竟Core i7是一款新產品,不論是架構或者特色都有重大改變,因此有必要利用這個機會,再針對這部份進行檢討與規劃,以下就是我們考量的重點。
首先將作業系統從原本的XP Professional,更換成Vista x64版本,理由是支援度較廣,而且系統記憶體可無痛擴充至4GB以上,比較符合可能的未來潮流。另外某些新遊戲必須在Vista中執行,才能體驗到DirectX 10的畫面品質與特效。雖然連筆者本身也不太適應Vista的操作介面,還是因為這些原因,將這次測試平台的作業系統做更換。
畢竟Core i7擁有四個實體核心、八執行緒,在測試軟體的部份,首要挑選目標當然就是支援多執行緒,而且越多越好。但很遺憾地,即使是目前的最新遊戲,雖然標榜支援多核心,也在遊戲畫面開頭建議搭配Core 2 Quad處理器,但是經過實測發現它卻無法完整利用多核心,甚至CPU使用率還跟單執行緒程式差不多,算是目前多數電腦遊戲的普遍現象。所以在遊戲部份,還是選擇熱門、系統需求高、標榜有支援多核心的作品。例如本次所選用的刺客教條(Assassin's Creed),就是以遊戲畫面精細,且支援DirectX 10的有名作品,並在今年台北國際電腦展的Intel攤位中,當成展示Core i7平台的軟體。惡魔獵人4(Devil May Cry 4)則是號稱可以支援多核心處理器,並在開頭畫面幫Intel四核心處理器做廣告,因此也當成本次的測試項目。至於衝突世界(World In Conflict)則繼續沿用,理由是在搭配不同的處理器時,測試成績會有顯著差異,同樣的道理,Crysis雖然是高負荷的遊戲作品,但處理器所造成的效能差距太小,參考價值不高故移除之。
選擇64位元的測試軟體
既然已經改成64位元作業系統,除了能讓4GB以上的記憶體得以有效利用以外,要是也使用支援64位元運算環境的軟體進行測試,就更符合實際意義了。可惜的是,可能是因為XP Professional x64在市場上較少見,加上有些人不想升級Vista,造成目前64位元作業系統尚未普及,個人電腦都還是以32位元為大宗,連帶為64位元所設計的程式非常少,幾乎都集中在大型的專業軟體上,一般軟體發展並不成熟。因此在本次測試中,我們只採用三款原生64位元的應用程式,分別是PCMark Vantage、Cinebench R10、Windows Media Encoder,算是美中不足之處。
其他測試程式也分別遵循「能支援多執行緒」,以及「免費軟體優先」的大原則,例如WinRAR、Windows Media Encoder等等,希望能完整測出多執行緒Core i7的真正潛力,也能兼顧一般的實用性。總括說來,本次的測試項目共包括記憶體效能、3D遊戲、壓縮與轉檔、繪圖與渲染四大項。
測試軟體與詳細設定
大分類 | 測試軟體 | 細節與方法 |
| 3D遊戲 | 3DMark Vantage | 完整執行P模式 |
| 刺客教條 | 搭配Fraps軟體,行走某段路期間的FPS,測量三次並平均之 |
| 惡魔獵人4 | 執行內建之測試程式,再平均各項的FPS |
| 衝突世界 | 執行內建之測試程式 |
| 壓縮與轉檔 | TMPGEnc 4 | 將長度46:45的WMV檔,轉成DVD標準格式 |
| WinRAR | 執行內建之效能測試程式 |
| WMEncoder x64 | 將1280x720 8000Kbps WMV,轉成1280x720 2000Kbps WMV |
| VirtualDub | 將1280x720的MPG檔,轉成1280x720 2000Kbps的Divx檔 |
| 繪圖與渲染 | Cinebench R10 | 執行內建之效能測試程式 |
| Mandelbrot 3.31 | 執行內建之效能測試程式 |
| 記憶體效能 | Everest | 執行Memory測試項目 |
| PCMark 05 | 執行Memory測試項目 |
| PCMark Vantage x64 | 執行Memory測試項目 |
| WinRAR | 執行內建之效能測試程式 |
測試平台與軟體環境
| CPU | Intel Core i7 965 Extreme Ed. |
| Intel Core i7 920 2.66GHz |
| Intel Core 2 Extreme QX9770 |
| Intel Core 2 Extreme QX9650 |
| Intel Core 2 Duo E8600 |
| 主機板 | Intel DX58SO |
| ASUS P5Q3 Deluxe |
| 記憶體 | 金士頓DDR3-1333 1GBx3 |
| Elixir DDR3-1600 2GBx2 |
| 顯示卡 | MSI GeForce 9800GTX |
| 硬碟 | Seagate Barracuda 7200.11 1TB |
| 電源供應器 | 曜越500W |
| 散熱裝置 | Intel原廠散熱器 |
| 作業系統 | Vista Ultimate Edition x64 |
| 顯示驅動程式 | ForceWare 178.15 |
算不上震撼性的超前
兩年多前Intel發表Core 2 Duo系列,就如同包裝盒上所寫的廣告詞:「Revolutionary Performance」,即使在時脈較低的情況下,還能同時給自家產品與對手重重一擊,帶來革命性的全面領先。如今Core i7發表後,是否還能重演當年的戲碼,再出現大幅成長與進步呢?事實上,根據目前的測試並非如此,也許可以歸咎給程式尚未最佳化。或是因為當年Core 2的成功,讓筆者期待太深,其實Core i7的效能有進步,也確定成為目前地球上最快的個人電腦處理器,但總是少了一些當年Core 2所帶給人的震撼。
3D遊戲意外成弱項
首先披露的測試結果,是一般使用者最在意的遊戲執行效能。很可惜地,Core i7除了在完全支援多執行緒的3DMark Vantage中領先以外,在這三款電腦遊戲中,效能卻些微落後現在的Core 2 Quad系列。雖然在一般情況下,這麼微小的差距完全不會對遊戲操作造成阻礙,不需計較這麼細。但就一款具有指標性,採用改良架構的新處理器來說,在3D遊戲中無法再將效能數字明顯提昇,可能較難打動正想購買新電腦的遊戲玩家,請它們多花一些金錢選擇較先進的Core i7處理器平台。
再進一步探究,影響遊戲整體效能的因素除了CPU以外,北橋與顯示卡也是很重要的一點。在新舊平台主機板與晶片組皆不同的情況下,不確定在Core i7的X58平台上有什麼新阻礙,如果主機板沒有bug,晶片組的性能也正常的話,只能把疑點轉回到CPU身上。Core i7最明顯的特色就是內建記憶體控制器,筆者想不出來這個設計對效能有什麼負面影響。其次是cache的層級與架構都不同,Penryn(Core 2 Quad)的L1、L2 cache latency是3、14 cycles,Nehalem(Core i7)的L1、L2、L3 latency則有些微差異,各是4、11、39 cycles。雖然L2 Cache的延遲降至11 cycles,但每個核心的容量只有256KB,雖然L3 8MB是共享,但是延遲卻大幅增加。若是遇到對多執行緒支援度不佳,又倚靠cache效能的遊戲來說,Core i7表現不如預期,似乎可以從這個角度來解釋。測試類別 3D遊戲3DMark Vantage 單位:分 (越高越好→)
刺客教條 12x10 NoAA特效最高 單位:FPS (越高越好→)
惡魔獵人4 12x10 NoAA特效最高 單位:FPS (越高越好→)
衝突世界 12x10 NoAA特效最高 單位:FPS (越高越好→)
影音轉檔漸顯優勢
本次選擇的這三款影音轉檔軟體,基本上都有支援到四核心,即使面對八執行緒的Core i7,尖峰的CPU使用率還是能夠衝到40﹣50%左右,已經比執行遊戲時的20%左右好太多了,在這種情況下,已經漸漸能評量Core i7處理多執行緒的真正效能。領先最明顯的項目,就是宣稱對多核心最佳化,與支援SSE4指令集的DivX影音轉檔,最低階的Core i7 920甚至還比4.0GHz的Core 2 Quad還快,表現相當優異。
其次是重新針對多執行緒最佳化的Windows Media編碼器64位元版,因為它並未特別強調支援什麼指令集,轉檔的效率也不太好,筆者推測它並沒有使用到什麼新指令集做最佳化。結果Core i7在這個軟體中的表現中規中矩,Core i7 920的效能大約與QX9770相等,不過當QX9770超頻至4.0GHz時,就會嬴過最高階的Core i7 965EE。
而TMPGEnc 4的轉檔過程,算是Core i7較不擅長的測試項目,測試內容是將WMV檔轉成DVD的標準格式,因此是用軟體內建的編解碼引擎進行工作。由測試圖表可以很輕易地發現,就算是以同時脈的條件下進行對比,Core i7的效能還是略遜一籌。針對這個結果,筆者推測很可能編解碼的引擎太過於老舊,架構簡單、短小精悍的Core 2 Quad較能占到優勢。其次筆者觀察到,在轉檔過程中的CPU使用率,算是這三款軟體中最低的,再加上Core i7如果關閉HT,在這項測試中的效能其實不降反升,所以也有可能是軟體不認識「四核心八執行緒」這麼複雜的邏輯CPU,造成運算資源的利用率不佳。
測試類別 壓縮與轉檔TMPGEnc 4:WMV>DVD 單位:秒 (←越低越好)
WinRAR Benchmark 單位:KB/Sec (越高越好→)
WMEncoder x64:WMV>WMV 單位:秒 (←越低越好)
VirtualDub:MPG>DivX 單位:秒 (←越低越好)
繪圖項目脫穎而出
這兩項繪圖程式,都能將CPU使用率發揮至90%以上的水準,已經可以測試Core i7在八執行緒完整發揮時的效能表現。在Cinebench R10這個傳統的賽豬公程式上,筆者測試過32與64位元版本的效能差異,發覺64位元的數字比較高,所以就以它為準。Core i7 920的效能略勝QX9770,Core i7 940則與4.0GHz的QX9770旗鼓相當,表現已經令人滿意。
其實最變態的軟體就藏在最後面,Mandelbrot是一個數學圖形的描繪軟體,Core i7的效能在這裡宛如大爆炸般地,遠遠甩開現在的Core 2 Quad達三倍之多。雖然根據2006年4月的檔案修改日期,這款軟體已經很久沒更新,但是它在搭配Core i7執行時,CPU使用率還是能在90%以上,對多執行緒的支援能力可說是非常不錯。其實連筆者也無法解釋為什麼它能領先這麼多,總之如果要展示Core i7效能火力的話,搭配這款軟體將是一個極佳選擇。
測試類別 繪圖與渲染Cinebench R10 x64 單位:分數 (越高越好→)
Mandelbrot 3.31 單位:秒 (←越低越好)
Core i7執行各程式的大略CPU使用率 |
| 程式名稱 | CPU使用率 |
| 3DMark Vantage | 16﹣97% |
| 刺客教條 | 17﹣23% |
| 惡魔獵人4 | 11﹣26% |
| 衝突世界 | 15﹣21% |
| TMPGEnc 4 | 32﹣44% |
| WinRAR | 88﹣94% |
| WMEncoder x64 | 45﹣52% |
| VirtualDub轉DivX | 42﹣49% |
| Cinebench R10 | 100% |
| Mandelbrot 3.31 | 90﹣95% |
記憶體效能破表
根據官方規格,其實目前Core i7的全線產品,最高都只支援到DDR3-1066,但我們考量實際使用情況,Core i7 965EE與Core 2 Extreme QX9770的部份,將以DDR3-1333的記憶體速度進行測試,其他處理器都是設定成預設的DDR3-1066。
解放DDR3真正實力
在現有Intel平台的架構上,記憶體控制器都內建於北橋晶片中,CPU如果要存取記憶體,必須先將訊號透過FSB傳送到北橋,北橋再發送命令給記憶體。若詳細進行計算,就現在主流的FSB 1333MHz來說,它的理論頻寬為10.6GB/Sec,但是雙通道DDR2-800的理論頻寬就達12.8GB/Sec,已經比FSB還要快,就更別說頻寬更大的DDR3記憶體了。Core i7卻沒有這個問題,記憶體控制器內建於CPU中,不需透過任何中繼媒介就可以存取記憶體,再加上最大理論頻寬為25.6GB/Sec的QPI介面,確實可以把DDR3的優勢發揮出來。
在處理器時脈同樣都是2.66GHz,都是雙通道DDR3-1066記憶體的環境下,Core i7 920的記憶體效能,可說是完全贏過Core 2 Quad Q9450。唯一表現較不如預期的項目,應該就是記憶體寫入吧,而且三通道反而還比雙通道還慢。
三通道效能不如預期
Core i7平台的另一項賣點就是支援三通道記憶體,在雙通道架構已經行之有年,而且廠商廣為宣傳的情況下,大部分人都知道「雙通道效能快一倍」的道理。如今三通道走入個人電腦中,包括筆者在內的很多人,直覺都認為三通道會比雙通道快上50%,在組裝Core i7平台時,最好一次買齊三條記憶體,以獲得最佳效能。但是就初步的測試結果而言,三通道記憶體的效能並未明顯勝出,整體效能算是互有勝負的情況,而且差別並不大。
測試類別 記憶體效能Everest記憶體效能 單位:MB/Sec (越高越好→)
PCMark 05 Memory 單位:分 (越高越好→)
PCMark Vantage x64 Memory 單位:分 (越高越好→)
WinRAR Benchmark 單位:KB/Sec (越高越好→)
平台耗電量明顯增加
除了效能以外,耗電量也是一個值得關注的重點。就合理的角度而言,理論上Core i7的「單位時脈效能」有增加,耗電量應該也會提高才對。至於會提高多少,就有待測試了,而我們除了針對CPU以外,也同時測量整體平台的耗電量,了解新平台在功耗上的特色。
可預期的CPU功耗上升
根據測試結果,Core i7在搭配Intel自家主機板時,閒置時的耗電量可以抑制在非常優異的水平,使用勾表測量僅有0.4安培的電流。但是換到其他三大廠的主機板上,在相同情況下的電流卻達1.0安培左右,不知道Intel主機板是怎麼辦到的。但是滿載時的表現就沒有這麼棒了,即使是時脈最低的Core i7 920,功耗還是比QX9770還大,也略高於65nm製程、同時脈的Core 2 Quad處理器。
Core i7除了CPU既有的運算單元以外,還把記憶體與QPI控制器放進去,讓一顆CPU所負責的工作變多了。再加上採用新款微架構,將每顆核心的電晶體與die size再提昇,讓相同時脈下的效能可以更快。再加上它和現在的Core 2系列都是採用45nm半導體製程,讓CPU功耗上升,其實是一件很正常的事情。
X58北橋晶片發熱量高
雖然在截稿前X58晶片組尚未解禁,所以官方網站上完全找不到相關的技術資料,無法得知它的TDP是多少,但就筆者經驗與實際觸摸的手感來說,X58的功耗肯定不低。舉例來說,Intel原廠主機板的北橋晶片上方,只用一塊相當普通的散熱片,如果不外加風扇的話,實測的表面溫度可以到70度以上。連帶地讓整個Core i7平台的耗電量大幅增加,若不計CPU影響,新平台大概比舊平台多了20﹣30W的功耗。
單CPU耗電量 單位:W (←越低越好)
平台耗電量 單位:W (←越低越好)
燒機時執行緒數量與CPU耗電量的關係
捉摸不定的HT技術
採用新架構的Core i7在開啟HT後,共有四核心八執行緒,之間的相互關係遠比當初單核心雙執行緒還要複雜,再加上目前少有支援八執行緒的程式,所以有必要針對這部份進行深究,了解HT技術在Core i7上復活後,會有什麼不一樣?
HT對Core i7幫助有限
單就桌上型處理器來說,Intel曾經在Pentium 4家族,以及今年才問世的Atom身上,加入超執行緒(HT)技術,希望能提昇處理器內運算單元的利用率。因為Atom是採In-Order的執行機制,效率並不如把指令打散的Out-Of-Order機制,當時經過電腦王的實測,加入HT技術後對Atom效能的幫助極大,平均有將近50%的成長,效果相當不錯。
根據實測結果,在Core i7 920開啟HT後,各項測試平均下來只有6.151%的效能成長,與Atom動輒50%的數字相較之下,可說是小巫見大巫了。甚至在其中兩項測試中,開啟HT反而會造成效能減損,頗令人意外。針對HT效率不彰的現象,筆者認為可能有以下幾點原因:首先就是與Core微架構一脈相承的Nehalem,先天的執行效率,與運算單元利用率就很不錯,加入超執行緒技術也僅是「錦上添小花」而已,對效能的幫助其實很有限。另外一點就是在開啟HT後,系統總共就有八個邏輯CPU,很多程式在開發時根本沒想到這點,或是懶得去針對八條執行緒做最佳化,一旦有這麼多的虛擬核心給你使用,的確有可能產生類似錯亂,而造成幫助有限或效能下降的現象。
HT該開還是關?
既然有八條執行緒,那勢必就有四個實體核心 vs. 四個虛擬核心交錯組合的複雜狀況,實際用到的運算資源各是如何呢?我們再設計了以下兩項測試,希望能解答這個問題。
首先使用工作管理員中「設定相關性」的功能,指定SP2004燒機軟體只能使用一個邏輯CPU,再「同時啟動」不同數量的燒機軟體,測量CPU從閒置,一直到八條執行緒全部滿載的耗電量。最後卻得到預期之外的結果,在四條執行緒滿載時,耗電量並未達到高水準,與八執行緒全部滿載的情況相差甚遠。表示在啟動四個燒機軟體時,CPU內還是有將近一半的運算單元在閒置中,造成效能上的浪費,這並不符合理想的狀態。
接著筆者實際一點,選擇完整支援多執行緒的Cinebench R10軟體,也同樣是使用工作管理員,指定此程式使用的虛擬核心數量。這次比較接近筆者估計的結果,在使用到四條執行緒時,耗電量與效能就已經接近高點。很明顯地可以看出它是先交給實體核心做運算,等到實體核心全部滿載以後,再讓HT技術發揮作用,所以在使用五個以上的邏輯CPU時,效能與耗電量就會減緩增加。但是就Cinebench的情況而言,「開啟HT只用到一半的執行緒」與「關閉HT但完整利用四條執行緒」,其實後者的效能會比較好,複雜的相互關係,還是令人摸不著頭緒。Core i7 920在開啟HT後對效能的幫助
使用執行緒數量與CPU耗電量的相互關係