科技周報

訂閱【新聞快遞】 訂閱【新聞快遞】
訂閱【熱門排行】 訂閱【熱門排行】
訂閱【科技雜誌】 訂閱【科技雜誌】

數位資訊 創意生活 名家專論 網路新知 科技革命 科技雜誌
NOVA情報誌數位時代電腦家庭電腦王時報周刊PCshopper

2008.11.25 

Core i7到底有多快?
《電腦王十一月號》文=張方至

    除了跟四核心做比較 最高階的雙核心也抓進來對打

    新一代的處理器到底有多強,最簡單的方法當然是和上一代直接對比。除此之外,再度復活的超執行緒技術,以及內建記憶體控制器的設計,會對實際效能有什麼影響呢?電腦王就針對這兩個重點,調整部份的測試項目,希望能完全測出它的效能。

    在Core 2 Quad四核心產品的效能已經大幅領先對手之際,Intel更上層樓,推出採用革命性全新架構的Core i7處理器。由前一篇文章即可得知,如果先不計處理器內部執行架構的細部差異,Core i7平台至少有兩大最顯著的特色:把記憶體控制器從北橋晶片移至處理器,以及在處理器中加入超執行緒技術。從理論上來說,這兩項改良點都可以提昇效能,除此之外,採用新架構的內核也將是一個重點,畢竟就電晶體的成本效率來說,Core i7每顆核心所占的die size與電晶體數量,都比Core 2 Quad還多,在同時脈的條件下,Core i7的效能更應該要大幅勝出,才符合次世代新架構的產品訴求。

    重新規劃的測試項目

    電腦王已經建構一套處理器的標準測試流程,並使用在每一次的專題文章當中。畢竟Core i7是一款新產品,不論是架構或者特色都有重大改變,因此有必要利用這個機會,再針對這部份進行檢討與規劃,以下就是我們考量的重點。

    首先將作業系統從原本的XP Professional,更換成Vista x64版本,理由是支援度較廣,而且系統記憶體可無痛擴充至4GB以上,比較符合可能的未來潮流。另外某些新遊戲必須在Vista中執行,才能體驗到DirectX 10的畫面品質與特效。雖然連筆者本身也不太適應Vista的操作介面,還是因為這些原因,將這次測試平台的作業系統做更換。

    畢竟Core i7擁有四個實體核心、八執行緒,在測試軟體的部份,首要挑選目標當然就是支援多執行緒,而且越多越好。但很遺憾地,即使是目前的最新遊戲,雖然標榜支援多核心,也在遊戲畫面開頭建議搭配Core 2 Quad處理器,但是經過實測發現它卻無法完整利用多核心,甚至CPU使用率還跟單執行緒程式差不多,算是目前多數電腦遊戲的普遍現象。所以在遊戲部份,還是選擇熱門、系統需求高、標榜有支援多核心的作品。例如本次所選用的刺客教條(Assassin's Creed),就是以遊戲畫面精細,且支援DirectX 10的有名作品,並在今年台北國際電腦展的Intel攤位中,當成展示Core i7平台的軟體。惡魔獵人4(Devil May Cry 4)則是號稱可以支援多核心處理器,並在開頭畫面幫Intel四核心處理器做廣告,因此也當成本次的測試項目。至於衝突世界(World In Conflict)則繼續沿用,理由是在搭配不同的處理器時,測試成績會有顯著差異,同樣的道理,Crysis雖然是高負荷的遊戲作品,但處理器所造成的效能差距太小,參考價值不高故移除之。

    選擇64位元的測試軟體

    既然已經改成64位元作業系統,除了能讓4GB以上的記憶體得以有效利用以外,要是也使用支援64位元運算環境的軟體進行測試,就更符合實際意義了。可惜的是,可能是因為XP Professional x64在市場上較少見,加上有些人不想升級Vista,造成目前64位元作業系統尚未普及,個人電腦都還是以32位元為大宗,連帶為64位元所設計的程式非常少,幾乎都集中在大型的專業軟體上,一般軟體發展並不成熟。因此在本次測試中,我們只採用三款原生64位元的應用程式,分別是PCMark Vantage、Cinebench R10、Windows Media Encoder,算是美中不足之處。

    其他測試程式也分別遵循「能支援多執行緒」,以及「免費軟體優先」的大原則,例如WinRAR、Windows Media Encoder等等,希望能完整測出多執行緒Core i7的真正潛力,也能兼顧一般的實用性。總括說來,本次的測試項目共包括記憶體效能、3D遊戲、壓縮與轉檔、繪圖與渲染四大項。

    測試軟體與詳細設定
大分類
測試軟體
細節與方法
3D遊戲3DMark Vantage完整執行P模式
刺客教條搭配Fraps軟體,行走某段路期間的FPS,測量三次並平均之
惡魔獵人4執行內建之測試程式,再平均各項的FPS
衝突世界執行內建之測試程式
壓縮與轉檔TMPGEnc 4將長度46:45的WMV檔,轉成DVD標準格式
WinRAR執行內建之效能測試程式
WMEncoder x64將1280x720 8000Kbps WMV,轉成1280x720 2000Kbps WMV
VirtualDub將1280x720的MPG檔,轉成1280x720 2000Kbps的Divx檔
繪圖與渲染Cinebench R10執行內建之效能測試程式
Mandelbrot 3.31執行內建之效能測試程式
記憶體效能Everest執行Memory測試項目
PCMark 05執行Memory測試項目
PCMark Vantage x64執行Memory測試項目
WinRAR執行內建之效能測試程式

    測試平台與軟體環境

    
CPUIntel Core i7 965 Extreme Ed.
Intel Core i7 920 2.66GHz
Intel Core 2 Extreme QX9770
Intel Core 2 Extreme QX9650
Intel Core 2 Duo E8600
主機板Intel DX58SO
ASUS P5Q3 Deluxe
記憶體金士頓DDR3-1333 1GBx3
Elixir DDR3-1600 2GBx2
顯示卡MSI GeForce 9800GTX
硬碟Seagate Barracuda 7200.11 1TB
電源供應器曜越500W
散熱裝置Intel原廠散熱器
作業系統Vista Ultimate Edition x64
顯示驅動程式ForceWare 178.15
算不上震撼性的超前

    兩年多前Intel發表Core 2 Duo系列,就如同包裝盒上所寫的廣告詞:「Revolutionary Performance」,即使在時脈較低的情況下,還能同時給自家產品與對手重重一擊,帶來革命性的全面領先。如今Core i7發表後,是否還能重演當年的戲碼,再出現大幅成長與進步呢?事實上,根據目前的測試並非如此,也許可以歸咎給程式尚未最佳化。或是因為當年Core 2的成功,讓筆者期待太深,其實Core i7的效能有進步,也確定成為目前地球上最快的個人電腦處理器,但總是少了一些當年Core 2所帶給人的震撼。

    3D遊戲意外成弱項

    首先披露的測試結果,是一般使用者最在意的遊戲執行效能。很可惜地,Core i7除了在完全支援多執行緒的3DMark Vantage中領先以外,在這三款電腦遊戲中,效能卻些微落後現在的Core 2 Quad系列。雖然在一般情況下,這麼微小的差距完全不會對遊戲操作造成阻礙,不需計較這麼細。但就一款具有指標性,採用改良架構的新處理器來說,在3D遊戲中無法再將效能數字明顯提昇,可能較難打動正想購買新電腦的遊戲玩家,請它們多花一些金錢選擇較先進的Core i7處理器平台。

    再進一步探究,影響遊戲整體效能的因素除了CPU以外,北橋與顯示卡也是很重要的一點。在新舊平台主機板與晶片組皆不同的情況下,不確定在Core i7的X58平台上有什麼新阻礙,如果主機板沒有bug,晶片組的性能也正常的話,只能把疑點轉回到CPU身上。Core i7最明顯的特色就是內建記憶體控制器,筆者想不出來這個設計對效能有什麼負面影響。其次是cache的層級與架構都不同,Penryn(Core 2 Quad)的L1、L2 cache latency是3、14 cycles,Nehalem(Core i7)的L1、L2、L3 latency則有些微差異,各是4、11、39 cycles。雖然L2 Cache的延遲降至11 cycles,但每個核心的容量只有256KB,雖然L3 8MB是共享,但是延遲卻大幅增加。若是遇到對多執行緒支援度不佳,又倚靠cache效能的遊戲來說,Core i7表現不如預期,似乎可以從這個角度來解釋。測試類別 3D遊戲3DMark Vantage 單位:分 (越高越好→)

    刺客教條 12x10 NoAA特效最高 單位:FPS (越高越好→)

    惡魔獵人4 12x10 NoAA特效最高 單位:FPS (越高越好→)

    衝突世界 12x10 NoAA特效最高 單位:FPS (越高越好→)

    影音轉檔漸顯優勢

    本次選擇的這三款影音轉檔軟體,基本上都有支援到四核心,即使面對八執行緒的Core i7,尖峰的CPU使用率還是能夠衝到40﹣50%左右,已經比執行遊戲時的20%左右好太多了,在這種情況下,已經漸漸能評量Core i7處理多執行緒的真正效能。領先最明顯的項目,就是宣稱對多核心最佳化,與支援SSE4指令集的DivX影音轉檔,最低階的Core i7 920甚至還比4.0GHz的Core 2 Quad還快,表現相當優異。

    其次是重新針對多執行緒最佳化的Windows Media編碼器64位元版,因為它並未特別強調支援什麼指令集,轉檔的效率也不太好,筆者推測它並沒有使用到什麼新指令集做最佳化。結果Core i7在這個軟體中的表現中規中矩,Core i7 920的效能大約與QX9770相等,不過當QX9770超頻至4.0GHz時,就會嬴過最高階的Core i7 965EE。

    而TMPGEnc 4的轉檔過程,算是Core i7較不擅長的測試項目,測試內容是將WMV檔轉成DVD的標準格式,因此是用軟體內建的編解碼引擎進行工作。由測試圖表可以很輕易地發現,就算是以同時脈的條件下進行對比,Core i7的效能還是略遜一籌。針對這個結果,筆者推測很可能編解碼的引擎太過於老舊,架構簡單、短小精悍的Core 2 Quad較能占到優勢。其次筆者觀察到,在轉檔過程中的CPU使用率,算是這三款軟體中最低的,再加上Core i7如果關閉HT,在這項測試中的效能其實不降反升,所以也有可能是軟體不認識「四核心八執行緒」這麼複雜的邏輯CPU,造成運算資源的利用率不佳。

    測試類別 壓縮與轉檔TMPGEnc 4:WMV>DVD 單位:秒 (←越低越好)

    WinRAR Benchmark 單位:KB/Sec (越高越好→)

    WMEncoder x64:WMV>WMV 單位:秒 (←越低越好)

    VirtualDub:MPG>DivX 單位:秒 (←越低越好)
繪圖項目脫穎而出

    這兩項繪圖程式,都能將CPU使用率發揮至90%以上的水準,已經可以測試Core i7在八執行緒完整發揮時的效能表現。在Cinebench R10這個傳統的賽豬公程式上,筆者測試過32與64位元版本的效能差異,發覺64位元的數字比較高,所以就以它為準。Core i7 920的效能略勝QX9770,Core i7 940則與4.0GHz的QX9770旗鼓相當,表現已經令人滿意。

    其實最變態的軟體就藏在最後面,Mandelbrot是一個數學圖形的描繪軟體,Core i7的效能在這裡宛如大爆炸般地,遠遠甩開現在的Core 2 Quad達三倍之多。雖然根據2006年4月的檔案修改日期,這款軟體已經很久沒更新,但是它在搭配Core i7執行時,CPU使用率還是能在90%以上,對多執行緒的支援能力可說是非常不錯。其實連筆者也無法解釋為什麼它能領先這麼多,總之如果要展示Core i7效能火力的話,搭配這款軟體將是一個極佳選擇。

    測試類別 繪圖與渲染Cinebench R10 x64 單位:分數 (越高越好→)

    Mandelbrot 3.31 單位:秒 (←越低越好)

    

Core i7執行各程式的大略CPU使用率

程式名稱CPU使用率
3DMark Vantage16﹣97%
刺客教條17﹣23%
惡魔獵人411﹣26%
衝突世界15﹣21%
TMPGEnc 432﹣44%
WinRAR88﹣94%
WMEncoder x6445﹣52%
VirtualDub轉DivX42﹣49%
Cinebench R10100%
Mandelbrot 3.3190﹣95%

    

    記憶體效能破表

    根據官方規格,其實目前Core i7的全線產品,最高都只支援到DDR3-1066,但我們考量實際使用情況,Core i7 965EE與Core 2 Extreme QX9770的部份,將以DDR3-1333的記憶體速度進行測試,其他處理器都是設定成預設的DDR3-1066。

    解放DDR3真正實力

    在現有Intel平台的架構上,記憶體控制器都內建於北橋晶片中,CPU如果要存取記憶體,必須先將訊號透過FSB傳送到北橋,北橋再發送命令給記憶體。若詳細進行計算,就現在主流的FSB 1333MHz來說,它的理論頻寬為10.6GB/Sec,但是雙通道DDR2-800的理論頻寬就達12.8GB/Sec,已經比FSB還要快,就更別說頻寬更大的DDR3記憶體了。Core i7卻沒有這個問題,記憶體控制器內建於CPU中,不需透過任何中繼媒介就可以存取記憶體,再加上最大理論頻寬為25.6GB/Sec的QPI介面,確實可以把DDR3的優勢發揮出來。

    在處理器時脈同樣都是2.66GHz,都是雙通道DDR3-1066記憶體的環境下,Core i7 920的記憶體效能,可說是完全贏過Core 2 Quad Q9450。唯一表現較不如預期的項目,應該就是記憶體寫入吧,而且三通道反而還比雙通道還慢。

    三通道效能不如預期

    Core i7平台的另一項賣點就是支援三通道記憶體,在雙通道架構已經行之有年,而且廠商廣為宣傳的情況下,大部分人都知道「雙通道效能快一倍」的道理。如今三通道走入個人電腦中,包括筆者在內的很多人,直覺都認為三通道會比雙通道快上50%,在組裝Core i7平台時,最好一次買齊三條記憶體,以獲得最佳效能。但是就初步的測試結果而言,三通道記憶體的效能並未明顯勝出,整體效能算是互有勝負的情況,而且差別並不大。

    測試類別 記憶體效能Everest記憶體效能 單位:MB/Sec (越高越好→)

    PCMark 05 Memory 單位:分 (越高越好→)

    PCMark Vantage x64 Memory 單位:分 (越高越好→)

    WinRAR Benchmark 單位:KB/Sec (越高越好→)

    平台耗電量明顯增加

    除了效能以外,耗電量也是一個值得關注的重點。就合理的角度而言,理論上Core i7的「單位時脈效能」有增加,耗電量應該也會提高才對。至於會提高多少,就有待測試了,而我們除了針對CPU以外,也同時測量整體平台的耗電量,了解新平台在功耗上的特色。

    可預期的CPU功耗上升

    根據測試結果,Core i7在搭配Intel自家主機板時,閒置時的耗電量可以抑制在非常優異的水平,使用勾表測量僅有0.4安培的電流。但是換到其他三大廠的主機板上,在相同情況下的電流卻達1.0安培左右,不知道Intel主機板是怎麼辦到的。但是滿載時的表現就沒有這麼棒了,即使是時脈最低的Core i7 920,功耗還是比QX9770還大,也略高於65nm製程、同時脈的Core 2 Quad處理器。

    Core i7除了CPU既有的運算單元以外,還把記憶體與QPI控制器放進去,讓一顆CPU所負責的工作變多了。再加上採用新款微架構,將每顆核心的電晶體與die size再提昇,讓相同時脈下的效能可以更快。再加上它和現在的Core 2系列都是採用45nm半導體製程,讓CPU功耗上升,其實是一件很正常的事情。

    X58北橋晶片發熱量高

    雖然在截稿前X58晶片組尚未解禁,所以官方網站上完全找不到相關的技術資料,無法得知它的TDP是多少,但就筆者經驗與實際觸摸的手感來說,X58的功耗肯定不低。舉例來說,Intel原廠主機板的北橋晶片上方,只用一塊相當普通的散熱片,如果不外加風扇的話,實測的表面溫度可以到70度以上。連帶地讓整個Core i7平台的耗電量大幅增加,若不計CPU影響,新平台大概比舊平台多了20﹣30W的功耗。

    單CPU耗電量 單位:W (←越低越好)

    平台耗電量 單位:W (←越低越好)

    燒機時執行緒數量與CPU耗電量的關係

    捉摸不定的HT技術

    採用新架構的Core i7在開啟HT後,共有四核心八執行緒,之間的相互關係遠比當初單核心雙執行緒還要複雜,再加上目前少有支援八執行緒的程式,所以有必要針對這部份進行深究,了解HT技術在Core i7上復活後,會有什麼不一樣?

    HT對Core i7幫助有限

    單就桌上型處理器來說,Intel曾經在Pentium 4家族,以及今年才問世的Atom身上,加入超執行緒(HT)技術,希望能提昇處理器內運算單元的利用率。因為Atom是採In-Order的執行機制,效率並不如把指令打散的Out-Of-Order機制,當時經過電腦王的實測,加入HT技術後對Atom效能的幫助極大,平均有將近50%的成長,效果相當不錯。

    根據實測結果,在Core i7 920開啟HT後,各項測試平均下來只有6.151%的效能成長,與Atom動輒50%的數字相較之下,可說是小巫見大巫了。甚至在其中兩項測試中,開啟HT反而會造成效能減損,頗令人意外。針對HT效率不彰的現象,筆者認為可能有以下幾點原因:首先就是與Core微架構一脈相承的Nehalem,先天的執行效率,與運算單元利用率就很不錯,加入超執行緒技術也僅是「錦上添小花」而已,對效能的幫助其實很有限。另外一點就是在開啟HT後,系統總共就有八個邏輯CPU,很多程式在開發時根本沒想到這點,或是懶得去針對八條執行緒做最佳化,一旦有這麼多的虛擬核心給你使用,的確有可能產生類似錯亂,而造成幫助有限或效能下降的現象。

    HT該開還是關?

    既然有八條執行緒,那勢必就有四個實體核心 vs. 四個虛擬核心交錯組合的複雜狀況,實際用到的運算資源各是如何呢?我們再設計了以下兩項測試,希望能解答這個問題。

    首先使用工作管理員中「設定相關性」的功能,指定SP2004燒機軟體只能使用一個邏輯CPU,再「同時啟動」不同數量的燒機軟體,測量CPU從閒置,一直到八條執行緒全部滿載的耗電量。最後卻得到預期之外的結果,在四條執行緒滿載時,耗電量並未達到高水準,與八執行緒全部滿載的情況相差甚遠。表示在啟動四個燒機軟體時,CPU內還是有將近一半的運算單元在閒置中,造成效能上的浪費,這並不符合理想的狀態。

    接著筆者實際一點,選擇完整支援多執行緒的Cinebench R10軟體,也同樣是使用工作管理員,指定此程式使用的虛擬核心數量。這次比較接近筆者估計的結果,在使用到四條執行緒時,耗電量與效能就已經接近高點。很明顯地可以看出它是先交給實體核心做運算,等到實體核心全部滿載以後,再讓HT技術發揮作用,所以在使用五個以上的邏輯CPU時,效能與耗電量就會減緩增加。但是就Cinebench的情況而言,「開啟HT只用到一半的執行緒」與「關閉HT但完整利用四條執行緒」,其實後者的效能會比較好,複雜的相互關係,還是令人摸不著頭緒。Core i7 920在開啟HT後對效能的幫助

    使用執行緒數量與CPU耗電量的相互關係

《《 TOP 回上一頁 》》
晚報電腦半導體網路資訊家電遊戲電玩雜誌閱讀熱門排行
創意生活名家專欄網路新知科技革命科技知識線上測驗好站推薦