






پرداخت اقساطی
۷,۲۵۰,۰۰۰,۰۰۰ تومان
ویژگی ها
فروشگاه : رایتک شاپ
| سازنده کارت گرافیک | Nvidia |
|---|---|
| مدل گرافیک | H200 Tensor |
| ظرفیت کارت گرافیک | 141GB |
| توان مصرفی کارت گرافیک | 700W |
| تغذیه 8 پین | 1 عدد |
| اسلات توسعه | 2 عدد |
| نورپردازی | ✖ |
| پهنای باند رابط | حدود 4.89 ترابایت برثانیه با رابط 6144 بیت |
| فناوری های گرافیک | CUDA 9.0, OpenCL 3.0 |
| نمایشگر قابل پشتیبانی | فاقد خروجی تصویر |
| هسته CUDA | 16896 هسته |
| فرکانس افزایشی | حداکثر 1980 مگاهرتز |
| پورت USB Type-C | ✖ |
| پورت Display | ندارد |
| پورت VGA | ندارد |
| نوع حافظه گرافیک | HBM3e |
| ترانزیستورها | 80 میلیارد |
در دنیای امروز، مدلهای هوش مصنوعی به سرعت در حال رشد هستند. مدلهایی مانند GPT-4، Gemini، Grok و Llama 3 با صدها میلیارد پارامتر، به حافظه و پهنای باندی نیاز دارند که فراتر از توان نسلهای قبل است. NVIDIA H200 دقیقاً برای حل همین چالش طراحی شده است.
H200 اولین GPU در صنعت است که به حافظهی انقلابی HBM3e با ظرفیت ۱۴۱ گیگابایت و پهنای باند 4.8 ترابایت بر ثانیه مجهز شده است. این یعنی H200 تقریباً ۷۶ درصد حافظه بیشتر و ۴۳ درصد پهنای باند بالاتر از H100 دارد. جالب است بدانید که هستههای محاسباتی H200 و H100 تفاوتی ندارند؛ هر دو ۳,۹۵۸ ترافلاپس قدرت FP8 ارائه میدهند. اما همین ارتقای حافظه، معادله را کاملاً تغییر داده است.
چرا این ارتقا مهم است؟ چون در استنتاج مدلهای زبانی بزرگ، گلوگاه پردازش، حافظه و پهنای باند آن است، نه قدرت محاسباتی خام. H200 با از بین بردن این گلوگاه، به پردازندهای تبدیل شده که انقلاب بعدی هوش مصنوعی بر پایهی آن بنا شده است. بر اساس آمارهای منتشر شده، H200 در استنتاج مدلهای زبانی تا ۲ برابر سریعتر از H100 عمل میکند.
NVIDIA H200 در دو نسخهی اصلی SXM و PCIe عرضه میشود. مشخصات کلیدی این دو نسخه به شرح زیر است:
| مشخصه | H200 SXM | H200 PCIe |
|---|---|---|
| حافظه GPU | ۱۴۱ گیگابایت HBM3e | ۱۴۱ گیگابایت HBM3e |
| پهنای باند حافظه | 4.8 ترابایت بر ثانیه | 4.8 ترابایت بر ثانیه |
| عملکرد FP64 | ~۶۷ TFLOPS | ~۳۴ TFLOPS |
| عملکرد FP32 | ~۱۳۴ TFLOPS | ~۶۷ TFLOPS |
| عملکرد FP16 (Tensor Core) | ~۱,۹۷۹ TFLOPS | ~۹۸۹ TFLOPS |
| عملکرد INT8 (Tensor Core) | ~۳,۹۵۸ TOPS | ~۱,۹۷۹ TOPS |
| عملکرد FP8 (Tensor Core) | ~۳,۹۵۸ TFLOPS | ~۳,۹۵۸ TFLOPS |
| توان مصرفی (TDP) | ~۷۰۰ وات | ~۳۵۰ تا ۴۰۰ وات |
| تعداد هستههای CUDA | ۱۶,۸۹۶ هسته | ۱۶,۸۹۶ هسته |
| تعداد هستههای Tensor | ۵۲۸ هسته | ۵۲۸ هسته |
این مشخصات نشان میدهد که H200 از نظر قدرت محاسباتی با H100 برابری میکند، اما حافظه و پهنای باند بسیار بیشتری در اختیار کاربر قرار میدهد. این ویژگی، H200 را به انتخاب اول برای استنتاج مدلهای عظیم، پردازش محتوای طولانی (Long-context) و بارهای کاری حافظهمحور تبدیل کرده است.
هستهی مرکزی برتری H200 نسبت به H100، حافظهی HBM3e است. در ادامه، مهمترین تفاوتهای این دو نسل را بررسی میکنیم:
| ویژگی | NVIDIA H200 SXM | NVIDIA H100 SXM |
|---|---|---|
| معماری | Hopper | Hopper |
| نوع حافظه | HBM3e | HBM3/HBM2e |
| ظرفیت حافظه | ۱۴۱ گیگابایت | ۸۰ گیگابایت |
| پهنای باند حافظه | 4.8 ترابایت بر ثانیه | 3.35 ترابایت بر ثانیه |
| بهبود توان عملیاتی در Llama 2 70B | ۱.۹ برابر H100 | پایه (Baseline) |
| زمان تا اولین توکن (TTFT) | مشابه H100 | مشابه H200 |
| سازگاری با سرورهای موجود | بله (سازگار با خوشههای H100) | بله |
| مناسب برای… | استنتاج مدلهای عظیم، RAG، بازههای متنی طولانی | آموزش و استنتاج عمومی، HPC |
تمامی سرورهایی که از H100 پشتیبانی میکنند، با H200 نیز سازگار هستند. سازمانهایی که از قبل زیرساخت H100 دارند، میتوانند بدون نیاز به تغییر سرورهای فیزیکی یا بازنویسی کدهای مدیریت خوشه، H200 را جایگزین کنند و فوراً بهبود عملکرد را مشاهده کنند.
میتوان گفت H200 را میتوان موتور بهینهشدهی استنتاج مدلهای عظیم در نظر گرفت، در حالی که H100 گزینهای متوازن برای طیف وسیعتری از بارهای کاری هوش مصنوعی محسوب میشود.
حافظهی ۱۴۱ گیگابایتی H200، آن را به انتخابی ایدهآل برای اجرای گستردهترین و پیشرفتهترین مدلهای زبانی جهان تبدیل کرده است. در ادامه عملکرد H200 را روی محبوبترین مدلهای امروزی بررسی میکنیم.
مدل GPT-4o که امروزه سریعترین نسخه از خانوادهی GPT محسوب میشود، توان خروجی حدود ۱۰۹ توکن در ثانیه را ارائه میدهد. H200 با حافظهی ۱۴۱ گیگابایتی خود، قادر به اجرای مدلهای در مقیاس GPT-4 حتی در دقت ۱۶-بیت (بدون کوانتیزه کردن) است و پهنای باند 4.8 ترابایت بر ثانیهی آن، تأخیر در پردازش کوئریهای همزمان را به شدت کاهش میدهد. بر اساس شواهد منتشر شده، توان خروجی مدلهای مقیاس GPT روی خوشههای H200 میتواند بین دهها درصد تا نزدیک دو برابر نسبت به H100 بهبود یابد.
مدل Gemini 2.0 Pro با پنجرهی متنی ۲ میلیون توکنی خود، یکی از چالشبرانگیزترین مدلها برای زیرساخت سختافزاری محسوب میشود. H200 با پهنای باند 4.8 ترابایت بر ثانیه و حافظهی ۱۴۱ گیگابایتی، گوگل را قادر ساخته است که این مدل عظیم را با ۲ برابر توان عملیاتی بیشتر نسبت به H100 به کار گیرد. در استنتاج مدل Gemini 2.0 Pro روی H200، نرخ خروجی حدود ۲۵۰ تا ۳۰۰ توکن در ثانیه تخمین زده میشود.
مدل DeepSeek-V3 با ۶۷۱ میلیارد پارامتر کل (۳۷ میلیارد فعال در هر توکن) روی H200 به طور ویژه بهینه شده است. پلتفرمهایی مانند Vertex AI و Northflank امکان استقرار DeepSeek-V3.1 را با ۸ کارت H200 در کمتر از چند دقیقه فراهم کردهاند. برای بهینهسازی DeepSeek-V3.2 روی H200، از پیکربندی TP=8 و EP=8 استفاده میشود که بازدهی بسیار بالایی را ارائه میدهد.
مدل Grok 2.5 با معماری Mixture-of-Experts (MoE)، ۲۷۰ میلیارد پارامتر کل دارد و تنها ۲ کارشناس از مجموع ۸ کارشناس در هر توکن فعال میشوند. این مدل به طور خاص برای اجرا روی سرورهای Dell PowerEdge XE9680 با ۸× NVIDIA H200 اعتبارسنجی شده است. مدل Grok 4 نیز روی خوشهی ابررایانهی Colossus با بهرهگیری از هزاران GPU H200 و B200 آموزش دیده است.
Llama 3.1-405B، بزرگترین مدل خانوادهی Llama، به دلیل حافظهی عظیم ۱۴۱ گیگابایتی H200، به راحتی در یک سامانهی ۸ کارته DGX H200 جای میگیرد. عملکرد این مدل روی H200 به شرح زیر است:
حالت بهینهسازی تأخیر (بستهی ۱ تایی): حدود ۲۵-۲۶ توکن در ثانیه خروجی
حالت بهینهسازی توان عملیاتی (بستهی حداکثر): خروجی تا ۴۰۰ توکن بر ثانیه در بازهی ISL/OSL=2048/128
علاوه بر این، مدل Llama 3.3 70B با استفاده از تکنیک رمزگشایی پیشبینی (Speculative Decoding) روی H200، توان خروجی را از حدود ۵۱ توکن در ثانیه به ۱۸۱.۷۴ توکن در ثانیه افزایش داده است.
در تستهای بینالمللی مستقل توسط LANL و Aquatron، H200 در Llama 3.1 405B نسبت به Intel Gaudi 3 به طور میانگین ۹ برابر سریعتر عمل کرده است.
مدل عظیم Mistral Large 3 با ۶۷۵ میلیارد پارامتر کل (۴۱ میلیارد پارامتر فعال) از صفر روی ۳,۰۰۰ کارت NVIDIA H200 آموزش دیده است. این مدل که یکی از پیشرفتهترین مدلهای بازوزن جهان محسوب میشود، قابلیتهای چندوجهی بومی برای درک تصاویر و متن را به طور همزمان دارد و روی یک گره از H200ها در دقت FP8 قابل استقرار است.
H200 در تولید تصاویر نیز عملکرد بسیار بالایی از خود نشان میدهد:
مدل Flux.2 (Black Forest Labs): مدل Flux.2 [dev] با ۳۲ میلیارد پارامتر (نسخهی راهنمای ۳۲ میلیاردی) یکی از پیشرفتهترین مدلهای تولید تصویر منبعباز است. این مدل نیازمند حافظهای معادل H100 است و H200 با ۱۴۱ گیگابایت حافظه، فضای کافی برای اجرای آن با حداکثر کیفیت را فراهم میکند. جالب است بدانید که دو کارت B200 توانستهاند اجرای Flux.2 را تا ۱۰.۲ برابر سریعتر از H200 کنند که نشاندهندهی ظرفیت بالای بهینهسازی این مدل روی سختافزارهای مدرن است.
مدل Stable Diffusion XL (SDXL): در معیار استاندارد MLPerf Inference v4.0، H200 توانست رکورد جدیدی را در SDXL به ثبت برساند و در تولید تصاویر ۴K عملکرد بینظیری از خود نشان دهد. در این بنچمارک، H200 حدود ۱۴ پرس و جو در ثانیه را برای SDXL پردازش کرده است.
شاید چشمگیرترین عملکرد H200، در حوزهی تولید ویدیوهای هوش مصنوعی با مدلهای جدیدی مانند Wan 2.2 باشد.
مدل FastWan که توسط تیمی از دانشگاههای UCSD، UC Berkeley و MBZUAI توسعه یافته، با استفاده از تکنیک نوآورانهی “تقطیر پراکنده” (Sparse Distillation) توانسته است زمان ساخت ویدیو را به شکل انقلابی کاهش دهد. این تیم با ترکیب توجه پراکنده (Sparse Attention) و تقطیر مراحل نویززدایی، توانستند تعداد مراحل استنتاج را از ۵۰ مرحله به ۱ تا ۴ مرحله کاهش دهند.
در یک کارت H200:
FastWan 2.1-1.3B: یک ویدیوی ۵ ثانیهای با کیفیت 480p را در تنها ۵ ثانیه (از جمله ۱ ثانیه زمان نویززدایی) تولید میکند. برای مقایسه، همین کار روی یک RTX 4090 حدود ۲۱ ثانیه زمان میبرد.
FastWan 2.2-5B (نسخهی ارتقا یافته): ویدیوی ۵ ثانیهای با کیفیت 720p را در ۱۶ ثانیه تولید میکند. مدل Wan 2.2-S2V-14B که یک مدل سینمایی با هدایت صوتی است، با بهینهسازیهایی مانند FP8 و AoT، روی H200 عملکرد بسیار بالایی ارائه میدهد.
Wan 2.2-Animate-14B: این مدل که برای انیمیشن طراحی شده، قادر است یک فریم انیمیشن را در ۲۰ تا ۳۰ دقیقه روی H200 رندر کند که نسبت به GPUهای معمولی ۳۰۰ درصد افزایش کارایی را نشان میدهد.
FastWan روی GPUهای H200 به صورت عمومی در دسترس است و دموی آنلاین آن روی ۱۶ کارت H200 سرویس میزبانی میشود. این تیم کلیهی وزنهای مدل، دستورالعملهای آموزش و مجموعه دادهها را تحت مجوز Apache-2.0 به صورت متنباز منتشر کرده است.
NVIDIA H200 به دلیل دو برابر کردن حافظه نسبت به نسل قبل (۱۴۱ گیگابایت در مقابل ۸۰ گیگابایت) و افزایش ۴۳ درصدی پهنای باند (4.8 ترابایت بر ثانیه)، یک GPU تخصصی برای عصر مدلهای عظیم هوش مصنوعی محسوب میشود. این کارت گرافیک با ارائهی مزایای زیر، گزینهای عالی برای سازمانهایی است که قصد دارند زیرساخت تولید (Inference) خود را در مقیاس سازمانی به کار گیرند:
اجرای روان مدلهای ۱۰۰+ میلیارد پارامتری روی یک گره: مدلهایی مانند GPT-4 (۱.۸ تریلیون پارامتر با MoE)، Llama 3.1 405B و DeepSeek-V3 671B با حافظهی ۱۴۱ گیگابایتی به راحتی در یک سرور قرار میگیرند.
پشتیبانی از جدیدترین مدلهای هوش مصنوعی: از GPT-4o و Gemini 2.0 Pro گرفته تا Grok 2.5، Mistral Large 3 و Llama 3.3 70B.
تولید محتوا در زمان واقعی (Real-time): تولید ویدیوهای ۵ ثانیهای 720p در کمتر از ۲۰ ثانیه با FastWan 2.2–5B و تصاویر ۴K با SDXL در کسری از ثانیه.
سازگاری کامل با زیرساختهای موجود H100: بدون نیاز به تغییر سرورهای فیزیکی، میتوانید H200 را جایگزین H100 کنید و بلافاصله بهبود ۲ برابری توان عملیاتی را تجربه کنید.
قیمت مؤثر: با وجود هزینهی بالای اجاره یا خرید، H200 با توان عملیاتی 1.9 برابری نسبت به H100 و نسبت قیمت به عملکرد بینظیر، در استنتاج مدلهای عظیم بسیار مقرون به صرفه است.
برای بارهای کاری سبک (مدلهای کمتر از ۵۰ میلیارد پارامتر) که حافظه آنها در ۸۰ گیگابایت H100 جای میگیرد، H100 یا حتی RTX 4090 گزینههای مقرونبهصرفهتری هستند. اما برای استقرار بزرگترین مدلهای زبانی MoE، سرویسدهی Real-time با RAG و تولید محتوای حرفهای ویدیویی در مقیاس سازمانی، H200 بدون شک انتخاب اول است.
به گفتهی جنسن هوانگ، مدیرعامل انویدیا، در GTC 2026: “NVIDIA مجوز فروش H200 به بسیاری از مشتریان چینی را دریافت کرده است و تولید این چیپها برای بازار چین از سر گرفته شده و زنجیرهی تأمین در حال راهاندازی است.” این اتفاق GTC نشان میدهد که H200 حتی در شرایط تحریمهای سخت، به عنوان یک سختافزار استراتژیک و بینظیر در عصر هوش مصنوعی شناخته میشود و دسترسی به آن در سراسر جهان در حال افزایش است.
| سناریوی کاری | H100 | H200 | B200/B300 |
|---|---|---|---|
| مدلهای متوسط (<۴۰B پارامتر، dense) | ●●● | ●● | ● |
| Llama 3.1 405B (دقیق ۱۶-بیت) | ●● (نیاز به خوشه) | ●●● (تک خوشه ۸ تایی) | ●●●● |
| DeepSeek-V3 (۶۷۱B MoE) | ●● (نیاز به TP بالا) | ●●● (بهینه در ۸×H200) | ●●●● |
| GPT-4o | ●● | ●●● | ●●●● |
| استنتاج RAG با پنجرهی متنی ۱۰۰K+ | ●● | ●●●● | ●●●●● |
| تولید ویدیو با FastWan 2.2 | ●● | ●●● (تک کارت ۱۶ ثانیه) | ●●●● |
| تولید تصاویر ۴K با Flux.2 | ●● | ●●● | ●●●●● |
| نسبت قیمت به عملکرد (ROI) | ●●● | ●●●● | ●● |
| در دسترس بودن فوری در بازار (۲۰۲۶) | ●●●● | ●●● | ● |
این مقاله با استفاده از مستندات رسمی انویدیا، بنچمارکهای منتشر شده در MLPerf، گزارشهای صنعتی از HorizonIQ و SemiAnalysis، مقالات دانشگاهی تیم FastWan، دادههای عملکردی شرکتهایی مانند Baseten، Nebula Block، Northflank، Dell، Mistral AI، منابع خبری معتبر در حوزهی GPU و گزارش اختصاصی GTC 2026 تهیه شده است.
کارت گرافیک انویدیا مدل H200 Tensor Core 141GB

۷,۲۵۰,۰۰۰,۰۰۰ تومان