Deepseek OCR ذكاء اصطناعي جديد يقرأ الصور كأنه إنسان
النص الكامل للفيديو
متابعي قناه انفوتك فريو السلام عليكم ورحمه الله وبركاته يا رب تكونوا بخير وفي افضل حال النهارده ان شاء الله هنتكلم عن نموذج ديب سيك الجديد وهو ديب سيك او سي ار من شركه ديب سيك هذا النموذج اللي اثار ضجه كبيره جدا في الفتره الاخيره واللي الجميع بيتكلم عنه وان ازاي شركه دي بسيك قدرت انها تضغط البيانات 10 مرات اصغر من حجمها الاصلي من غير ما ده ياثر على البيانات وده فعلا خلى الجميع يسال هل فعلا ممكن نضغط البيانات كده من غير ما نفقد المعلومات؟ لان في نظريه المعلومات في حد فاصل اسمه الانتروبي او حد الفقد الطبيعي اللي بيمنع انك تضغط اي معلومه اكث من نقطه معينه من غير ما تفقد معناها فلو فعلا ديبسي كسر هذه القاعده يبقى فعلا في حاجه ضخمه كبيره جدا قام عليها ديبسك يلا بينا نفهم الموضوع من الاول حاجه تعالوا نتعرف على او سي ار ايه هو الاو سي ار او سي ار هي اختصار لاوبتيكال كراكتر ريكجنيشن اي التعرف البصري على الحروف تقنيه بتحول النص اللي موجود في الصور او الملفات الممسوحه ضوئيا زي البي دي اف او صور المستندات لنص رقمي قابل للقراءه والتحرير بواسطه الكمبيوتر يعني لو عندك ورقه مطبوعه او صوره فيها كتاب الاو سي ار بيخلي الكمبيوتر يقرا الكلام ده كانه نص مكتوب فعليا وازاي بتشتغل هذه التقنيه اللي هي الاو سي ار تحليل الصوره البرنامج بيشوف شكل الحروف والكلمات بيتعرف على الانماط ويقارنها مع قاعده بيانات ضخمه فيها كل الحروف والرموز ويحولها لنص والنتيجه بتكون ملف نصي ممكن ان انت تنسخه او تعدله او تترجمه طيب ده بالنسبه لاو سي ار بالنسبه لدي سيك ديب سيك استخدمت فكره التعرف البصري مش بس لقراءه النصوص من الصور لكن لتطوير طريقه جديده لتخزين وفهم المعلومات بصريا مش لغويا وده اللي خلاه يقدر يضغط البيانات ويحللها بكفاءه خارقه. عشان نخلي الكمبيوتر يفهم الكلام العلماء حولوا الكلمات لرموز رقميه اسمها توكنز. كل كلمه او مجموعه حروف بتتحول لرقم. والنموذج الخاص بالذكاء الاصطناعي بيتعامل معاها على انها رموز مفهومه. بس هنا المشكله ان اللغه البشريه فيها تكرار رهيب ومش ممكن نضغط الرموز دي اكث من حد معين من غير ما نفقد معناها. وده اللي بيسمى الحد الاقصى للضغط بدون فقر يعني مثلا جمله زي انفوتك فور يو ويب سايد مكونه من مثلا رمزين رقميين ما ينفعش تضغطها اكت من كده وان ده الحد الاقصى بتاعها وهنا بقى بتيجي المفاجاه ان دي بسيك قالت ليه نفضل نحصر نفسنا في الرموز خلينا نفكر زي البشر بالصور النموذج الجديد بسيك او سي ار بدل ما يستخدم نموذ استخدم صور وتمثيلات بصريه للبيانات بما يعرف بحاجه اسمها ها ليتند سبيس او الفضاء الكامل والنتيجه كانت مذهله البيانات حصل لها ضغط 10 مرات مع الحفاظ على 97% من الدقه طب لو تم ضغطها اكت من كده الدقه هتقل بس مش هتقل بنسبه كبيره بالنسبه لعدد المرات وده طبعا رقم كويس جدا او نقدر نقول خرافي بالنسبه لاي نظام ذكاء اصطناعي البعض ممكن يظن ان الصور بتستهلك مساحه اكبر لكن الحقيقه هي العكس جوه النموذج الصوره بتتحول لتمثيل بصري التمثيل البصري مليان بالمعاني اكث بكثير جدا من النصوص اللي بتكون مقيده بالرموز او بالتوكنز بمعنى اخر الصوره بتحكي 1000 كلمه بس المره دي داخل دماغ الذكاء الاصطناعي نفسه احد العلماء في مجال الذكاء الاصطناعي بيصرح ويقول ان المفروض او من المفترض يتم حذف التوكيذر من البدايه لانها مرحله معقده ومليانه بالمشاكل وبتسبب باخطاء واحيانا ثغرات امنيه وده بياكد ان فعلا ديبسيك واخده الاتجاه الصحيح وهو اتجاه المستقبل النموذج نفسه مش مبني على فكره جديده بالكامل ولكنه دمج بين تقنيات مختلفه زي السي ان والاس اي ام ونماذج الرؤيه البصريه العبقريه هنا مش في الاجزاء ولكن العبقريه في الطريقه اللي استخدموها لدمج هذه الاجزاء اللي انتجت اداء غير مسبوق السؤال اللي فعلا لازم نساله لنفسينا هل الذكاء الاصطناعي حيب هيبدا يفكر بالصور مش بالكلمات. هل دي بدايه عصر جديد من العقل البصري؟ تخيل ان النموذج الخاص بالذكاء الاصطناعي بدل ما يقرا جمل يبتدي ان هو يشوف مشاهد ومعاني متصله. ده معناه ان طريقه هندسه السياق اللي احنا بنستخدمها طول الوقت كلها ممكن تتغير قريب جدا. اللي عملته دي بسيك مش مجرد تحديث صغير ده تحول في الطريقه اللي الماشينز فيها او الالات بتفهم المعلومه نفسها. يعني دلوقتي الذكاء الاصناعي ما بقاش يقرا الكلمات بس لكن كمان بدا ان هو يشوفها ويفهمها بطريقه اقرب للبشر من اي وقت مضى تعال نبص على التو فيجرز اللي قدامنا دلوقتي لو بصيت على الشكل الموجود على اليسار اللي اسمه كومبريشن اون فوكس فينش مارك هنا ده قياس مدى ضغط البيانات على اختبار اختبار اسمه فوكس بنش مارك وهو اختبار بيقارن دقه النماذج في تحويل النصوص البصريه لبيانات رقميه المحور الافقي بيمثل عدد التكست توكنز او الرموز النصيه في كل صفحه يعني كل نقطه بتمثل صفحه فيها كميه معينه من الكلمات او الرموز والمحور الراسي اللي هو الواي نسبه الدقه مدى صحه النتائج بعد الضغط والاعمده الملونه دي اللي انت شايفها قدام ازرق والبنفسجي بتمثل تجارب مختلفه كيف اجراها الباحثون؟ اما بالنسبه للخط المنقط الازرق بيمثل معدل ضغط البيانات اللي هو الكومبريشن ريت كل ما الخط ده بيبتدي ان هو يعلى كده يعني ان حجم البيانات اصبح اصغر يعني في ضغط النتيجه حتى بعد ضغط البيانات 10 او 20 مره اصغر من حجمها الاصلي الدقه ايضا ظلت عاليه بتتراوح ما بين 87% ل 97% وده بيدل على ان ديب سيك او سي ار يستطيع ضغط النصوص البصريه بشكل كبير من غير ما يفقد المعنى الخاص او المعلومات بشكل عام. بالنسبه بقى للشكل الثاني اللي موجود على اليمين زي ما انتم شايفين اللي هو البرفورمنس اون اومني دوت بنش والاداء ده على اختبار شامل بيقيس دقه النماذج في التعامل مع مستندات بتحتوي على نصوص زائد صور. المحور الافقي اكس بيمثل عدد الرموز البصريه فيجن توكنز ير ايمج كم معلومه بصريه يقدر النموذج يعالجها من كل صوره والمحور الراسي بيمثل مقياس الاداء الكلي الاوفر اول برفورمنس كل اما ارتفعت النقطه للاعلى كان الاداء افضل وهنا بقى انت هتبص تلاقي في فئات مختلفه من النماذج اللي هي الحاجات الملونه دي اللي هي الموف الانكودر سيرس والاخضر الديكودر سيرس والازرق الفيجن موديلز والاذ انكودرز هو اللون الاورنج ده اللي انت هتشوفه من الرسم يعني ملخصه ايه او الاستنتاج العام اللي انت هتاخده من الشكلين ان ديب سيك او سي ار يقدر يضغط النصوص البصريه لحد 10 او 20 مره من غير فقد كبير في الدقه النموذج بيحتاج رموز بصريه قل عشان يفهم نفس كميه المعلومات مقارنه بالنماذج القديمه والنتيجه الاداء اسرع والذاكره اقل ودقه عاليه في تحليل المستندات المعقده هننتقل بعد كده لهاجينج فيس علشان نجرب مع بعض احد السبيسز الخاصه او اللي بتستخدم دي بسيك او سي ار طبعا هو نموذج مفتوح المصدر تقدر تشغله على جهازك ولكن لازم يكون جهازك له مواصفات معينه خاصه السي بي يو فالحته دي مهمه مش كل الاجهزه هينفع تشغل عليها دي بسيك فاحنا هنجرب من خلال احد السبيسز الموجوده على هاجن فيس هنا هنبتدي ان احنا نروح لاول سبيس السبيس دي انا يعني جربتها السبيس دي سهل جدا التعامل بيقول لك ازاي تتعامل معاها هنا هتبتدي ترفع الصوره وهنا هتبتدي تلاقي على الناحيه اليمين التكست ريزلت والامج ريزلت وفي شويه حاجات هنا يعني هنبص عليها بسرعه قبل ما نبتدي ان احنا نستخدم هذا السبيس بشكل عملي اول حاجه هنا لازم نفهم يعني ايه الريزلوشن سايز لو دوسنا على الدروب داون ليست هنا هنلاقي ان في حاجه اسمها جان هي ريكومندد الدقه اللي انت عايز تحصل عليها هنا هو بينصحك بالجاندام ده اللي هو في نوع من انواع التوازن ما بين السرعه وما بين الاداء وده اللي هو بيفضل ان انت تستخدمه اما بالنسبه للتايني لو انت عندك الصوره فيها تفاصيل بسيطه جدا وصغيره السمول هتكون اعلى من التايني شويه يعني التفاصيل فيها اكبر حبه ولكنها برده مش كتيره كتير اللي هي الخاصه بالصوره البيس ده المناسب لكل المستخدمين اللارج بقى لما يكون في تفاصيل كتيره جدا معقده يعني في الحاله دي انت بتستخدم اللارج يعني الصوره فيها تفاصيل كتيره جدا انا هستخدم الريكومندد خليني على الريكومندد وهنا بالنسبه للتاسك تايب يا ترى انت عايز ايه؟ عايز فري او سي ار فري او سي ار هو هنا بيستخرج النص من الصوره عادي جدا ده الفري كونفرت تو مارك داون تحوله لفورمات المارك داون اللي هو ممكن انت تاخده وتعمل عليه ايديت بعد كده في اي تكست ايديتور وهنا الجزء المتعلق بالبارس فيجر ده اللي هو تحليل الموجود داخل الصوره تحليل مثلا شارط معين عايز تحلله لوكيت اوبجكت باي ريفرنس انت عايز تعرف وضع يعني اوبجكت معين بناء على الصوره اللي انت رفعتها الحته دي بصراحه يعني ايه انا ما جربتهاش فاحنا الاول هنبتدي ان احنا نجرب الفري او سي ار اللي هو استخراج النصوص بشكل عام وهنا هخليني على الريكومندد وهبتدي هنا ارفع صوره وتعال نبص مع بعض مثلا حاجه زي حاجه زي كده صوره زي دي هبتدي اقولله بروسيس ايج في في بعض السبيسز على فكره فيها بيحصل فيها ايرور يعني ما بتشتغلش ده اكتر سبيس يعني انا اشتغلت عليه وكان جيد الى حد كبير ما بيحصلش فيه ايرور باستمرار ولكن مع اللارج او الحاجات المعقده قوي ساعات بيحصل ايرور زي ما انت شايف هو هنا استخرج لي النصوص بدقه عاليه جدا من خلال هذه الصوره اللي هي كانت عباره اصلا على سكرين شوت واخداه من شريحه باور بوينت اطاني الجزء اللي هو بتاع التايتل من فوق اللي هو انت جروب وعلاقتها بانكلوجن اي بعد كده دخل على هيكل الشركات الجزء ده بعد كده هنا دخل على المشاريع الرئيسيه المشاريع الرئيسيه اللي هي الجزء اللي تحت هنا بالترتيب كوين رينج وان تي ولانج وان تي في عندك الجزء بقى على اليمين ده اللي هو الانكلوجن اي من هي انكلوجن اي نماذج مفتوحه المصدر الرؤيه والفلسفه استخراجه للنص زي ما انتم شايفين ممتاز جدا وكويس هنا ما فيش اصلا ايج هنا موجوده في داخل الصوره هي كلها عباره عن يعني كتابه او نصوص زي ما انتم شايفين طب تعالى نبص على حاجه ثانيه ابتدي بس اعمل اكس هنا وابتدي ان انا ارفع صوره ثانيه ولتكن شيب يعني شريحه قديمه هنشوف كده هل هيقدر يقرا اللي موجود على الشريحه دي ولا لا بينا نبص كده بروسيس ايج دي عباره عن سي بي يو قديمه خالص مكتوب عليها زي ما انتم شايفين انا اصلا مش قادره ان انا اقرا اللي موجود عليه هل هيعرف يستخرج ولا لا بالفعل هو هنا استخرج انتل او او 1 بينتيم او 4 لازم تكون مقرب قوي علشان تشوف الكلمات دي والحروف اللي شويه ممسوحه عطاها لي وفي الاخر خالص زي ما انتم شايفين اطاني الكتابه الموجوده هنا ايضا تحت ف شيء كويس يعني بيعرف يقرا حتى الصور او الامجز القديمه مش كل النماذج على فكره بتستخرج ممكن نموذج يقول لك الصوره مش واضحه يعني بتحصل معايا ساعات انه يقول لك الصوره مش واضحه يعني حصل الكلام ده معايا قبل كده لما استخدمت جيميناوي كذا مره قال لي لا الصوره مش واضحه ف بضطر ان انا ارفع له صوره تكون الصوره دي جيده علشان يقدر يقراها فطبعا دي حاجه ممتازه جدا تعالى كده نبص مع بعض على حاجه ثانيه وليكن هنا انا رفعت الصوره دي والصوره دي اتعمدت ان انا يعني ارفعها تكون دقيقه الى حد كبير واتاكدت ان الكواليتي بتاعتها عاليه علشان فيها تفاصيل كتير جدا فهنا لازم نهتم بالكواليتي بتاعه الصوره مش زي الصوره البسيطه اللي احنا رفعناها الخاصه بالسي بي يو اللي احنا من شويه رفعناها فاقدر يقرا التكست الموجود عليها لاحظ ان الفيجرز دي فيها تفاصيل كتير والشرط هنا في تفاصيل كتير جدا بالنسبه للريزولوشن سايز هختار انها تكون لارج عشان يقدر يقرا التفاصيل المعقده وهنا هختار تحليل الفيجر اللي هو البيرس فيجر وهدوس على بروسيس ايج علشان نشوف النتيجه الخاصه بتحليل هذه الصوره الصوره التي تحتوي على تفاصيل كتير هنا هبتدي اخد النص ده كوبي زي ما احنا شايفين هو اطاني تحليل لهذه الصوره فهبتدي كده اخدها على جوجل ترانسليت تعرض الصوره مقارنه لاداء الضغط بين نموذجين هو المفروض اوني يعني بس هو قال اون مي ففي برده استخراج يعني بعض الكلمات زي ما احنا شايفين مش بتبقى جيده قوي والتكست توكنز لكل صفحه على الجانب الايسر يوجد ايه وعلى الجانب الايمن يوجد ايه واسفل الرسم البياني طبعا لازم تراجع الكلام ده وتتضمن الصوره ايضا عنوانا نصيه طبعا انا شايفه بالنسبه لحاجه زي دي كده معقده الى حد كبير هو جيد لان هو هنا مش بيستخرج هو هنا بيحلل لازم نبقى فاهمين الفرق ما بين التاسك تايب اللي موجود هنا هرفع صوره وصوره يكون فيها تفاصيل كتير صوره عاديه اختار الجزء المتعلق بتحليل الصوره بروسيس ايدج كده واشوف هنا بيقول لي ان الامج ده عباره عن سين لي ماجيستك لاين قاعد على العرش اللي احنا شايفينه وببتدى ان هو يوصف كل الصوره ويوصف الباك جراوند وعطاني كمان اوفرول كومبوزيشن اوف ذا ايج يعني تصور يعني اوفرول للصوره كلها بالشكل اللي احنا شايفينه فهو بيقدر ان هو يصف بشكل جيد جدا التفاصيل الموجوده خصوصا كمان ان هو لما بيجي يوصف مثلا الباك جراوند بيوصف الباك جراوند بكل التفاصيل الموجوده في الباك جراوند زي ما احنا شايفين حتى اللايت بيبتدي ان هو يوصفها هنا بالنسبه اللاين ابتدى ان هو يديني كمان الالوان بتاعه الفير اللي هو الفرو بتاع اللاينز ريتش جولدن كر اند ات هاز ك يعني الاكسبريشنز بتاعته الوش بتاعه هادي يعني بصراحه هو ممتاز جدا في الوصف هنا ممكن تستفيد بيه لو انت عايز في صوره عاجباك وعايز تعمل زيها وعايز تضيف بعض الايديت من عندك انت مش عايز الصوره زي ما هي بالظبط في الحاله دي انت ممكن تاخد الوصف ده وتعدل عليه وتعمل الصوره اللي انت عايزها يعني انا ممكن استفيد بيه في هذه الجزئيه بشكل عام ده كانت نظره كده اوليه عليه بصراحه يعني لسه الواحد مش قادر ان هو يقف قوي على الاستخدام بتاعه المثالي او الطريقه المثاليه لاستخدامه ولكن ان شاء الله باذن الله يعني اتمنى ان هو يكون متاح على بعض المنصات اللي ممكن تطوح لنا ان احنا نتعامل معاه بشكل افضل من السبيسز الموجوده على هاجين فيس وبكده نكون وصلنا لنهايه فيديو النهارده على قناه انفو تيك فور يو بحاول اقدم لكم كل جديد مفيد فياريت ما تنسوش تدعمونا باللايك والشير والكومنت لو كنتوا من متابعينا الاعزاء ولو كنت بتشوفنا اول مره ما تنساش تعمل للقناه وتفعل الجرس عشان يوصلك كل جديد. دمتم في رعايه الله والسلام عليكم ورحمه الله وبركاته.