كيف تعمل الشبكات العصبية الروبوتات في المركبة الفضائية | بواسطة تانيل بارناما | Starship Technologies


تقوم Starship ببناء أسطول من الروبوتات لتقديم الطرود محليًا عند الطلب. لتحقيق ذلك ، يجب أن تكون الروبوتات آمنة ومهذبة وسريعة. ولكن كيف يمكنك الوصول إلى هناك بموارد حوسبة منخفضة وبدون أجهزة استشعار باهظة الثمن مثل LIDAR؟ هذا هو الواقع الهندسي الذي يجب مواجهته إلا إذا كنت تعيش في عالم حيث يدفع العملاء بسعادة 100 دولار مقابل التوصيل.

بالنسبة للمبتدئين ، تبدأ الروبوتات في اكتشاف العالم باستخدام الرادارات والعديد من الكاميرات والموجات فوق الصوتية.

ومع ذلك ، فإن التحدي يكمن في أن معظم هذه المعرفة منخفضة المستوى وليست دلالية. على سبيل المثال ، قد يشعر الروبوت أن جسمًا ما على بعد عشرة أمتار ، ولكن بدون معرفة فئة الأشياء ، من الصعب اتخاذ قرارات القيادة الآمنة.

يعد التعلم الآلي من خلال الشبكات العصبية مفيدًا بشكل مدهش لتحويل هذه البيانات غير المهيكلة منخفضة المستوى إلى معلومات ذات مستوى أعلى.

تتجول روبوتات المركبات الفضائية النجمية في الغالب على الأرصفة وتعبر الشوارع عند الحاجة. يفرض هذا مجموعة مختلفة من التحديات مقارنة بالسيارات التي تسير تلقائيًا. حركة المرور على طرق المركبات أكثر تنظيماً ويمكن التنبؤ بها. تتحرك السيارات في الممرات ولا تغير اتجاهها كثيرًا ، بينما يتوقف البشر كثيرًا بشكل مفاجئ ، ويتعرجون ، وقد يصحبهم كلب ذو مقود ولا يشيرون إلى نواياهم بأضواء ساطعة.

لفهم البيئة المحيطة به في الوقت الفعلي ، فإن المكون المركزي للروبوت هو وحدة لاكتشاف الكائنات: برنامج يدخل الصور ويعيد قائمة مربعات الكائنات.

كل شيء على ما يرام ولكن كيف تكتب مثل هذا البرنامج؟

الصورة عبارة عن مصفوفة كبيرة ثلاثية الأبعاد تتكون من عدد لا يحصى من الأرقام التي تمثل كثافة البكسل. تتغير هذه القيم بشكل كبير عند التقاط الصورة ليلاً بدلاً من التقاطها يوميًا ؛ عندما يتغير لون الكائن أو مقياسه أو موضعه ، أو عندما يتم قطع الكائن نفسه أو حجبه.

اليسار: ما يراه البشر. صحيح: ما يراه الكمبيوتر.

بالنسبة لبعض القضايا المعقدة ، يعد التدريس أمرًا طبيعيًا أكثر من البرمجة.

في برامج الروبوت ، لدينا مجموعة من الوحدات القابلة للتدريب ، بشكل أساسي الشبكات العصبية ، حيث تتم كتابة الكود بواسطة النموذج نفسه. يتم تمثيل البرنامج بمجموعة من الأوزان.

في البداية ، تتم تهيئة هذه الأرقام بشكل عشوائي ويكون إخراج البرنامج عشوائيًا أيضًا. يقدم المهندسون أمثلة نموذجية لما يرغبون في توقعه ويطلبون من الشبكة تحسينها في المرة القادمة التي يرون فيها إدخالًا مشابهًا. من خلال تغيير الأوزان بشكل متكرر ، تبحث خوارزمية التحسين عن البرامج التي تتنبأ بشكل متزايد بمربعات الحدود.

تطور البرامج المكتشفة بواسطة إجراء التحسين.

ومع ذلك ، من الضروري التفكير بعمق في الأمثلة المستخدمة لتشكيل النموذج.

  • هل يجب معاقبة النموذج أو مكافأته عندما يكتشف سيارة في انعكاس نافذة؟
  • ماذا يجب أن تفعل عندما تكتشف صورة إنسان في ملصق؟
  • هل يجب تسجيل مقطورة سيارة مليئة بالسيارات ككيان أم يجب تسجيل كل سيارة على حدة؟

هذه أمثلة حدثت أثناء إنشاء وحدة الكشف عن الأشياء في الروبوتات الخاصة بنا.

تكتشف الشبكة العصبية الأشياء في ردود الفعل وعلى الملصقات. خطأ أم ميزة؟

عند تدريس آلة ، لا تكفي البيانات الضخمة. يجب أن تكون البيانات المجمعة غنية ومتنوعة. على سبيل المثال ، سيؤدي استخدام الصور التي تم أخذ عينات منها بشكل موحد ثم التعليق عليها بعد ذلك إلى إظهار العديد من المشاة والسيارات ، على الرغم من أن النموذج قد يفتقر إلى أمثلة للدراجات النارية أو المتزلجين لاكتشاف هذه الفئات بشكل موثوق.

يجب أن يبحث الفريق على وجه التحديد عن الأمثلة الصعبة والحالات النادرة ، وإلا فإن النموذج لن يتقدم. Starship تعمل في العديد من البلدان وتثري الظروف الجوية المختلفة مجموعة الأمثلة. فوجئ الكثير من الناس عندما ركضت روبوتات التوصيل الخاصة بـ Starship أثناء العاصفة الثلجية “إيما” في المملكة المتحدةو ومع ذلك ، ظلت المطارات والمدارس مغلقة.

تقوم الروبوتات بتوصيل الطرود في مختلف الظروف الجوية.

في الوقت نفسه ، يتطلب شرح البيانات الوقت والموارد. من الناحية المثالية ، من الأفضل تدريب النماذج وتحسينها ببيانات أقل. هذا هو المكان الذي تدخل فيه الهندسة المعمارية. نقوم بتدوين المعرفة السابقة في عمليات الهندسة والتحسين لتقليل مساحة البحث للبرامج الأكثر احتمالًا في العالم الحقيقي.

نقوم بدمج المعرفة السابقة في هياكل الشبكات العصبية للحصول على نماذج أفضل.

في بعض تطبيقات رؤية الكمبيوتر ، مثل تجزئة البكسل ، من المفيد أن يعرف النموذج ما إذا كان الروبوت على رصيف أو مفترق طرق. لتوفير دليل ، نقوم بتشفير القرائن العالمية على مستوى الصورة في بنية الشبكة العصبية ؛ ثم يحدد النموذج ما إذا كان سيتم استخدامه أم لا دون الحاجة إلى تعلمه من البداية.

بعد هندسة البيانات والهندسة المعمارية ، يمكن أن يعمل النموذج بشكل جيد. ومع ذلك ، تتطلب نماذج التعلم العميق قدرًا كبيرًا من قوة الحوسبة ، وهذا يمثل تحديًا كبيرًا للكمبيوتر لأننا لا نستطيع الاستفادة من بطاقات الرسومات الأكثر قوة لروبوتات التوصيل التي تعمل بالبطارية منخفضة التكلفة.

تريد Starship أن تكون شحناتنا منخفضة التكلفة ، مما يعني أن أجهزتنا يجب أن تكون اقتصادية. هذا هو نفس السبب وراء عدم استخدام Starship لـ LIDARs (نظام كشف يعمل وفقًا لمبدأ الرادار ، ولكنه يستخدم ضوء الليزر) الذي سيسهل فهم العالم ، لكننا لا نريد لعملائنا دفع المزيد مما يحتاجون إليه للتسليم.

تعمل أنظمة الكشف عن الأشياء الحديثة المنشورة في الأوراق الأكاديمية بحوالي 5 إطارات في الثانية [MaskRCNN]، وأوراق الكشف عن الأشياء في الوقت الفعلي لا تبلغ عن معدلات أعلى بكثير من 100 إطارًا في الثانية [Light-Head R-CNN, tiny-YOLO, tiny-DSOD]. بالإضافة إلى ذلك ، يتم عرض هذه الأرقام في صورة واحدة ؛ ومع ذلك ، نحتاج إلى فهم بزاوية 360 درجة (أي ما يعادل معالجة 5 صور فردية تقريبًا).

لتوفير منظور ، تعمل نماذج Starship بأكثر من 2000 إطارًا في الثانية عند قياسها على وحدة معالجة رسومات على مستوى المستهلك وتعالج صورة بانورامية كاملة بزاوية 360 درجة في مسار مباشر. هذا يعادل 10000 إطارًا في الثانية عند معالجة 5 صور فردية بحجم الدُفعة 1.

الشبكات العصبية أفضل من البشر الذين يعانون من العديد من المشاكل البصرية ، على الرغم من أنها قد تحتوي على أخطاء. على سبيل المثال ، قد يكون مربع الحدود عريضًا جدًا أو الثقة منخفضة جدًا أو كائنًا هلوسة في مكان فارغ بالفعل.

المشاكل المحتملة في وحدة الكشف عن الكائن. كيف تصلحهم؟

تصحيح هذه الأخطاء هو التحدي.

تعتبر الشبكات العصبية من الصناديق السوداء التي يصعب تحليلها وفهمها. ومع ذلك ، لتحسين النموذج ، يجب على المهندسين فهم حالات الخطأ والخوض في خصوصيات ما تعلمه النموذج.

يتم تمثيل النموذج بمجموعة من الأوزان ويمكنك تصور ما تحاول كل خلية عصبية محددة اكتشافه. على سبيل المثال ، يتم تنشيط الطبقات الأولى من شبكة Starship بأنماط قياسية مثل الحواف الأفقية والرأسية. تكتشف الكتلة التالية من الطبقات أنسجة أكثر تعقيدًا ، بينما تكتشف الطبقات العليا أجزاء وأشياء كاملة للمركبة.

الطريقة التي نستخدم بها الشبكة العصبية في الروبوتات تزيد من فهم الصور.

للديون الفنية معنى آخر مع نماذج التعلم الآلي. يعمل المهندسون باستمرار على تحسين البنى وعمليات التحسين ومجموعات البيانات. نتيجة لذلك ، يصبح النموذج أكثر دقة. ومع ذلك ، فإن تغيير نموذج الكشف إلى نموذج أفضل لا يضمن بالضرورة النجاح في السلوك العام للروبوت.

هناك العشرات من المكونات التي تستخدم مخرجات نموذج الكشف عن الكائن ، كل منها يتطلب مستوى مختلفًا من الدقة والاسترداد التي تم تعيينها بناءً على النموذج الحالي. ومع ذلك ، يمكن أن يعمل النموذج الجديد بشكل مختلف بعدة طرق. على سبيل المثال ، يمكن أن ينحرف توزيع احتمالية الإخراج إلى قيم أكبر أو يكون أوسع. في حين أن متوسط ​​الأداء أفضل ، إلا أنه قد يكون أسوأ لمجموعة معينة مثل السيارات الكبيرة. لتجنب هذه العقبات ، يقوم الفريق بمعايرة الاحتمالات والتحقق من الانحدارات في العديد من مجموعات البيانات الطبقية.

متوسط ​​الأداء لا يخبرك بقصة النموذج بالكامل.

يطرح الإشراف على مكونات البرامج القابلة للتدريب مجموعة مختلفة من التحديات مقارنة بالتحكم القياسي في البرامج. إنه لا يهتم كثيرًا بوقت الاستدلال أو استخدام الذاكرة ، حيث إنها في الغالب ثابتة.

ومع ذلك ، يصبح التغيير في مجموعة البيانات هو الشاغل الرئيسي: يختلف توزيع البيانات المستخدمة لتشكيل النموذج عن التوزيع الحالي.

على سبيل المثال ، قد تكون هناك دراجات بخارية كهربائية متداولة فجأة على الأرصفة. إذا لم يأخذ النموذج في الاعتبار هذه الفئة ، فسيكون من الصعب على النموذج تصنيفها بشكل صحيح. لن تتفق المعلومات المستمدة من وحدة اكتشاف الكائنات مع المعلومات الحسية الأخرى ، والتي ستتطلب مساعدة من المشغلين البشريين وبالتالي تبطئ عمليات التسليم.

مصدر قلق مهم في التعلم الآلي العملي: بيانات التدريب والاختبار تأتي من توزيعات مختلفة.

تسمح الشبكات العصبية لروبوتات المركبة الفضائية بأن تكون آمنة عند تقاطعات الطرق وتجنب العقبات مثل السيارات والأرصفة من خلال فهم جميع الاتجاهات المختلفة التي يمكن أن يختارها البشر والعقبات الأخرى.

تحقق روبوتات Starship هذا من خلال استخدام الأجهزة الاقتصادية التي تطرح العديد من التحديات الهندسية ، ولكنها تجعل تسليم الروبوتات حقيقة واقعة. تُجري روبوتات المركبة الفضائية عمليات تسليم حقيقية سبعة أيام في الأسبوع في مدن مختلفة حول العالم ، ومن دواعي السرور أن نرى كيف تجلب تقنيتنا للناس قدرًا أكبر من الراحة في الحياة.

Add a Comment

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *