فئات
بلوق جديد
Speex: برنامج ترميز مجاني لحرية التعبير
November 17 , 2021ملخص
Speex هو تنسيق ضغط صوتي مفتوح المصدر / برمجيات مجانية وخالٍ من براءات الاختراع مصمم للكلام. يهدف مشروع Speex إلى تقليل حاجز الدخول للتطبيقات الصوتية من خلال توفير بديل مجاني لبرامج ترميز الكلام باهظة الثمن. علاوة على ذلك ، فإن Speex تتكيف جيدًا مع تطبيقات الإنترنت وتوفر ميزات مفيدة غير موجودة في معظم برامج الترميز الأخرى. أخيرًا ، Speex هي جزء من مشروع GNU ومتاحة بموجب ترخيص BSD المنقح.
تستهدف Speex نقل الصوت عبر بروتوكول الإنترنت (VoIP) والضغط المستند إلى الملفات. كانت أهداف التصميم هي إنشاء برنامج ترميز يمكن تحسينه للحصول على كلام عالي الجودة ومعدل بت منخفض. لتحقيق ذلك ، يستخدم برنامج الترميز معدلات بت متعددة ، ويدعم النطاق العريض للغاية والنطاق العريض والنطاق الضيق. تم تصميم برنامج الترميز ليكون قويًا للحزم المفقودة ، ولكنه ضعيف بالنسبة للحزم التالفة. كل هذا أدى إلى اختيار التنبؤ الخطي المتحمس للشفرة (CELP) كأسلوب تشفير لاستخدامه في Speex.
سمات
معدل أخذ العينات
تم تصميم Speex بشكل أساسي لثلاثة معدلات مختلفة لأخذ العينات: 8 كيلو هرتز (نفس معدل أخذ العينات لإرسال المكالمات الهاتفية) ، و 16 كيلو هرتز ، و 32 كيلو هرتز. ويشار إليها على التوالي بالنطاق الضيق والنطاق العريض والنطاق العريض للغاية.
جودة
يتم التحكم في تشفير Speex في معظم الأوقات بواسطة معلمة جودة تتراوح من 0 إلى 10. في عملية معدل البت الثابت (CBR) ، تكون معلمة الجودة عددًا صحيحًا ، بينما بالنسبة لمعدل البت المتغير (VBR) ، تكون المعلمة رقم حقيقي (فاصلة عائمة).
التعقيد (متغير)
باستخدام Speex ، من الممكن تغيير درجة التعقيد المسموح بها لجهاز التشفير. يتم ذلك من خلال التحكم في كيفية إجراء البحث باستخدام عدد صحيح يتراوح من 1 إلى 10 بطريقة مشابهة لخيارات -1 إلى -9 لأدوات ضغط gzip. بالنسبة للاستخدام العادي ، يكون مستوى الضوضاء عند التعقيد 1 بين 1 و 2 ديسيبل أعلى من مستوى التعقيد 10 ، لكن متطلبات وحدة المعالجة المركزية للتعقيد 10 أعلى بحوالي خمس مرات من التعقيد 1. في الممارسة العملية ، أفضل مفاضلة بين التعقيد 2 و 4 ، [13] على الرغم من أن الإعدادات الأعلى تكون مفيدة غالبًا عند ترميز الأصوات غير الكلامية مثل نغمات DTMF ، أو إذا لم يكن التشفير في الوقت الفعلي.
معدل بت متغير (VBR)
يسمح معدل البت المتغير (VBR) لبرنامج الترميز بتغيير معدل بتاته ديناميكيًا للتكيف مع "صعوبة" الصوت الذي يتم ترميزه. في مثال Speex ، تتطلب الأصوات مثل أحرف العلة وعابرات الطاقة العالية معدل بت أعلى لتحقيق جودة جيدة ، بينما يمكن ترميز الأصوات الاحتكاكية (مثل أصوات s و f) بشكل مناسب مع عدد أقل من البتات. لهذا السبب ، يمكن أن تحقق VBR معدل بت أقل لنفس الجودة ، أو جودة أفضل لمعدل بت معين. على الرغم من مزاياها ، فإن VBR لها ثلاثة عيوب رئيسية: أولاً ، من خلال تحديد الجودة فقط ، لا يوجد ضمان حول متوسط معدل البت النهائي. ثانيًا ، بالنسبة لبعض تطبيقات الوقت الفعلي مثل نقل الصوت عبر IP (VoIP) ، ما يهم هو الحد الأقصى لمعدل البت ، والذي يجب أن يكون منخفضًا بدرجة كافية لقناة الاتصال. ثالثًا ، قد لا يضمن تشفير الكلام المشفر بواسطة VBR الخصوصية الكاملة ، حيث لا يزال من الممكن تحديد العبارات ، على الأقل في إعداد محكم باستخدام قاموس صغير من العبارات ، [14] من خلال تحليل نمط التباين في معدل البت.
متوسط معدل البت (ABR)
يحل متوسط معدل البت إحدى مشكلات VBR ، حيث يقوم بضبط جودة VBR ديناميكيًا من أجل تلبية معدل البت المستهدف المحدد. نظرًا لأنه يتم ضبط الجودة / معدل البت في الوقت الفعلي (حلقة مفتوحة) ، ستكون الجودة العالمية أقل قليلاً من تلك التي تم الحصول عليها عن طريق التشفير في VBR مع إعداد الجودة الصحيح تمامًا لتلبية متوسط معدل البت المستهدف.
كشف النشاط الصوتي (VAD)
عند التمكين ، يكتشف اكتشاف النشاط الصوتي ما إذا كان الصوت الذي يتم ترميزه عبارة عن كلام أم صمت / ضوضاء في الخلفية. يتم دائمًا تنشيط VAD ضمنيًا عند الترميز في VBR ، لذلك يكون الخيار مفيدًا فقط في العمليات غير VBR. في هذه الحالة ، يكتشف Speex فترات عدم الكلام ويقوم بتشفيرها فقط بتات كافية لإعادة إنتاج ضوضاء الخلفية. وهذا ما يسمى "توليد ضوضاء الراحة" (CNG). كان الإصدار الأخير من VAD يعمل بشكل جيد هو 1.1.12 ، منذ الإصدار 1.2 تم استبداله بـ Any Activity Detection.
انتقال متقطع (DTX)
يعد الإرسال غير المستمر إضافة إلى تشغيل VAD / VBR الذي يسمح بوقف الإرسال تمامًا عندما تكون ضوضاء الخلفية ثابتة. في ملف ما ، تُستخدم 5 بتات لكل رتل مفقود (بما يعادل 250 بت / ثانية).
تعزيز الإدراك
التحسين الإدراكي هو جزء من مفكك الشفرة الذي ، عند تشغيله ، يحاول تقليل (إدراك) الضوضاء الناتجة عن عملية التشفير / فك التشفير. في معظم الحالات ، يجعل التحسين الإدراكي الصوت بعيدًا عن الصوت الأصلي بشكل موضوعي (نسبة الإشارة إلى الضوضاء) ، لكنه في النهاية لا يزال يبدو أفضل (التحسين الذاتي).
التأخير الحسابي
يقدم كل برنامج ترميز تأخيرًا في الإرسال. بالنسبة إلى Speex ، يكون هذا التأخير مساويًا لحجم الإطار ، بالإضافة إلى قدر من "التطلع إلى الأمام" المطلوب لمعالجة كل إطار. في التشغيل ضيق النطاق (8 كيلو هرتز) ، يكون التأخير 30 مللي ثانية ، بينما بالنسبة للنطاق العريض (16 كيلو هرتز) ، يكون التأخير 34 مللي ثانية. لا تأخذ هذه القيم في الاعتبار الوقت الذي تستغرقه وحدة المعالجة المركزية في تشفير الإطارات أو فك تشفيرها.
TONMIND ، مصمم ومصنعIPS الذروة منذ عام 2014. مكبرات الصوت SIP طبقت معالجة الصوت Speex لتحسين جودة الصوت.
لنا مكبرات الصوت IP Paging يتضمن برنامج الترميز OPUS ، G711U ، G711A ، G722 ، GSM ، MP1 ، MP2 ، MP3 ، WAV ، LPCM s16le. يضمن الترميز المتنوع أيضًا جودة صوت ممتازة.
إلى الذهن المتحدث SIP يمكن تطبيقها على حالات التطبيق المختلفة ، على سبيل المثال ، المدرسة ، الخانق التجارية ، مركز خدمة العملاء ، الفندق ، المستشفى ، الأماكن الكبيرة ، إلخ. يمكن للمستخدمين توصيل مكبرات الصوت SIP بـ IPPBX أو برنامج نظام PA الذي طوره فريق RD . يمكنه أيضًا العمل مع برنامج Axis عبر الإرسال المتعدد RTP.
تشمل قوة Tonmind الأساسية:
• أكثر من 10 سنوات خبرة الصوت والفيديو عبر بروتوكول الإنترنت
• دعم فني حصري.
• فريق عملاء مدرب جيدًا.
• تركز على خدمة العملاء.
• استجابة سريعة للسوق.