یادگیری ماشینی مهارت های رونویسی گفتار عربی را بهبود می بخشد


به لطف پیشرفت در فرآیند گفتار و زبان طبیعی، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. اکنون، می‌توانید ابزار خانگی خود را برای پخش موسیقی دریافت کنید یا آن را با دستورات صوتی اجرا کنید، که این ویژگی قبلاً در برخی از دستگاه‌ها وجود دارد.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از عربی صحبت می کنید، که از منطقه ای به منطقه دیگر متفاوت است و ممکن است برخی آن را درک نکنند، داستان متفاوتی است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا زبان دیگری با پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که کنار گذاشته شده‌اید.

ساخت این مجموعه احمد علی را برای یافتن راه حل جذب کرد. او یک مهندس اصلی در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیان‌گذار عربی گفتار است، «جامعه‌ای که برای بهره‌مندی از علم و فناوری گفتار عربی وجود دارد. “

دفتر مرکزی بنیاد قطر

علی چندین سال پیش زمانی که در IBM کار می کرد، مجذوب ایده صحبت کردن با ماشین ها، لوازم خانگی و ابزارها شد. آیا می‌توانیم دستگاهی بسازیم که بتواند لهجه‌های مختلف را بفهمد – یک پزشک اطفال مصری برای خودکار کردن دستور العمل‌ها، یک معلم سوری برای کمک به بچه‌ها برای رسیدن به اصل درس، یا یک آشپز مراکشی که بهترین دستور العمل‌های کوسکوس را توضیح می‌دهد؟» او اظهار داشت. با این حال، الگوریتم‌هایی که این ماشین‌ها را کنترل می‌کنند، قادر به فیلتر کردن حدود 30 نوع عربی نیستند، چه رسد به درک آنها. در حال حاضر، ابزارهای تشخیص گفتار عموماً فقط به زبان انگلیسی و برخی از زبان های دیگر کار می کنند.

همه‌گیری ویروس کرونا اتکای خود را به فناوری صدا افزایش داده است، جایی که فناوری پردازش زبان طبیعی به افراد کمک می‌کند دستورالعمل‌های ماندن در خانه و معیارهای فاصله فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده ها استفاده می کنیم، آینده هنوز پر از برنامه های کاربردی است.

میلیون‌ها نفر در سراسر جهان از دوره‌های گسترده آنلاین (MOOCs) برای دسترسی آزاد و مشارکت نامحدود استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی در MOOC است، که در آن دانش‌آموزان می‌توانند به قسمت‌های خاصی از محتوای گفته شده در دوره نگاه کنند و ترجمه را از طریق زیرنویس فعال کنند. فن آوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دانشگاه امکان پذیر می کند.

احمد علی، دانشگاه حمد بن کلیفه

بر اساس مقاله اخیر در مجله Speech Technology، پیش‌بینی می‌شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون‌ها مصرف‌کننده و شرکت در سراسر جهان به ربات‌های صوتی نه تنها برای برقراری ارتباط با دستگاه‌ها یا اتومبیل‌ها، بلکه همچنین برای برقراری ارتباط با ماشین‌ها، متکی هستند. برای بهبود خدمات به مشتریان، هدایت نوآوری در مراقبت های بهداشتی، و افزایش دسترسی و فراگیری برای افراد دارای اختلالات شنوایی، گفتار یا حرکتی.

در یک نظرسنجی در سال 2019، Capgemini تخمین می‌زند که تا سال 2022، بیش از دو نفر از هر سه مصرف‌کننده به جای مراجعه به فروشگاه یا شعبه بانک، دستیار صوتی را انتخاب می‌کنند. بخشی که به دلیل زندگی و تجارت دور از خانه، فاصله فیزیکی و تجارتی که بیش از نیم سال است که این بیماری همه گیر در این دنیا به وجود آورده است، به درستی قابل استفاده است.

با این حال، این دستگاه نتوانست به بسیاری از مناطق جهان ارسال شود. برای 30 نوع زبان عربی و میلیون ها نفر، این یک فرصت از دست رفته است.

عربی برای ماشین

ربات‌های صوتی که انگلیسی یا فرانسوی صحبت می‌کنند بسیار عالی هستند. با این حال، یادگیری ماشینی برای درک زبان عربی به دلایل متعددی دشوار است. اینها سه چالش رایج شناخته شده هستند:

  1. کمتر انتقادی. گویش عربی همان طور که معمولاً تلفظ می شود عامیانه است. به طور کلی متن موجود دیاکریتیک نیست، به این معنی که دارای لهجه هایی مانند حاد (´) یا سنگین (`) نیست که ارزش صوتی حرف را نشان دهد. بنابراین، تعیین محل حروف صدادار دشوار است.
  2. کمبود منابع. فقدان داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها قوانین املایی استانداردی ندارند که نحوه نگارش زبان را تعیین کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تأکید. این منابع برای آموزش مدل های کامپیوتری بسیار مهم هستند و در واقع تعداد بسیار کمی بر توسعه تشخیص گفتار عربی تأثیر می گذارند.
  3. پیچیدگی مورفولوژیکی عربی زبانان در بسیاری از تغییر کد نقش دارند. به عنوان مثال، در مناطق تحت اشغال فرانسه – شمال آفریقا، مراکش، الجزایر، و تونس – این گویش ها شامل بسیاری از کلمات فرانسوی قرض گرفته شده است. در نتیجه، تعداد زیادی کلمات تلفظ شده از دایره واژگان خارج شده است، به طوری که فناوری تشخیص گفتار نامفهوم است زیرا کلمات عربی نیستند.

علی گفت: «اما میدان به سرعت در حال حرکت است. این یک تلاش مشترک بین بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی، پروژه ArabicSpeech را برای ترکیب ترجمه‌های عربی با گویش‌های بومی از هر منطقه رهبری کرد. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجا که لهجه ها تابع مرز نیستند، این می تواند به اندازه یک گویش در هر شهر باشد. برای مثال، یک گویشور بومی مصری می تواند بین یک گویش اسکندریه از همشهری اسوان (فاصله 1000 کیلومتری روی نقشه) تمایز قائل شود.

آینده ای بسازید که فناوری را برای همه بشناسد

در این مرحله، ماشین‌ها تقریباً به اندازه رونویس‌کننده‌های انسانی دقیق هستند، تا حد زیادی به لطف پیشرفت‌ها در شبکه‌های عصبی عمیق، یک زیرشاخه یادگیری ماشینی در هوش مصنوعی که بر الگوریتم‌های الهام‌بخش نحوه عملکرد مغز انسان، از نظر بیولوژیکی و عملکردی متکی است. با این حال، تا به حال، تشخیص گفتار تا حدودی به طور کلی هک شده است. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و مدل سازی زبان را دارد. همه ماژول ها باید به طور جداگانه آموزش داده شوند. اخیراً، محققان مدل‌هایی را آموزش می‌دهند که ویژگی‌های صوتی را مستقیماً به رونویسی متن تبدیل می‌کنند و به طور بالقوه همه بخش‌ها را برای کار نهایی بهینه می‌کنند.

حتی با وجود این پیشرفت ها، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی اصلی دستورات صوتی بدهد. او گفت: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌ها به گویش خود صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص دستگاه گفتار عربی چند لهجه ای هنوز اتفاق نیفتاده است.

قرار دادن این موضوع در کانون کار علی، که در اولین تبدیل کننده برای شناخت گفتار عربی و لهجه های آن به اوج خود رسیده است. یکی که تاکنون به عملکرد بی نظیری دست یافته است. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.

دلایل متعددی وجود دارد که علی و تیمش تاکنون در ساخت این دستگاه گفتار موفق بوده اند. او به ویژه گفت: “نیاز به منابع در همه گویش ها وجود دارد. ما باید منابعی را برای آموزش این مدل ها بسازیم. پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشینی فشرده محاسباتی اکنون در واحدهای پردازش گرافیکی رخ می دهد که می توانند پردازش کنند. و گرافیک پیچیده را به سرعت نمایش دهید همانطور که علی گفت: “ما معماری خوب، ماژول های خوب و داده هایی داریم که واقعیت را نشان می دهد.”

محققان QCRI و Canary AI به تازگی مدلی را ایجاد کرده اند که می تواند به برابری انسانی در اخبار پخش عربی دست یابد. این سیستم اثر زیرنویس گزارش های روزانه الجزیره را نشان می دهد. در حالی که میزان خطای انسانی انگلیسی (HER) تقریباً 5.6٪ است، این مطالعه نشان می دهد که HER عربی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، می تواند به 10٪ برسد. به لطف پیشرفت‌های اخیر در یادگیری عمیق و معماری سرتاسر، دستگاه‌های تشخیص گفتار عربی می‌توانند سخنرانان بومی را در اخبار پخش شکست دهند.

در حالی که به نظر می رسد تشخیص گفتار عربی استاندارد مدرن به خوبی کار می کند، محققان QCRI و Canary AI بسیار خوشحال هستند که مرزهای پردازش گویش را آزمایش می کنند و نتایج خوبی به دست می آورند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، توجه به گویش چیزی است که لازم است تا دستیاران صوتی بتوانند ما را درک کنند.

این محتوا توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.


تمامی اخبار به صورت تصادفی و رندومایز شده پس از بازنویسی رباتیک در این سایت منتشر شده و هیچ مسئولتی در قبال صحت آنها نداریم