27فروردین 1399

طراحی موتور متن خوان

یکی از مسائل مهم و مورد توجه محققان در هوش مصنوعی و زمینه‌های تحقیقاتی مرتبط با آن، تبدیل خودکار متون الکترونیکی به گفتار است. امروزه برای اکثر زبانهای زنده دنیا سیستم‌های تبدیل متن به گفتار وجود دارد، به عنوان نمونه می‌توان از سیستم‌های تبدیل متن به گفتار معرفی شده در نام برد. شاید بتوان قدیمی‌ترین سیستم تبدیل متن به گفتار را MITTalk برای زبان انگلیسی دانست . در این سیستم پارامترهای مهم تولید گفتار به سادگی و به روشی قانون-گرا پیشگویی می‌شوند و با استفاده از یک موتور سنتز فرمنتی گفتار خروجی تولید می‌گردد. از سوی دیگر شاید بتوان سیستم تبدیل متن به گفتار Festival را یکی از مدرن‌ترین این سیستم‌ها نام برد که به شکل کد-باز و برای استفاده محقیقن با رعایت اصول مهندسی نرم افزار ارائه شده است. این سیستم ابتدا برای زبان انگلیسی ارائه و سپس به مرور زمان، زبانهای دیگری را نیز در بر گرفت. با دانش نویسندگان این تحقیق تنها سیستم تبدیل متن به گفتار ارائه شده به شکل تجاری برای زبان فارسی سیستم تبدیل متن به گفتار شرکت راهکار هوشمند ایراتیان است، هر چند که نمونه‌های تحقیقاتی دیگری نیز پیش از این سیستم ارائه شده است.
بطور کلی برای تبدیل متن به گفتار نیاز است تا پارامترهای مهم در تولید گفتار استخراج و استفاده شوند. استخراج بعضی از این پارامترها همچون رشته آوایی نوشتار، کشش زمانی واجها و منحنی پیچ گفتار الزامی و بعضی دیگر همچون سرعت بیان، درنگ بین کلمات و تن صدا از جمله پارامترهای غیر ضروری می‌باشند که استفاده از آنها منجر به بهبود خروجی سیستم می‌گردد. این پارامترها را هم می‌توان به کمک پردازش‌های مبتنی بر قانون و هم به کمک روش‌های آماری استخراج کرد. به عنوان مثال تعیین رشته آوایی یا تبدیل حرف به صدا هم به کمک روشهای مبتنی بر آمار و یادگیری ماشین و هم با استفاده از روشهای مبتنی بر قانون امکان پذیر است. روش تعیین هر یک از این پارامترها به شدت وابسته به طبیعت زبانی است که تولید گفتار از متن برای آن صورت می‌گیرد. به عنوان مثال روش‌های تبدیل حرف به صدا به کمک روش‌های آماری برای زبان انگلیسی از دقت مناسبی برخوردارند اما در ادامه استفاده از چنین روشهایی برای زبان فارسی، دقت مناسبی را نخواهد داشت، این مساله ناشی از شکل نوشتار زبان فارسی و حذف آواهای صدادار کوتاه از صورت نوشتاری است.

یکی از مشکلاتی که فارسی زبانان کم بینا و نا بینا و یا افرادی که درگیر کارهای زیادی هستند و روزانه باید فایلهای زیادی را بخوانند نبود نرم افزاری است که امکان قرائت متون فارسی را داشته باشد این نرم افزار در واقع امکان خواندن و قرائت فایلهای فارسی را به وسیله رایانه و تلفن همراه امکان پذیر میکند قبل از اینکه شرکت راهکار هوشمند ایرانیان شروع به ساخت این پروژه کند با شرکتهای بزرگی همچون گوگل و ماکروسافت و چند شرکت دیگر مکاتباتی جهت کسب اطلاعات و همینطور دعوت به همکاری به عنوان پروژه مشترک انجام داد اما جوابی که از این شرکتها در مورد ساخت موتور هوشمند خواندن متون فارسی شنید این بود که "عملا این کار به خاطر شرایط و قواعد زبان فارسی غیر ممکن است" اما با همت متخصصین شرکت راهکار هوشمند ایرانیان امروز این موتور با دقت 99% طراحی و ارائه گردیده است.

در ادامه توضیحات فنی مختصر در رابطه با موتور متن خوان شرکت راهکار هوشمند ایرانیان ارائه میگردد:

توليد گفتار از روي متن و سيستم‌هاي تبديل متن به گفتار (TTS: Text-to-Speech)يكي از زمينه‌هاي مهم و بسيار کاربردي در پردازش سيگنال گفتار مي‌باشد. سيستم تبديل متن به گفتار يا سنتز گفتار يك سيستم خودكار كامپيوتري است كه قابليت قرائت هر متني را به ‌صورت طبيعي داشته باشد. اين سيستم‌ها که کاربردهاي زيادي دارند، مي‌توانند براي نابينايان و کم بینایان بسيار مفيد باشند. سيستم‌هاي TTS افراد نابينا و کم بینا را قادر مي‌سازند تا بتوانند به منابع مختلف اطلاعاتي دسترسي پيدا کنند، منابعي مانند کتاب‌ها، نشريات و روزنامه‌ها، سايت‌هاي اينترنتي، منابع آموزشي مختلف و ... . اين مساله باعث مي‌شود که دنياي نابينايان و کم بینایان متحول گردد و بتوانند با دسترسي به منابع مختلف هم مشکل انزواي خود را حل نمايند و هم در بعد آموزش و يادگيري نيز پيشرفت بيشتري داشته باشند.

براي توليد گفتار در TTS بايستي از روش‌ها و الگوريتم‌هايي جهت خواندن متون استفاده شود چراکه ذخيره‌سازي تمامي كلمات يك زبان (با توجه به تعداد بسيار زياد كلمات و رشد هميشگي آن) غيرممكن و در راستاي توليد گفتار طبيعي بي‌فايده خواهد بود. "زير و بمي" يا تغييرات فركانس گام ، "ديرش" ، "شدت" و نيز "درنگ" چهار عنصر نوايي گفتار هستندكه معمولاً در سطوح مختلف اعم از هجا، واژه يا جمله اثر خود را نشان مي‌دهند و در سيستم‌هاي TTS بايستي گنجانده شوند.

. اساساٌ تمامي سيستم‌هاي تبديل متن به گفتار داراي دو بخش اصلي هستند که عبارتند از:
۱- استخراج اطلاعات آوايي و ساير اطلاعات زباني مانند تکيه و نوا از متن ورودي. (مبدل متن به دنبالة آوايي)
2- تبديل اين اطلاعات آوايي به شکل موج گفتار. (سنتز گفتار)
که نحوه ارتباط اين دو بخش و توليد صدا از روي يک متن ورودي به صورت کلي در شکل زير نشان داده شده است.
دو رويکرد رايج براي توليد گفتار وجود دارد، اولي روش سنتز مبتني بر قاعده است كه در آن پارامترهاي مشخصه گفتار در هر بازة زماني توسط مجموعه‌اي از قواعد توليد مي‌شوند و بعدي روش اتصال قطعات گفتار كه در آن واحدهاي از پيش ذخيره شدة صوتي براي توليد عبارتي دلخواه در كنار هم چيده مي‌شوند. نمونة مشهور سنتز كننده‌هاي مبتني بر قاعده، Klatt و مدل تجاري‌تر آن DECTalk مي‌باشد.
در زبان فارسي نيز کارهاي تحقيقاتي و پروژه‌هاي مختلفي در زمينه TTS انجام شده است. نتيجه يکي از اين فعاليت‌ها، طراحي و ساخت نرم‌افزار تبديل متون فارسي به گفتار توسط متخصصين هوش مصنوعي از شرکت راهکار هوشمند ایرانیان است. اين نرم‌افزار نخستين نرم‌افزار قدرتمند تبديل متن به گفتار (Text-to-Speech) در زبان فارسي است که قادر است متون فارسي را با تبديل به گفتار طبيعي بخواند. اگرچه اين نرم‌افزار مي‌تواند با اهداف مختلفي به کار رود اما يکي از مهم‌ترين کاربردهاي آن، خواندن متون رايانه‌اي براي افراد نابينا و کم‌بينا است که آنها را قادر به ايجاد تعامل با رايانه‌ها مي‌کند. اين نرم‌افزار به همراه با نرم افزار Gap Reader این شرکت ارائه میگردد که قابلیت خواندن متون فارسی و انگلیسی را در دو محیط یندوز و آندروید برای کاربران عزیر ارائه خواهد کرد.

پست قبلی

نرم افزار Gap Viewer

پست بعدی

فرایند داده کاوی در تجارت ھوشمند

2 نظر

علی کریمی 1399

7 اسفند

Lorem ipsum dolor sit amet, consectetur adipisicing elit. Eveniet, iste?

پاسخ

علی کریمی 1399

7 اسفند

Lorem ipsum dolor sit amet, consectetur adipisicing elit. Eveniet, iste?

پاسخ

طراحی موتور متن خوان

نرم افزار Gap Viewer

فرایند داده کاوی در تجارت ھوشمند

2 نظر

علی کریمی 1399

علی کریمی 1399

کامنت خود را بگذارید

چگونه سئو به بالا بردن رتبه سایت من کمک می کند؟

ریکت چگونه کار می کند ؟

شماره تلفن

آدرس