طراحی موتور متن خوان
یکی از مسائل مهم و مورد توجه محققان در هوش مصنوعی و زمینههای تحقیقاتی مرتبط با آن، تبدیل خودکار متون الکترونیکی به گفتار است. امروزه برای اکثر زبانهای زنده دنیا سیستمهای تبدیل متن به گفتار وجود دارد، به عنوان نمونه میتوان از سیستمهای تبدیل متن به گفتار معرفی شده در نام برد. شاید بتوان قدیمیترین سیستم تبدیل متن به گفتار را MITTalk برای زبان انگلیسی دانست . در این سیستم پارامترهای مهم تولید گفتار به سادگی و به روشی قانون-گرا پیشگویی میشوند و با استفاده از یک موتور سنتز فرمنتی گفتار خروجی تولید میگردد. از سوی دیگر شاید بتوان سیستم تبدیل متن به گفتار Festival را یکی از مدرنترین این سیستمها نام برد که به شکل کد-باز و برای استفاده محقیقن با رعایت اصول مهندسی نرم افزار ارائه شده است. این سیستم ابتدا برای زبان انگلیسی ارائه و سپس به مرور زمان، زبانهای دیگری را نیز در بر گرفت. با دانش نویسندگان این تحقیق تنها سیستم تبدیل متن به گفتار ارائه شده به شکل تجاری برای زبان فارسی سیستم تبدیل متن به گفتار شرکت راهکار هوشمند ایراتیان است، هر چند که نمونههای تحقیقاتی دیگری نیز پیش از این سیستم ارائه شده است.
بطور کلی برای تبدیل متن به گفتار نیاز است تا پارامترهای مهم در تولید گفتار استخراج و استفاده شوند. استخراج بعضی از این پارامترها همچون رشته آوایی نوشتار، کشش زمانی واجها و منحنی پیچ گفتار الزامی و بعضی دیگر همچون سرعت بیان، درنگ بین کلمات و تن صدا از جمله پارامترهای غیر ضروری میباشند که استفاده از آنها منجر به بهبود خروجی سیستم میگردد. این پارامترها را هم میتوان به کمک پردازشهای مبتنی بر قانون و هم به کمک روشهای آماری استخراج کرد. به عنوان مثال تعیین رشته آوایی یا تبدیل حرف به صدا هم به کمک روشهای مبتنی بر آمار و یادگیری ماشین و هم با استفاده از روشهای مبتنی بر قانون امکان پذیر است. روش تعیین هر یک از این پارامترها به شدت وابسته به طبیعت زبانی است که تولید گفتار از متن برای آن صورت میگیرد. به عنوان مثال روشهای تبدیل حرف به صدا به کمک روشهای آماری برای زبان انگلیسی از دقت مناسبی برخوردارند اما در ادامه استفاده از چنین روشهایی برای زبان فارسی، دقت مناسبی را نخواهد داشت، این مساله ناشی از شکل نوشتار زبان فارسی و حذف آواهای صدادار کوتاه از صورت نوشتاری است.
یکی از مشکلاتی که فارسی زبانان کم بینا و نا بینا و یا افرادی که درگیر کارهای زیادی هستند و روزانه باید فایلهای زیادی را بخوانند نبود نرم افزاری است که امکان قرائت متون فارسی را داشته باشد این نرم افزار در واقع امکان خواندن و قرائت فایلهای فارسی را به وسیله رایانه و تلفن همراه امکان پذیر میکند قبل از اینکه شرکت راهکار هوشمند ایرانیان شروع به ساخت این پروژه کند با شرکتهای بزرگی همچون گوگل و ماکروسافت و چند شرکت دیگر مکاتباتی جهت کسب اطلاعات و همینطور دعوت به همکاری به عنوان پروژه مشترک انجام داد اما جوابی که از این شرکتها در مورد ساخت موتور هوشمند خواندن متون فارسی شنید این بود که "عملا این کار به خاطر شرایط و قواعد زبان فارسی غیر ممکن است" اما با همت متخصصین شرکت راهکار هوشمند ایرانیان امروز این موتور با دقت 99% طراحی و ارائه گردیده است.
در ادامه توضیحات فنی مختصر در رابطه با موتور متن خوان شرکت راهکار هوشمند ایرانیان ارائه میگردد:
توليد گفتار از روي متن و سيستمهاي تبديل متن به گفتار (TTS: Text-to-Speech)يكي از زمينههاي مهم و بسيار کاربردي در پردازش سيگنال گفتار ميباشد. سيستم تبديل متن به گفتار يا سنتز گفتار يك سيستم خودكار كامپيوتري است كه قابليت قرائت هر متني را به صورت طبيعي داشته باشد. اين سيستمها که کاربردهاي زيادي دارند، ميتوانند براي نابينايان و کم بینایان بسيار مفيد باشند. سيستمهاي TTS افراد نابينا و کم بینا را قادر ميسازند تا بتوانند به منابع مختلف اطلاعاتي دسترسي پيدا کنند، منابعي مانند کتابها، نشريات و روزنامهها، سايتهاي اينترنتي، منابع آموزشي مختلف و ... . اين مساله باعث ميشود که دنياي نابينايان و کم بینایان متحول گردد و بتوانند با دسترسي به منابع مختلف هم مشکل انزواي خود را حل نمايند و هم در بعد آموزش و يادگيري نيز پيشرفت بيشتري داشته باشند.
براي توليد گفتار در TTS بايستي از روشها و الگوريتمهايي جهت خواندن متون استفاده شود چراکه ذخيرهسازي تمامي كلمات يك زبان (با توجه به تعداد بسيار زياد كلمات و رشد هميشگي آن) غيرممكن و در راستاي توليد گفتار طبيعي بيفايده خواهد بود. "زير و بمي" يا تغييرات فركانس گام ، "ديرش" ، "شدت" و نيز "درنگ" چهار عنصر نوايي گفتار هستندكه معمولاً در سطوح مختلف اعم از هجا، واژه يا جمله اثر خود را نشان ميدهند و در سيستمهاي TTS بايستي گنجانده شوند.
. اساساٌ تمامي سيستمهاي تبديل متن به گفتار داراي دو بخش اصلي هستند که عبارتند از:
۱- استخراج اطلاعات آوايي و ساير اطلاعات زباني مانند تکيه و نوا از متن ورودي. (مبدل متن به دنبالة آوايي)
2- تبديل اين اطلاعات آوايي به شکل موج گفتار. (سنتز گفتار)
که نحوه ارتباط اين دو بخش و توليد صدا از روي يک متن ورودي به صورت کلي در شکل زير نشان داده شده است.
دو رويکرد رايج براي توليد گفتار وجود دارد، اولي روش سنتز مبتني بر قاعده است كه در آن پارامترهاي مشخصه گفتار در هر بازة زماني توسط مجموعهاي از قواعد توليد ميشوند و بعدي روش اتصال قطعات گفتار كه در آن واحدهاي از پيش ذخيره شدة صوتي براي توليد عبارتي دلخواه در كنار هم چيده ميشوند. نمونة مشهور سنتز كنندههاي مبتني بر قاعده، Klatt و مدل تجاريتر آن DECTalk ميباشد.
در زبان فارسي نيز کارهاي تحقيقاتي و پروژههاي مختلفي در زمينه TTS انجام شده است. نتيجه يکي از اين فعاليتها، طراحي و ساخت نرمافزار تبديل متون فارسي به گفتار توسط متخصصين هوش مصنوعي از شرکت راهکار هوشمند ایرانیان است. اين نرمافزار نخستين نرمافزار قدرتمند تبديل متن به گفتار (Text-to-Speech) در زبان فارسي است که قادر است متون فارسي را با تبديل به گفتار طبيعي بخواند. اگرچه اين نرمافزار ميتواند با اهداف مختلفي به کار رود اما يکي از مهمترين کاربردهاي آن، خواندن متون رايانهاي براي افراد نابينا و کمبينا است که آنها را قادر به ايجاد تعامل با رايانهها ميکند. اين نرمافزار به همراه با نرم افزار Gap Reader این شرکت ارائه میگردد که قابلیت خواندن متون فارسی و انگلیسی را در دو محیط یندوز و آندروید برای کاربران عزیر ارائه خواهد کرد.
کامنت خود را بگذارید