تبدیل ویس به متن Speech to Text یا ASR در سیموتل با N8N و هوش مصنوعی OpenAI

در مراکز تماس، ثبت و تحلیل تماس‌های تلفنی یکی از کلیدی‌ترین فرآیندهای نظارتی، آموزشی و بهبود خدمات است. یکی از روش‌های هوشمندانه برای انجام این تحلیل‌ها، استفاده از اتوماسیون با N8N و ابزارهای هوش مصنوعی مانند OpenAI است.

در این آموزش قصد داریم فرآیندی را طراحی کنیم که طی آن، تماس‌های صوتی ضبط‌شده در مرکز تماس سیموتل به‌صورت خودکار دریافت، به متن تبدیل و در نهایت به ایمیل یا سایر مقاصد دلخواه ارسال شوند. این فرآیند می‌تواند به‌عنوان یک ابزار گزارش‌گیری خودکار مورد استفاده قرار گیرد که اصطلاحا S2T یا ASR نامیده می شود.


مرحله ۱: ساخت یک Workflow جدید در N8N

ابتدا وارد محیط N8N شوید و یک ورک‌فلو (Workflow) جدید بسازید. این ورک‌فلو نقطه شروع اجرای فرآیند هوشمند شما خواهد بود.


مرحله ۲: ایجاد فرم برای دریافت اطلاعات تماس

در این مرحله از نود فرم (Form Trigger) استفاده می‌کنیم تا کاربر بتواند اطلاعات مورد نیاز برای بازیابی تماس را وارد کند. اطلاعات مورد نیاز شامل موارد زیر است:

  • تاریخ شروع تماس
  • تاریخ پایان تماس
  • شماره تماس‌گیرنده
  • شماره مقصد تماس (شماره‌گیرنده)

پس از وارد کردن اطلاعات، کاربر روی دکمه‌ی “ثبت” کلیک می‌کند تا فرآیند آغاز شود.

نمونه‌ای از فرم طراحی‌شده:
به این صورت:

مقادیر رو وارد میکنیم و به ادامه ی ماجرا میپردازیم.

مرحله ۳: ارسال درخواست به API گزارش تماس در سیموتل

پس از دریافت اطلاعات از فرم، باید از طریق نود HTTP Request به آدرس cdr/search در سیستم سیموتل درخواست بفرستیم تا تماس‌های مربوط به بازه‌ی زمانی مشخص شده و شماره‌های ورودی بازیابی شوند.

در تنظیمات این نود، در قسمت Header باید اطلاعات احراز هویت (توکن) را وارد کنید و در قسمت Body پارامترهای دریافتی از فرم را با استفاده از قابلیت Drag & Drop در محل مناسب قرار دهید.

این مرحله به ما لیستی از تماس‌هایی را می‌دهد که با شرایط ورودی مطابقت دارند.

در اینجا نیاز است که قسمت from و to و date range را از فرم قبلی درگ اند دراپ کنید و در آنجا قرار بدهید تا به صورت داینامیک از فرم دریافت شود.

مرحله ۴: دانلود فایل صوتی تماس

حال که اطلاعات تماس مورد نظر را دریافت کرده‌ایم، نوبت به دریافت فایل صوتی آن تماس است. برای این کار یک نود جدید HTTP Request ایجاد می‌کنیم که به آدرس audio/download متصل می‌شود.

در این مرحله باید مقدار رکورد (record) تماس مورد نظر را از خروجی مرحله قبل استخراج کرده و در Body درخواست جدید قرار دهید.

در درخواست دوم بعد از احراز هویت در بدنه ی آن نیاز است که اینگونه باشد:

پس از اجرای این مرحله، فایل صوتی تماس در اختیار شما خواهد بود.

قسمت value باید record درخواست قبلی را درگ و دراپ کنید و در آنجا قرار بدهید.

مرحله ۵: تبدیل فایل صوتی تماس به متن با OpenAI

اکنون که فایل صوتی تماس را در اختیار داریم، از یک نود هوش مصنوعی استفاده می‌کنیم تا آن را به متن تبدیل کنیم. برای این کار، از نود OpenAI و متد Audio → Transcribe Recording استفاده کنید.

در این نود، فایل صوتی را به عنوان ورودی ارسال می‌کنید و خروجی آن یک متن از محتوای تماس خواهد بود.

حال اگر خروجی را ببینیم به همچین چیزی برخواهیم خورد:

مرحله ۶: ارسال خروجی به مقاصد دلخواه

اکنون که متن تماس را داریم، می‌توانیم آن را به یکی از مسیرهای زیر ارسال کنیم:

  • ارسال به ایمیل مدیر یا اپراتور
  • ارسال به یک کانال تلگرام (از طریق Bot API)
  • ذخیره در Google Sheet یا پایگاه داده
    و…

حالا شما یک اتوماسیون اختصاصی برای مرکز تما
س سیموتل در اختیار دارید که با دریافت مقادیر ورودی مشخص، فایل صوتی تماس‌ها را به‌صورت خودکار به متن تبدیل می‌کند.

(کیفیت فایل صوتی تماس‌ها باید مطلوب باشد. تماس‌هایی که دارای نویز، اکو یا صدای بسیار ضعیف هستند ممکن است به‌درستی به متن تبدیل نشوند..)

فایل json این پروژه برای راحتی شما: :slightly_smiling_face:

3 پسندیده