هوش مصنوعی مفاهیم به اشتراک گذاشته‌شده در ویدئو، صدا و متن را می‌آموزد!

آیا هوش مصنوعی توانایی تفسیر اطلاعات فایل‌ها با فرمت‌های متفاوت و درک اعمال و داده های مشابه بین آن‌ها را دارد؟

یک مدل یادگیری ماشینی (ماشین لرنینگ) می‌تواند اطلاعات و اعمال را در یک کلیپ ویدیویی شناسایی کرده و بدون کمک انسان به آن برچسب بزند.

محققان MIT یک تکنیک یادگیری ماشین (ماشین لرنینگ) ایجاد کردند که یاد می‌گیرد داده‌ ها را به گونه‌ای نمایش دهد که مفاهیمی را که بین روش‌های بصری و صوتی به اشتراک گذاشته می‌شوند، نشان دهد. مدل آن‌ها می‌تواند مکان عمل خاصی را در یک ویدیو شناسایی کند و آن را برچسب‌گذاری کند.

انسان‌ها دنیا را از طریق ترکیبی از روش‌های مختلف مانند بینایی، شنوایی و درک از زبان مشاهده می‌کنند. از سوی دیگر، ماشین‌ها جهان را از طریق داده‌ هایی که الگوریتم‌ها می‌توانند پردازش کنند، تفسیر می‌کنند.
بنابراین، هنگامی که یک ماشین یک عکس را می‌بیند، باید آن عکس را در داده هایی که می‌تواند برای انجام وظیفه‌ای مانند طبقه‌بندی تصویر استفاده کند، رمزگذاری کند. این فرآیند زمانی پیچیده‌تر می‌شود که ورودی‌ها در قالب‌های مختلف مانند فیلم‌ها، کلیپ‌های صوتی و تصاویر ارائه شوند.

هوش مصنوعی در مسیر درک داده و اطلاعات انواع فایل‌ها، مانند انسان‌ها!

الکساندر لیو، دانشجوی فارغ التحصیل در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و اولین نویسنده مقاله‌ایست که به این مشکل پرداخته‌است.
او می گوید: «چالش اصلی در اینجا این است که چگونه یک ماشین می‌تواند آن روش و حالات مختلف را هماهنگ کند؟ به عنوان انسان، این برای ما آسان است. ما یک ماشین را می‌بینیم و سپس صدای ماشینی را می‌شنویم که از کنار آن می‌گذرد و می‌دانیم که این‌ها یکسان هستند اما برای یادگیری ماشین، این کار چندان ساده نیست.

لیو و همکارانش تکنیک هوش مصنوعی را توسعه دادند که یاد می‌گیرد داده‌ ها را به گونه‌ای نمایش دهد که مفاهیمی را که بین روش‌های بصری و صوتی به اشتراک گذاشته می‌شوند، نشان دهد.
به عنوان مثال، روش آنها می‌تواند یاد بگیرد که عمل گریه نوزاد در یک ویدیو با کلمه گفتاری “گریه” در یک کلیپ صوتی مرتبط است.
با استفاده از این دانش، مدل یادگیری ماشینی آن‌ها می‌تواند تشخیص دهد که یک عمل خاص چه زمانی در ویدیو انجام می‌شود و آن را برچسب‌گذاری کند.

این تکنیک روزی می تواند برای کمک به ربات ها در یادگیری مفاهیم و اطلاعات موجود در جهان، و بیشتر شبیه به شیوه انسان‌ها، یعنی از طریق ادراک، مورد استفاده قرار گیرد.

بازنمایی های یادگیری

محققان کار خود را بر روی یادگیری بازنمایی متمرکز می‌کنند، که نوعی یادگیری ماشینی است که به دنبال تغییر داده‌های ورودی است تا انجام کاری مانند طبقه‌بندی یا پیش‌بینی را آسان‌تر کند.

مدل یادگیری بازنمایی، داده‌ های خام، مانند ویدیوها و زیرنویس‌های متنی مربوط به آن‌ها را می‌گیرد و با استخراج ویژگی‌ها یا مشاهدات در مورد اشیا و اقدامات در ویدیو، آنها را رمزگذاری می‌کند. سپس آن نقاط داده را در یک شبکه، که به عنوان فضای جاسازی (فضای توسعه) شناخته می‌شود، نگاشت می‌کند. مدل داده‌های مشابه را به عنوان نقاط منفرد در شبکه با هم خوشه‌بندی می‌کند. هر یک از این نقاط داده یا بردارها با یک کلمه جداگانه نشان داده می‌شوند.

به عنوان مثال، یک کلیپ ویدیویی از یک شخص که در حال شعبده بازی است، ممکن است به بردار با عنوان “شعبده‌بازی” نگاشت شود.
محققان این مدل را محدود می کنند تا فقط از ۱۰۰۰ کلمه برای برچسب‌گذاری بردارها استفاده کند. مدل می‌تواند تصمیم بگیرد که کدام اقدامات یا داده و اطلاعات را می‌خواهد در یک بردار رمزگذاری کند، اما فقط می‌تواند از ۱۰۰۰ بردار استفاده کند. مدل کلماتی را انتخاب می کند که فکر می کند به بهترین شکل نشان دهنده داده‌ ها و اطلاعات هستند.

روش آنها به جای رمزگذاری داده‌ ها از روش‌های مختلف در شبکه‌های جداگانه، از یک فضای جاسازی مشترک استفاده می‌کند که در آن دو مدالیته و روش می‌توانند با هم کدگذاری شوند. این مدل را قادر می‌سازد تا رابطه بین بازنمایی‌ها را از دو حالت بیاموزد، مانند ویدیویی که یک شخص را در حال شعبده بازی نشان می‌دهد و صدای ضبط شده‌ای از فردی که می‌گوید «شعبده‌بازی».
برای کمک به پردازش داده‌ ها از چندین روش، آنها الگوریتمی طراحی کردند که ماشین را راهنمایی می‌کند تا مفاهیم و اطلاعات مشابه را در یک بردار رمزگذاری کند.

لیو توضیح می‌دهد:(( اگر ویدیویی درباره خوک‌ها وجود دارد، مدل ممکن است کلمه «خوک» را به یکی از ۱۰۰۰ بردار اختصاص دهد. سپس اگر مدل در یک کلیپ صوتی از فردی بشنود که کلمه «خوک» را به کار می‌برد، همچنان باید از همان بردار برای رمزگذاری آن استفاده کند.))

هوش مصنوعی در مسیر درک داده و اطلاعات انواع فایل‌ها، مانند انسان‌ها!

یک بازیابی بهتر

آنها مدل را بر روی وظایف بازیابی متقابل با استفاده از سه مجموعه داده آزمایش کردند: یک مجموعه داده متنی-ویدیویی با کلیپ های ویدیویی و زیرنویس متنی، یک مجموعه داده ویدیویی-صوتی با کلیپ‌های ویدیویی و زیرنویس صوتی گفتاری، و یک مجموعه داده تصویری-صوتی با تصاویر و صدای گفتاری زیرنویس‌ها.

به عنوان مثال، در مجموعه داده های ویدئویی-صوتی، مدل ۱۰۰۰ کلمه را برای نمایش اعمال در ویدئوها انتخاب کرد. سپس، هنگامی که محققان به آن پرسش‌های صوتی دادند، مدل سعی کرد کلیپی را پیدا کند که بهترین تطابق را با آن کلمات گفتاری داشته باشد.
لیو می‌گوید:(( درست مانند جستجوی گوگل، شما متنی را تایپ می‌کنید و دستگاه سعی می‌کند مرتبط‌ترین چیزهایی را که جستجو می‌کنید به شما بگوید. فقط ما این کار را در فضای برداری انجام می‌دهیم.))

نه تنها با استفاده از تکنیک آن‌ها احتمال درست یافتن اطلاعات بیشتر از مدل‌هایی بود که با آن مقایسه کردند، بلکه درک آن نیز آسان‌تر بود.
از آن‌جایی که این مدل تنها می‌توانست از ۱۰۰۰ کلمه برای برچسب‌گذاری بردارها استفاده کند، کاربر می‌تواند راحت‌تر ببیند که دستگاه از کدام کلمات استفاده کرده تا نتیجه بگیرد که ویدیو و کلمات گفته شده مشابه هستند. لیو می‌گوید که:(( این می‌تواند کاربرد این مدل را در موقعیت‌های واقعی آسان‌تر کند، جایی که درک کاربران از نحوه تصمیم‌گیری، ضروری است.))

این مدل هنوز دارای محدودیت‌هایی است که امیدوارند در کارهای آینده به آن‌ها رسیدگی شود.
لیو به عنوان مثال به این موضوع اشاره کرد که تحقیقات آنها بر روی داده‌های دو روش و حالت در یک زمان متمرکز بود، اما در دنیای واقعی انسان‌ها به طور همزمان با بسیاری از روش‌ و حالات متفاوتِ داده مواجه می‌شوند.
او می افزاید:(( و ما می‌دانیم که ۱۰۰۰ کلمه روی “این نوع مجموعه داده ” کار می‌کند، اما نمی‌دانیم که آیا می‌توان آن را به “دنیای واقعی” تعمیم داد یا نه.))
به‌علاوه، تصاویر و ویدئوها در مجموعه داده‌هایشان حاوی اشیاء ساده یا اقدامات ساده بودند. اما داده و اطلاعات دنیای واقعی بسیار آشفته‌تر هستند. آن‌ها هم‌چنین می‌خواهند تعیین کنند که در صورت وجود تنوع گسترده‌تری از ورودی‌ها، روش آن‌ها چقدر افزایش می‌یابد.

تاثیر و رشد شگفت‌انگیزی که در سال‌های اخیر از هوش مصنوعی در پردازش، تفسیر و ارائه اطلاعات شاهد بودیم بر هیچ‌کس پوشیده نیست. و حالا در جایگاهی ایستاده‌ایم که افراد و کمپانی‌های بزرگی به هوش مصنوعی اعتماد کرده‌اند و وظایف متفاوت و متنوعی را به هوش مصنوعی سپرده‌اند. از جمله پرطرفدارترین این شاخه‌ها چت‌بات ها و استفاده از آن‌ها در بخش پشتیبانی مشتری و مخاطبان و پاسخگویی هوشمند و خودکار به آن‌هاست.

کمپانی‌های بزرگ و کوچک حالا برای افزایش سرعت و دقت روند پاسخ‌گویی و راهنمایی به مشتریان خود، کاهش هزینه‌ها، افزایش بهره‌وری و تمرکز نیروی پشتیبانی انسانی برای امور حیاتی‌تر و پشتیبانی ۲۴/۷، چت‌بات ها را به عنوان دستیار هوشمند خود انتخاب کرده‌اند.

برای بررسی و آشنایی بیشتر با این دستیارهای هوشمند کسب و کارتان کلیک کنید.

منبع مقاله: وب‌سایت MIT News