متن کاوی مقدماتی

متن کاوی مقدماتی

مهندس الناز قاسمی
معرفی مدرس

مهندس الناز قاسمی، پژوهشگر ارشد علوم داده(سرپرست پروژه های پردازش متن)
مترجم کتاب های:
جاوای کاربردی Effective JAVA
راهکارهای برنامه نویسی در قالب 150 مسئله و راه حل
مرجع کامل Linux
مرجع کامل جاوا (هربرت شیلد)

متن کاوی مقدماتی
کد دوره
Bi-tm-01
نوع دوره
مدت دوره
15 ساعت
مبلغ
۲٬۹۰۰٬۰۰۰ ؜ریال
زمان برگزاری

 شروع دوره 1خردادماه 1397

 

شرح دوره

در سال‏های اخیر شاهد رشد چشمگیر تولید داده‏های متنی هستیم؛ داده‏ هایی که هر روزه در صفحات وب، مقالات خبری، مقالات علمی، اسناد سازمانی و به‏خصوص شبکه‏ های اجتماعی منتشر می‏شوند.  داده ‏های متنی ازین جهت حائز اهمیت هستند که توسط انسان تولید و مصرف می‏شوند. بنابراین یافتن دانش پنهان در این‏گونه از اسناد و بهره ‏گیری از سیستم ‏های هوشمند، می‏توان به انسان در تصمیم ‏گیری بهتر و دقیق‏تر در همه جوانب یاری رساند. استفاده از این ابزارهای قدرتمند افراد را در تجزیه و تحلیل دادگان کمک نموده و موجب می‏شود بتوانند حجم انبوه دادگان را مهار و مدیریت کنند.

متن کاوی، بعنوان روشی در استخراج دانش ازمتون، یکی از موضوعات مهم درگستره ای از اعمال مدیریت اطلاعات است. دراین میان آنچه از اهمیت فوق العاده ای برخوردار است ارایه راه‌کارهایی برای مواجه با این حجم عظیم اطلاعاتی و استفاده بهینه از اطلاعات در جهت خلق دانش، تولید سینرجی و در نهایت افزایش خرد جمعی است

همچنین با کشف دانش پنهان در داده‏ های متنی، می‏توان ترجیحات و علایق افراد را کشف کرد که این موضوع می‏تواند در موفقیت کسب و کارها بسیار حائز اهمیت باشد.

طیف وسیعی از روش های آماری و اکتشافی برای استخراج و تجزیه و تحلیل داده های متنی در چند دهه گذشته توسعه یافته و ابزارهای تحلیلی قدرتمندی نیز در این زمینه معرفی شده اند. در این دوره به معرفی این رویکردها و ابزارها خواهیم پرداخت.

طرح درس پیشنهادی دوره متن‏ کاوی

  • مروری بر متن‏ کاوی و تحلیل‏ های مبتنی بر آن
    • چگونگی مهار کردن و مدیریت حجم انبوه دادگان متنی
    • استراتژی‏های مختلفی دست‏یابی به متون
  • مروری بر پردازش زبان طبیعی
    • پردازش زبان طبیعی چیست و شامل چه تحلیل‏هایی می‏ شود؟
      • Pos Tagging
      • تحلیل لغوی
      • تحلیل معنایی
      • ابهام
      • نمایش متن( کیسه کلمات)
      • شباهت متن
      • یافتن رابطه کلمات
    • بررسی کتابخانه هضم به ‏عنوان روشی جهت پردازش زبان فارسی
  • مدل‏های زبانی
    • Ngram
    • بررسی تشخیص زبان متن ورودی به‏کمک روش مبتنی بر ngram و کتابخانه Tika
    • مدل‏های احتمالاتی
  • Topic Modeling
    • معرفی مفهوم، روش‏ها و ابزارها
    • پیاده ‏سازی topic modeling به‏ کمک روش lda روی متون فارسی
  • خوشه‏ بندی متون
    • معرفی مفهوم، روش‏ها و ابزارها
    • بررسی کتابخانه carrot و خوشه‏بندی متون فارسی به ‏کمک آن
    • معرفی انواع روش‏های یافتن شباهت متون( cosine similarity, …)
  • دسته‏بندی متون
    • معرفی مفهوم، روش‏ها و ابزارها
  • نظرکاوی و عقیده‏ کاوی
    • معرفی مفهوم، روش‏ها و ابزارها
    • بررسی ابزار sentistrength به ‏عنوان یک نمونه از ابزارهای نظرکاوی
  • روش‏های پیش ‏بینی براساس متن

دوره های آموزشی باشگاه هوش تجاری ایران-بهتا-هوش کسب و کار-BI