Schița de curs

Schemă detaliată a antrenamentului

  1. Introducere în NLP
    • Comprezând NLP
    • Cadre de lucru pentru NLP
    • Aplicații comerciale ale NLP
    • Scrapare a datelor de pe internet
    • Munca cu diverse API-uri pentru recuperarea datelor textuale
    • Munca și stocarea corporilor de texte, salvând conținutul și metadatele relevante
    • Vantajele utilizării cursului rapid Python și NLTK
  2. Comprezând practic un corpus și un set de date
    • Poate pentru ce avem nevoie de un corpus?
    • Analiza corporului
    • Tipuri de atribute de date
    • Diferite formate de fișiere pentru corpora
    • Pregătirea unui set de date pentru aplicații NLP
  3. Comprezând structura unor propoziții
    • Componentele NLP
    • Comprezând limbajul natural
    • Analiza morfologică - rădăcină, cuvânt, token, etichete de vorbire
    • Analiza sintactică
    • Analiza semantică
    • Gestionarea ambiguității
  4. Preprocesarea datelor textuale
    • Corpus - text brut
      • Tokeinizarea propozițiilor
      • Stemming pentru text brut
      • Lemmization a textului brut
      • Eliminarea cuvintelor stop
    • Corpus- propoziții brute
      • Word tokenizare
      • Word lemmatizare
    • Munca cu matrice Term-Documents/Document-Term
    • Tokeinizarea textului în n-gramuri și propoziții
    • Preprocesarea practică și personalizată
  5. Analiza datelor textuale
    • Caracteristici de bază ale NLP
      • Parsers și parsing
      • Etichetare POS și taggers
      • Recunoașterea entităților nominaționale
      • N-gramuri
      • Cosul cu cuvinte
    • Caracteristici statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilistică pentru NLP
      • TF-IDF
      • Vectorezare
      • Encoders și Decoders
      • Normalizare
      • Modele probabilistice
    • Ingineria caracteristicilor avansate și NLP
      • Bazice ale word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului de word2vec
      • Apliția modelului word2vec
    • Cazuri studiu: Aplicație a cosului cu cuvinte: sumarizarea automată a textelor folosind algoritmul simplificat și cel real al lui Luhn
  6. Clusterezare, Clasificare și Modelare Tematică a Documentelor
    • Clusterezare a documentelor și miniere de modele (clusterezare ierarhică, k-means, clusterezare, etc.)
    • Compararea și clasificarea documentelor folosind TFIDF, măsurile Jaccard și cosinus
    • Clasificarea documentelor folosind Naïve Bayes și Maximum Entropy
  7. Identificarea Textului Importanț Elements
    • Reducerea dimensiunii: Analiza Principala de Componente, Descompunere Singulară Valoare ne-negativă a matricei
    • Modelarea tematică și recuperarea informațiilor folosind Analiza Semantica Latentă
  8. Extragerea Entităților, Sentiment Analysis și Modelare Tematică Avansată
    • Pozitiv vs. negativ: gradul de sentiment
    • Theoriea Răspunsurilor la Elemente
    • Etichetarea partii de vorbire și aplicațiile sale: găsirea persoanelor, locaților și organizațiilor menționate în text
    • Modelare tematică avansată: Allocația Dirichlet Latentă
  9. Cazuri studiu
    • Mining al comentariilor utilizatorului nestructurate
    • Clasificarea sentimentelor și vizualizarea datelor de recenzii ale produselor
    • Mining al jurnalurilor de căutare pentru modele de utilizare
    • Clasificarea textului
    • Modelare tematică

Cerințe

Cunoașterea și conștientizarea principiilor NLP și aprecierea aplicării IA în afaceri

 21 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Upcoming Courses

Categorii înrudite