Schița de curs

Program detaliat al cursului

  1. Introducere în NLP
    • Înțelegerea NLP
    • Cadre de lucru NLP
    • Aplicații comerciale ale NLP
    • Extragerea de date de pe web
    • Lucrul cu diverse API-uri pentru a prelua date text
    • Lucrul și stocarea corpusurilor de text, salvarea conținutului și a metadatelor relevante
    • Avantajele utilizării Python și un curs rapid de NLTK
  2. Înțelegerea practică a unui corpus și a unui set de date
    • De ce avem nevoie de un corpus?
    • Analiza corpusului
    • Tipuri de atribute ale datelor
    • Diferite formate de fișiere pentru corpusuri
    • Pregătirea unui set de date pentru aplicații NLP
  3. Înțelegerea structurii unei propoziții
    • Componente ale NLP
    • Înțelegerea limbajului natural
    • Analiză morfologică - rădăcină, cuvânt, token, etichete de vorbire
    • Analiză sintactică
    • Analiză semantică
    • Gestionarea ambiguității
  4. Prelucrarea preliminară a datelor text
    • Corpus - text brut
      • Tokenizarea propozițiilor
      • Stemming pentru text brut
      • Lemmatizarea textului brut
      • Eliminarea cuvintelor de oprire
    • Corpus - propoziții brute
      • Tokenizarea cuvintelor
      • Lemmatizarea cuvintelor
    • Lucrul cu matrice Termen-Document/Document-Termen
    • Tokenizarea textului în n-grams și propoziții
    • Prelucrare preliminară practică și personalizată
  5. Analiza datelor text
    • Caracteristici de bază ale NLP
      • Parsere și parsare
      • Etichetare POS și etichetori
      • Recunoașterea entităților numite
      • N-grams
      • Sac de cuvinte
    • Caracteristici statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilităților pentru NLP
      • TF-IDF
      • Vectorizare
      • Codificatori și decodificatori
      • Normalizare
      • Modele probabilistice
    • Inginerie avansată a caracteristicilor și NLP
      • Bazele word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului word2vec
      • Aplicarea modelului word2vec
    • Studiu de caz: Aplicarea sacului de cuvinte: rezumarea automată a textului folosind algoritmii simplificați și adevărați ai lui Luhn
  6. Clustering, clasificare și modelare de subiecte a documentelor
    • Clustering și extragerea de modele din documente (clustering ierarhic, k-means, clustering, etc.)
    • Compararea și clasificarea documentelor folosind măsuri de distanță TFIDF, Jaccard și cosinus
    • Clasificarea documentelor folosind Naïve Bayes și Entropia Maximă
  7. Identificarea elementelor textuale importante
    • Reducerea dimensionalității: Analiza Componentelor Principale, Descompunerea Singulară a Valorilor, factorizarea matricială nenegativă
    • Modelare de subiecte și recuperare a informațiilor folosind Analiza Semantică Latentă
  8. Extragerea de entități, analiza sentimentelor și modelarea avansată de subiecte
    • Pozitiv vs. negativ: gradul de sentiment
    • Teoria răspunsului la item
    • Etichetarea părților de vorbire și aplicarea sa: găsirea persoanelor, locurilor și organizațiilor menționate în text
    • Modelare avansată de subiecte: Alocarea Latentă Dirichlet
  9. Studii de caz
    • Extragerea de recenzii nestructurate de la utilizatori
    • Clasificarea sentimentelor și vizualizarea datelor de recenzii ale produselor
    • Extragerea modelelor de utilizare din jurnalele de căutare
    • Clasificarea textului
    • Modelarea subiectelor

Cerințe

Cunoștințe și conștientizare a principiilor NLP și o înțelegere a aplicării AI în afaceri

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite