Salve, ho seguito i vostri corsi su ML e DL e nel corso dello studio ho trovato diversi contenuti deprecati e da gestire in maniera differente che però purtroppo non ho segnato. Ho adesso appena iniziato a seguire questo corso e ho trovato già all'inizio, nella libreria PyPDF2, un po' di cose che sono deprecate e andrebbero aggiornate. Man mano che ne trovo, aggiorno l'issue, così magari rimane tutto più centralizzato e potete correggere più facilmente. Sono ben consapevole che nel giro di un paio d'anni possa cambiare molto riguardo alle varie librerie e che essendo questo uno dei settori in più forte espansione, questo è un fenomeno molto comune. Ecco perché penso che sia utile tenere del materiale come questo aggiornato e spero di aiutare eventualmente anche chi sta seguendo il corso e incorre nei solito problemi 😊
- Libreria
PyPDF2
- Libreria
BeautifulSoup
- Libreria
NLTK
- Dataset New York Times Articles
!kaggle datasets download aryansingh0909/nyt-articles-21m-2000-present
!unzip nyt-articles-21m-2000-present.zip
import pandas as pd
df = pd.read_csv('nyt-metadata.csv')
min_char = 100
max_char = 110
new_df = df[(df['lead_paragraph'].str.len()>min_char) & (df['lead_paragraph'].str.len()<max_char)]
new_df = new_df[:8888]
!pip install -q condacolab
import condacolab
condacolab.install()
Alla fine della quale la sessione di Colab si riavvierà da sola, andrà quindi lanciata un'altra cella per installare i pacchetti
!mamba install -y pyldavis scikit-learn gensim jinja2
Va tenuto a mente che, da ora in avanti, stiamo lavorando dentro a questo ambiente virtuale. Se vogliamo tornare ad un'istanza di Google Colaboratory esterna a conda, dovremo selezionare Runtime->Disconnetti runtime ed eliminare i dati per tornare ad un'istanza poi di Colaboratory totalmente nuova.
Salve, ho seguito i vostri corsi su ML e DL e nel corso dello studio ho trovato diversi contenuti deprecati e da gestire in maniera differente che però purtroppo non ho segnato. Ho adesso appena iniziato a seguire questo corso e ho trovato già all'inizio, nella libreria
PyPDF2, un po' di cose che sono deprecate e andrebbero aggiornate. Man mano che ne trovo, aggiorno l'issue, così magari rimane tutto più centralizzato e potete correggere più facilmente. Sono ben consapevole che nel giro di un paio d'anni possa cambiare molto riguardo alle varie librerie e che essendo questo uno dei settori in più forte espansione, questo è un fenomeno molto comune. Ecco perché penso che sia utile tenere del materiale come questo aggiornato e spero di aiutare eventualmente anche chi sta seguendo il corso e incorre nei solito problemi 😊PyPDF2PdfFileReader->PdfReadergetIsEncrypted()-> Adesso esiste il parametrois_encryptedgetPage()-> la classePdfReaderha le pagine come parametropagesche è una lista diPageObjectnumPages-> si deve controllare la lunghezza del parametropagesBeautifulSoupfindAll()->find_all()NLTKword_tokenize-> Non è più nel modellopunk, ma inpunk_tab, è quindi necessario farenltk.download("punkt_tab")per poterla usare.averaged_perceptron_tagger, maaveraged_perceptron_tagger_engtagsets, ma nel modellotagsets_jsonlead_paragraphche però contiene più di 2 milioni di record che possono andare da 1 carattere a 504073 caratteri, quindi ho limitato il dataset ai record con lead_paragraph tra 100 e 110 caratteri (per ottenere dati non troppo grandi da processare, ma comunque con un certo valore) e poi limitato il tutto ai primi 8888 record (per avere il solito numero di record del corso). Seguendo il corso, si può poi tranquillamente passare il dataframe che ho costruito alla classeCountVectorizer. Di seguito il codice:CountVectorizerget_feature_names()->get_feature_names_out()pyLDAvispyLDAvisdove poi si può tranquillamente installare qualsiasi pacchetto vogliamo al di là delle dipendenze necessarie per Colab. Per farlo, basta eseguire questa cellaAlla fine della quale la sessione di Colab si riavvierà da sola, andrà quindi lanciata un'altra cella per installare i pacchetti
Va tenuto a mente che, da ora in avanti, stiamo lavorando dentro a questo ambiente virtuale. Se vogliamo tornare ad un'istanza di Google Colaboratory esterna a conda, dovremo selezionare
Runtime->Disconnetti runtime ed eliminare i datiper tornare ad un'istanza poi di Colaboratory totalmente nuova.pyLDAvisnon ha più il modulosklearn, adesso bisogna lanciareimport pyLDAvis.lda_model