AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca e l'istruzione digitale Aiuto Consulting Group Stat dando un regalo Stata FAQ Come posso ricodificare i valori mancanti in diverse categorie Stata ci permette di codificare diversi tipi di valori mancanti numerici. Dispone di 27 categorie mancanti numerici. quot. a quot al quot. Z quot quot e. quot. In questa pagina vi mostriamo come codificare i valori mancanti in diverse categorie. Per prima cosa creare un set di dati a scopo di illustrazione. In questo set di dati, tutte le variabili sono numerica e le variabili femminile e SES hanno valori mancanti. I valori non mancanti per le femmine variabile è 0 (per i maschi) e 1 (per le femmine). I valori non mancanti per ses variabile è 0 (basso), 1 (MED) e 2 (alto). Il resto dei valori sono considerate come valori mancanti. Diciamo che vogliamo codificare -999 in una categoria, -99 in un altro e il resto dei valori mancanti in una terza categoria per tutte le variabili. Metodo 1: Usare il comando sostituire possiamo sostituire manualmente i valori mancanti con quot. a quot per -999, quot. B quot per -99 e. c per il resto dei valori mancanti. Ad esempio, per la femmina variabile. siamo in grado di effettuare le seguenti operazioni: Il comando cifrario sopra mostra che femminile variabile ha tre tipi di valori mancanti e 4 valori mancanti. Metodo 2: Usare il comando mvdecode Metodo 1 non può essere il modo migliore per ricodificare valori mancanti in diverse categorie. Per prima cosa, dobbiamo farlo una variabile alla volta. comando mvdecode Statas, è particolarmente utile per noi. Meglio ancora, si può usare la parola chiave tutta per riferirsi a tutte le variabili nel set di dati. Andando da codici di valori mancanti per valori numerici L'altra questione che ci occuperemo qui è come cambiare i codici di valore mancante torna a valori numerici. Il mvencode comando è accoppiato con mvdecode comando che abbiamo appena coperto sopra ed è quello di usare qui. Il contenuto di questo sito web non deve essere interpretata come un'approvazione di un particolare sito web, il libro, o di un prodotto software dall'Università di California.2. Gestione dei dati In questa sezione vengono descritti i file di dati Stata, discutere su come leggere i dati grezzi in Stata in libera e formati fissi, come creare nuove variabili, come documentare un insieme di dati etichettatura delle variabili ed i loro valori, e come gestire i file di sistema Stata . Stata 11 ha introdotto un gestore di variabili che consente la modifica delle variabili nomi, etichette, tipi, formati e note, così come etichette dei valori, utilizzando un'interfaccia utente grafica intuitiva disponibile in D ata ariables V Manager nel sistema di menu. Mentre il manager è sicuramente conveniente, preferiamo ancora scrivendo tutti i comandi in un file fare per garantire la riproducibilità di ricerca. Una caratteristica del gestore, tuttavia, è che genera i comandi Stata necessarie per realizzare le modifiche, in modo che possa essere utilizzato come strumento di apprendimento e, finché si accede alla sessione, lascia un record dietro. 2.1 set di dati Stata file Stata sono array rettangolari con n osservazioni sulle variabili m. A differenza di pacchetti che leggono una osservazione alla volta, Stata mantiene tutti i dati in memoria, che è uno dei motivi per cui è così veloce. C'è un limite di 2.047 variabili in StataIC, 32.767 in StataSE. Si può avere il maggior numero di osservazioni come la memoria dei computer vi permetterà, a condizione che non andate troppo lontano superiore a 2 miliardi di casi. (Per trovare questi limiti tipo limiti di aiuto.) 2.1.1 Nomi di variabili I nomi delle variabili possono avere fino a 32 caratteri, ma molti comandi di stampa solo il 12, e nomi più brevi sono più facili da digitare. I nomi Stata sono case sensitive. L'età e l'età sono diverse variabili vale la pena di sviluppare una convenzione per la denominazione delle variabili e attenersi ad esso. Io preferisco i nomi minuscoli brevi e tendo ad usare singole parole o abbreviazioni, piuttosto che nomi composti da più parole, per esempio preferisco sforzo o FPE per familyplanningeffort o familyPlanningEffort, anche se tutti e quattro i nomi sono legali. Si noti l'uso di sottolineatura o carcassa di cammello per separare le parole. 2.1.2 variabili Tipi di variabili possono contenere numeri o stringhe. Le variabili numeriche possono essere memorizzati come numeri interi (byte, interi, o long) o in virgola mobile (float o doppio). Questi tipi si differenziano per la gamma o la precisione dei valori che può contenere, digitare help tipo di dati per i dettagli. Di solito non avete bisogno di essere preoccupato per la modalità di archiviazione Stata fa tutti i calcoli utilizzando doppie, e il comando impacco troverete il modo più economico per memorizzare ogni variabile nel set di dati, tipo di aiuto impacco per saperne di più. Dovete stare attenti con i confronti logici che coinvolgono i tipi in virgola mobile. Se si memorizza 0.1 in un galleggiante chiamato x si può essere sorpresi di apprendere che x 0.1 non è mai vero. La ragione è che 0,1 viene arrotondato a differenti numeri binari e conservato come un galleggiante (x) o doppia (la costante 0,1). Questo problema non si verifica con i numeri interi o stringhe. Le variabili stringa possono avere lunghezza variabile fino a 244 caratteri in Stata 12, o fino a due miliardi di caratteri in Stata 13, dove è possibile utilizzare str1. str2045 per definire stringhe di lunghezza fissa di un massimo di 2045 caratteri, e strl per definire una lunga serie, adatto per la memorizzazione di testo normale o anche grandi oggetti binari come le immagini oi documenti di elaborazione testi, il tipo di aiuto stringhe di saperne di più. Le stringhe sono ideali per le variabili id perché possono essere confrontati senza problemi. A volte potrebbe essere necessario per la conversione tra variabili numeriche e stringa. Se una variabile è stata letta come una stringa, ma in realtà contiene i numeri che si vuole utilizzare il comando destring o la funzione reale (). In caso contrario, è possibile utilizzare la codifica per convertire i dati di stringa in una variabile numerica o decodificare per convertire variabili numeriche in stringhe. Questi comandi si basano su etichette di valori, che sono descritte di seguito. 2.1.3 Valori mancanti Come altri pacchetti statistici, Stata distingue valori mancanti. Il valore mancante base per le variabili numeriche è rappresentato da un punto. A partire dalla versione 8 ci sono 26 ulteriori codici a valore mancante indicati con. a a. Z. Questi valori sono rappresentati internamente come numeri molto grandi, così validnumbers lt. lt. a lt. lt. Z. Per verificare la presenza mancante è necessario scrivere var gt. (Non var.). Stata ha una funzione che può fare questo confronto, mancante (varname) e lo consiglio perché porta a codice più leggibile, ad esempio Io preferisco lista id se mancante (età) alla lista id se l'età gt. valori mancanti per variabili stringa sono indicati con la stringa vuota non deve essere confuso con una stringa che rappresenta tutti gli spazi, come ad esempio. i dati delle indagini demografiche spesso usano codici quali 88 per non applicabile e 99 per non aver accertato. Per esempio l'età del matrimonio può essere codificato 88 per le donne sole e 99 per le donne che sono noti per essere sposati, ma non riportavano la loro età al momento del matrimonio. Spesso Si vuole distinguere questi due casi utilizzando diversi tipi di codici valoriali mancanti. Se si voleva ricodificare 88s a. n (per na o notApplicable) e 99s a. m (mancanti) è possibile utilizzare il codice di volte che si desidera catalogare una variabile compreso valori mancanti ma esclusi i casi non applicabile. Se si farà questo, spesso si può scegliere di lasciare 99 come codice regolare e definire solo 88 come mancanti. Basta essere attenti se si esegue quindi una regressione navi Stata con una serie di piccoli insiemi di dati, tipo sysuse dir per ottenere una lista. È possibile utilizzare qualsiasi di questi digitando sysuse nome. Il sito Stata è anche un repository per i set di dati utilizzati nei manuali Stata e in un certo numero di libri statistici. 2.2 I dati di lettura Into Stata In questa sezione discutiamo come leggere i file di dati grezzi. Se i dati provengono da un altro pacchetto statistico, come SAS o SPSS, considerare l'utilizzo di uno strumento come StatTransfer (stattransfer) o DBMSCopy (DataFlux). Stata in grado di leggere i file di trasporto SAS con il comando fdause (così chiamato perché questo è il formato richiesto dalla Food and Drug Administration), il tipo di aiuto fdause. Stata può anche importare ed esportare fogli di calcolo Excel, il tipo di aiuto importazione eccellere per saperne di più, e in grado di leggere i dati da database relazionali, digitare help ODBC per una introduzione. 2.2.1 Formato libero Se i dati sono in formato libero, con le variabili separate da spazi, virgole o schede, è possibile utilizzare il comando inf ile. Per un esempio di un file di formato libero vedere la pianificazione familiare dati sullo sforzo sul web a data. princeton. eduwws509datasets (leggere la descrizione e cliccare su effort. raw). Questo è essenzialmente un file di testo con quattro colonne, una con i nomi dei paesi e tre con variabili numeriche, separati da uno spazio bianco. Siamo in grado di leggere i dati in Stata utilizzando il comando Il comando inf ile è seguito da i nomi delle variabili. Perché il nome del paese è una stringa piuttosto che una variabile numerica che precedere il nome con str14. che imposta il tipo di variabile come stringa di massimo 14 caratteri. Tutte le altre variabili sono numeriche, che è il tipo predefinito. La parola chiave using è seguito dal nome del file, che può essere un file sul computer, una rete locale o Internet. In questo esempio stiamo leggendo il file direttamente da internet. E questo è tutto ciò che devi fare. Per ulteriori informazioni su questo tipo di comando help infile1. Per vedere quello che abbiamo ottenuto che possiamo elencare un paio di pacchetti di casi fogli di calcolo come Excel spesso esportare dati separati da tabulazioni o virgole con un'osservazione per riga. A volte la prima riga ha i nomi delle variabili. Se i dati sono in questo formato si può leggere usando il comando insheet. Questo comando è un po 'più semplice di infile. ma purtroppo non lavorare con i valori vuoti separati. Digitare aiuto insheet per saperne di più. 2.2.2 I dati dell'indagine formato fisso spesso sono disponibili in formato fisso, con uno o più record per caso e ogni variabile in una posizione fissa in ogni record. Il modo più semplice per leggere i dati a formato fisso sta usando il comando infisso per specificare le colonne in cui si trova ogni variabile. Come spesso accade, i dati sullo sforzo sono ben allineati in colonne, così abbiamo potuto leggere come segue: Questo dice di leggere il nome del paese da colonne 4-17, impostazione da colonne 23-24, e così via. È, naturalmente, essenziale per leggere le colonne corrette. Abbiamo specificato quel paese era una variabile stringa, ma non ha ancora necessario specificare la larghezza, che era chiaro dal fatto che i dati sono in colonne 4-17. L'opzione chiara viene utilizzata per sovrascrivere il set di dati esistente in memoria. Se si dispone di un gran numero di variabili da considerare digitando i nomi e le posizioni in un file separato, chiamato y dictionar, che è quindi possibile chiamare dal comando infisso. Provare a digitare il dizionario segue in un file chiamato effort. dct: Dizionari accettano solo commenti e questi devono apparire dopo la prima linea. Dopo aver salvato questo file è possibile leggere i dati utilizzando il comando noti che è ora di utilizzare il dizionario, che a sua volta utilizza il file di dati. Invece di specificare il nome del file di dati nel dizionario è possibile specificare come opzione al comando infisso, utilizzando il modulo utilizzando infisso dictionaryfile. usando (file di dati). Il primo utilizzo specifica il dizionario e la seconda usando è un'opzione che specifica il file di dati. Ciò è particolarmente utile se si desidera utilizzare uno dizionario per leggere diversi file di dati memorizzati nello stesso formato. Se le vostre osservazioni si estendono più record o linee si può ancora leggere usando infisso finché tutte le osservazioni hanno lo stesso numero di record (non necessariamente tutti della stessa larghezza). Per ulteriori informazioni consultare la Guida infisso. Il comando infile può essere utilizzato anche con i dati in formato fisso e un dizionario. Questo è un comando molto potente che ti dà una serie di opzioni non disponibili con infisso per esempio, consente di definire le etichette delle variabili nel dizionario, ma la sintassi è un po 'più complicato. Vedere aiuto infile2. Nella maggior parte dei casi troverete che è possibile leggere i dati senza formato utilizzando i dati infile e in formato fisso utilizzando infisso. Per ulteriori informazioni sui compromessi vedi aiuto infiling. I dati possono anche essere digitati direttamente nella Stata utilizzando il comando di ingresso, vedere la Guida di ingresso. o utilizzando il built-in editor di Stata dati disponibili tramite editor di D ataData sul sistema di menu. 2.3 La documentazione dei dati Dopo aver letto i dati in Stata è importante preparare alcuni documenti. In questa sezione vedremo come creare set di dati, variabili, e le etichette di valore, e come creare note per i dati o variabili. 2.3.1 Etichetta dati e Note Stata permette di etichettare i set di dati utilizzando i dati dell'etichetta comando seguito da una etichetta di un massimo di 80 caratteri (244 in Stata SE). È inoltre possibile aggiungere note fino a 64K caratteri ciascuna utilizzando le note comando seguito da due punti e poi il testo: gli utenti dei dati possono digitare le note di vedere la vostra annotazione. Documentare i dati con attenzione paga sempre. 2.3.2 Le etichette variabili e Note È possibile (e dovrebbero) etichettare le variabili utilizzando il comando variabile dell'etichetta seguito dal nome della variabile e un'etichetta di un massimo di 80 caratteri racchiuso tra virgolette. Con il comando infile è possibile aggiungere queste etichette al dizionario, che è una sede naturale per loro. In caso contrario, si dovrebbe preparare un file fare con tutte le etichette. Ecco come definire le etichette per le tre variabili nel nostro insieme di dati: Stata consente inoltre di aggiungere note a specifiche variabili utilizzando il nomevar note comando. testo . Si noti che il comando è seguito da un nome di variabile e quindi due punti: Tipo di descrivere e poi note di controllare il nostro lavoro finora. 2.3.3 Etichette dei valori È anche possibile etichettare i valori delle variabili categoriali. Il nostro set di dati doesnt ha nessun variabili categoriali ma permette di creare uno. Faremo una copia della variabile famiglia sforzo di pianificazione e poi di gruppo in tre categorie, 0-4, 5-15 e 15, che rappresentano i programmi deboli, moderati e forti (il generare e ricodificare utilizzato nelle prime due righe sono descritti nella sezione successiva, in cui si mostra anche come eseguire tutti questi passaggi con un solo comando): Stata ha un approccio in due fasi per le etichette che definiscono. In primo luogo si definisce un set di etichette di nome che associa i codici interi con etichette fino a 80 caratteri (244 in Stata SE), utilizzando l'etichetta comando Define. Poi si associa la serie di etichette con una variabile, utilizzando il comando valori delle etichette. Spesso si utilizza lo stesso nome per il set di etichette e la variabile, come abbiamo fatto nel nostro esempio. Un vantaggio di questo approccio è che è possibile utilizzare lo stesso set di etichette per diverse variabili. L'esempio canonico è l'etichetta definire yesno 1 Sì 0 No. che possono poi essere associati a tutti i 0-1 variabili nel set di dati, utilizzando un comando dei valori delle etichette forma nomeVariabile yesno per ciascuno di essi. Quando si definiscono le etichette è possibile omettere le virgolette se l'etichetta è una sola parola, ma preferisco usarli sempre per chiarezza. set di etichette possono essere modificati utilizzando le opzioni di aggiungere o modificare. elencato usando dir etichetta (elenca solo i nomi) o lista etichetta (liste i nomi e le etichette), e salvato in un file fare con l'etichetta salvare. Tipo di aiuto etichetta per saperne di più su queste opzioni e comandi. È anche possibile avere etichette in lingue diverse come spiegato di seguito. 2.3.4 Le etichette multilingue (Questa sottosezione può essere saltato senza perdita di continuità.) Un file Stata in grado di memorizzare le etichette in diverse lingue e si può muoversi liberamente da un set all'altro. Una limitazione del supporto multi-lingua nella versione 13 e precedenti è che le etichette erano limitate a caratteri ASCII 7-bit, quindi si poteva includono le lettere con segni diacritici, come accenti. Questa limitazione è stata rimossa con l'introduzione del supporto Unicode in Stata 14, in modo da poter usare segni diacritici e altri caratteri non ASCII, non solo in etichetta, ma in tutto Stata. Bene illustrare l'idea per la creazione di etichette spagnole per il nostro set di dati. Seguendo le raccomandazioni Stata useremo i codici ISO standard di due lettere della lingua, en per l'inglese e per lo spagnolo es. In primo luogo usiamo il linguaggio etichetta per rinominare la lingua corrente di it. e di creare un nuovo linguaggio set es: Se si digita disc ora si scopre che le nostre variabili non hanno etichette Avremmo potuto copiati quelle inglesi utilizzando l'opzione Copia. ma che ci andrei salvare qualsiasi lavoro in questo caso. Qui ci sono versioni spagnole dei dati e delle etichette delle variabili: Queste definizioni non sovrascrivono le corrispondenti etichette inglesi, ma coesistono con loro in un universo parallelo spagnola. Con etichette di valore bisogna essere un po 'più attento, ma non puoi semplicemente ridefinire il set etichetta chiamata effortg perché è solo l'associazione tra una variabile e una serie di etichette, non le etichette stesse, che vengono memorizzati in un set lingua. Quello che dovete fare è definire un nuovo set di etichette, welll chiami effortges. combinando il nome vecchio e il nuovo codice della lingua, e poi associarlo al effortg variabili: Si consiglia di provare il comando di descrivere ora. Prova sforzo tabulazione: Avanti cambiamo la lingua di nuovo all'inglese ed eseguire nuovamente il tavolo: per ulteriori informazioni di aiuto labellanguage. 2.4 creazione di nuove variabili comandi Il più importante Stata per la creazione di nuove variabili sono generatereplace e ricodifica. e sono spesso utilizzati insieme. 2.4.1 Genera e sostituire il comando gen rano crea una nuova variabile utilizzando un'espressione che può combinare costanti, variabili, funzioni e operatori aritmetici e logici. Consente di iniziare con un semplice esempio: ecco come creare l'impostazione Squared: Se avete intenzione di usare questo termine in una regressione a sapere che i termini lineari e quadratici sono altamente correlati. Può essere una buona idea per centrare la variabile (sottraendo la media) prima squadratura esso. Qui si corre sintetizzare usando tranquillamente per eliminare l'output e recuperare la media dal risultato r memorizzato (media): Si noti che ho usato un nome diverso per questa variabile. Stata non ti consente di sovrascrivere una variabile esistente utilizzando generano. Se davvero intenzione di sostituire i valori del vecchio uso variabile di sostituzione, invece. È inoltre possibile utilizzare goccia a goccia varnames una o più variabili dal dataset. 2.4.2 Gli operatori ed espressioni La seguente tabella mostra l'aritmetica standard operatori logici e relazionali si possono utilizzare nelle espressioni: gt maggiore o uguale Ecco come creare una variabile indicatore per i paesi con programmi di alta sforzo: Questo è un idioma comune Stata , approfittando del fatto che le espressioni logiche assumono il valore 1 se vero e 0 se falso. Un'alternativa comune è quello di scrivere i due strategie producono esattamente la stessa risposta. Entrambi saranno sbagliato se ci sono valori mancanti, che saranno codificati in alto sforzo, perché mancanti codici valoriali sono molto grandi valori, come indicato nella Sezione 2.1. Si dovrebbe sviluppare una buona abitudine di evitare il confronto a tempo indeterminato. Il mio approccio preferito è quello di utilizzare quale dà il vero per lo sforzo superiore a 14, false per lo sforzo minore o uguale a 14, e mancanti quando lo sforzo è mancante. espressioni logiche possono essere combinati con amplificatore e che per o. Ecco come creare una variabile indicatore per lo sforzo tra il 5 e il 14: Qui noi non hanno bisogno di preoccuparsi di valori mancanti, sono esclusi dallo sforzo clausola lt 14. 2.4.3 Funzioni Stata ha un gran numero di funzioni, qui sono alcuni funzioni matematiche di uso frequente, tipo di aiuto MathFun per visualizzare un elenco completo: il valore assoluto di x della funzione esponenziale di x il numero intero ottenuto troncando x verso lo zero il logaritmo naturale di x se xgt0 il logaritmo in base 10 di x (per xgt0) il registro delle quote per probabilità x: logit (x) ln (x (1-x)) il massimo di x1, x2. xn, ignorando i valori mancanti il minimo di x1, x2. xn, ignorando i valori mancanti x arrotondato al numero intero più vicino alla radice quadrata di x se x gt 0 Queste funzioni vengono applicate automaticamente a tutte le osservazioni quando l'argomento è una variabile nel set di dati. Stata ha anche una funzione per generare numeri casuali (utile in simulazione), cioè uniforme (). Essa ha anche un ampio insieme di funzioni per calcolare distribuzioni di probabilità (necessario per valori p) e loro inverse (necessario per valori critici), tra cui normale () per la CDF normale e invnormal () per la sua inversa, vedere Funzioni di aiuto densità per maggiori informazioni. Per simulare le osservazioni normalmente distribuiti è possibile utilizzare Ci sono anche alcune funzioni specializzate per lavorare con le stringhe, vedere funzioni di stringa di aiuto. e con date, vedere la Guida funzioni di data. 2.4.4 Variabili Ricodifica Il comando recode viene utilizzato per raggruppare una variabile numerica in categorie. Supponiamo per esempio un sondaggio di fertilità ha età in singoli anni per le donne di età compresa tra i 15 ei 49, e si desidera codificare in età di 5 anni. Si potrebbe, ovviamente, usare qualcosa di simile, ma questo funziona solo per gli intervalli distanziati regolarmente (ed è un po 'criptico). Lo stesso risultato può essere ottenuto utilizzando Ogni espressione tra parentesi è una regola ricodifica, e consistono di un elenco o un intervallo di valori, seguita da un segno di uguale e un nuovo valore. Una gamma, specificato utilizzando una barra, comprende i due confini, quindi 1519 è di 15 a 19, che potrebbe essere specificato anche come 15 16 17 18 19 o addirittura 15 16 1719. È possibile utilizzare min per fare riferimento al valore più piccolo e max per fare riferimento al valore più grande, come in min19 e 44max. Le parentesi possono essere omesse quando la regola ha la forma rangevalue, ma di solito contribuire a rendere il comando più leggibile. I valori sono assegnati alla prima categoria dove cadono. I valori che non sono mai assegnati a una categoria sono mantenuti così come sono. È possibile utilizzare altro (o) come l'ultima clausola per riferirsi a qualsiasi valore non ancora assegnato. In alternativa, è possibile utilizzare mancanti e non mancanti per riferirsi a valori mancanti e non mancanti non assegnate queste devono essere le ultime due clausole e non può essere combinato con gli altri. Nel nostro esempio abbiamo usato anche la possibilità gen () per generare una nuova variabile, in questo caso age5 il difetto è quello di sostituire i valori della variabile esistente. Vi consiglio vivamente di utilizzare sempre l'opzione gen o fare una copia della variabile originale prima di ricodifica esso. È inoltre possibile specificare etichette di valore in ogni regola ricodifica. Questo è l'errore più semplice e meno soggetto che creare le etichette in una dichiarazione separata. L'etichetta opzione (l abelname) consente di assegnare un nome alle etichette create (il valore predefinito è lo stesso come il nome della variabile). Ecco un esempio che mostra come ricodificare e lo sforzo di pianificazione familiare etichetta in un solo passaggio (confrontare con i quattro comandi utilizzati nel precedente paragrafo 2.4.2). E 'spesso una buona idea per attraversare-tabulare variabili originali e ricodificati per verificare che la trasformazione ha funzionato come previsto. (Naturalmente questo può essere fatto solo se è stato generato una nuova variabile) 2.5 Gestione dei file Stata Una volta creato un file system Stata si vuole salvare il file sul disco utilizzando salvare il nome del file. sostituire. in cui l'opzione di sostituire, come al solito, è necessario solo se il file esiste già. Per caricare un file Stata è stata salvata in una sessione precedente si emette il nome del file utilizzo dei comandi. Se ci sono variabili temporanee non necessarie nel file salvato si possono cadere (prima di salvare) con goccia varnames. In alternativa, è possibile specificare le variabili che si desidera conservare, usando mantenere nomevar s. Con file di grandi dimensioni si consiglia di comprimerli prima di salvare questo comando guarda i dati e memorizza ogni variabile nel più piccolo tipo di dati possibile che non si tradurrà in perdita di precisione. E 'possibile aggiungere variabili o osservazioni in un file di Stata. Per aggiungere le variabili si utilizza il commmand unione, che richiede due (o più) file Stata, di solito con un id comune in modo osservazioni possono essere accoppiati in modo corretto. Una tipica applicazione è per aggiungere informazioni mobilia per un file di dati individuali. Tipo di aiuto si fondono per saperne di più. Per aggiungere osservazioni a un file si utilizza il comando di aggiunta, che richiede i dati da accodati per essere su un file Stata, che contiene di solito le stesse variabili come il set di dati in memoria. Si può, per esempio, avere dei dati per i pazienti in una clinica e può essere utile per aggiungere dati simile da un'altra clinica. Digitare aiuto di accodamento per saperne di più. Un comando correlato ma più specializzata è joinby. che forma tutte le combinazioni a coppie di osservazioni in memoria con le osservazioni in un set di dati esterno (vedi anche croce). copia 2017 Germaacuten Rodriacuteguez, Princeton University
No comments:
Post a Comment